Attendibilità in psicometria: cosa significa

psicometria attendibilitàdi Marijana Milotic

Le qualità psicometriche di un test auspicabili in un test sono validità e attendibilità.
Per attendibilità di un test (Pedrabissi & Santinello, 1997) si intende “la coerenza fra i punteggi rilevato con esso in due momenti successivi; cioè i punteggi ottenuti devono essere il più possibile indipendenti dalle variazioni accidentali nelle condizioni dei soggetti testati e in quelle di somministrazione e da fattori che possono costituire fonti di errore nella misurazione”.

Come scrivono Dazzi e Pedrabissi (1999), infatti, “un test è tanto più attendibile quanto più fornisce misure accurate, cioè immuni da errori casuali. Quante più variazioni nei punteggi si ottengono a causa di errori casuali fra diverse somministrazioni di uno stesso test allo stesso gruppo di soggetti, tanto meno questi sono attendibili”.

Secondo la teoria classica del test, qualunque misurazione è costituita di una componente vera (dovuta alla variabile misurata) e da una componente di errore (dovuta ad errori casuali e sistematici).

L’attendibilità può essere definita come una caratteristica psicometrica costituita di tre aspetti fondamentali (Kline, 1993):

  1. replicabilità o stabilità
  2. coerenza interna o omogeneità
  3. oggettività

La replicabilità o stabilità è il grado in cui il test, in misurazioni ripetute nel tempo, è in grado di fornire lo stesso risultato. Similmente ad altri strumenti di misurazione, come le bilance o il metro, se misuro più volte lo stesso oggetto d’indagine dovrò ottenere presumibilmente lo stesso risultato. La replicabilità o stabilità si misura tramite il coefficiente test-retest, un indice di correlazione lineare di Bravais-Pearson. Il simbolo che rappresenta questo coefficiente è rtt, e può variare da -1 a +1. La stabilità di un test è soddisfacente se supera il valore di 0,80 (Boncori, 2006).

La replicabilità o stabilità di un test può avere alcuni problemi di rilevazione, in quanto la misurazione psicologica è diversa da quella fisica. Nelle misurazioni fisiche, ad esempio dell’altezza di un soggetto, non si osservano grandi variazioni in assenza di fasi dello sviluppo, in quanto la persona non può controllare in nessun modo, in tempi brevi, la propria altezza. Nelle misurazioni psicologiche invece, il semplice fatto di somministrare due volte lo stesso test può portare ai cosiddetti effetti d’ordine (Zammuner, 2003).

Gli effetti d’ordine possono essere definiti dall’insieme di effetti che si producono quando una persona effettua lo stesso test più volte. Ad esempio, le persone che svolgono più volte un test di intelligenza, solitamente, ottengono punteggi leggermente superiore dopo ogni misurazione. Questo non significa necessariamente che l’intelligenza del soggetto sia migliorata sensibilmente, ma molto probabilmente il soggetto avrà appreso come si risponde (effetto apprendimento), oppure avrà memorizzato gli item (effetto memoria). Altro problema delle misurazioni di stabilità di un test sono determinate dalle misurazioni di variabili particolarmente modificabili, se ad esempio misuro la stabilità dell’umore o della rabbia in tempi diversi potrei ottenere punteggi sensibilmente diversi non per l’instabilità dello strumento ma per l’instabilità della variabile.

Altra caratteristica fondamentale dell’attendibilità è la coerenza interna o omogeneità, tale caratteristica fa riferimento al grado in cui tutte le parti del test misurano allo stesso modo la variabile misurata. Se infatti, un test si propone di misurare un concetto unitario, anche le sottoparti del test (ad es., gli item) devono misurare allo stesso modo la variabile misurata, devono dunque concordare. Per poter misurare il grado di coerenza interna si utilizzano solitamente tre tipi di coefficienti:

– il coefficiente split-half con formula profetica di Spearman-Brown;
– l’Alpha di Cronbach;
– il Kuder Richardson.

Il coefficiente split-half con formula profetica di Spearman-Brown è sicuramente uno dei metodi più datati ed è utilizzato soprattutto nel passato. Avendo questo coefficiente una formula matematicamente più facile da calcolare a mano, esso era utilizzato soprattutto quando l’utilizzo del calcolo tramite computer non era possibile. Il coefficiente split-half consiste nella divisione a metà del test, solitamente, vengono divisi gli item pari dagli item dispari costituendo così due sottogruppi del test. Un altro tipo di divisione viene effettuata dividendo la prima metà del test con la seconda metà del test.

In questo modo si ottengono due metà del test, essendo che queste metà del test misurano la stessa cosa esse dovrebbero essere correlate positivamente. Per questo motivo si calcola la correlazione lineare di Bravais Pearson sulle due metà così ottenute. In questo modo si ottiene una correlazione del test con se stesso, ma solamente di una metà con l’altra, tale correlazione è per questo motivo simboleggiata con il simbolo rmm ed è dunque una stima non completa della correlazione del test con se stesso. Per questo motivo viene applicata una formula successiva chiama Formula Profetica di Spearman-Brown (Spearman, 1927), profetica proprio perché stima la correlazione totale del test con se stesso. Questo indice, per quanto rapido nei tempi di applicazione, è tuttavia impreciso, ci fa rendere conto dell’omogeneità tra due metà, ma potrebbe non cogliere le incongruenze interne alle due metà del test.

Per superare questo problema ed ottenere stime più precise, sono stati costruiti degli indici che permettono di confrontare la varianza di ogni singolo item con la varianza del test. Quando si hanno item dicotomici, ovvero che hanno solamente due alternative di risposta si utilizza la formula di Kuder-Richardson (Kuder & Richardson, 1937). Quando invece si hanno item politomici, ovvero item che hanno più di due alternative di risposta si usa la formula Alpha di Cronbach (Cronbach, 1951).
In questo caso, secondo Nunnally & Bernstein (1994) si può parlare di buoni indici di omogeneità quando i valori sono superiori a .70.

L’ultimo aspetto dell’attendibilità,come affermato precedentemente, è l’oggettività. Un test, per essere tale deve essere oggettivo e standardizzato. Quindi, valutatori del test devono essere in grado di attribuire lo stesso punteggio agli stessi soggetti. Solitamente, quando lo strumento utilizzato è un questionario, i valutatori sono in grado di attribuire costantemente lo stesso risultato agli stessi soggetti, negli ambiti di indagine legati ad aspetti maggiormente qualitativi come le interviste o le tecniche proiettive, nelle quali è difficile costruire un metodo di codifica oggettivo e indiscutibile la verifica dell’oggettività è un fattore più importante. Occorre dunque misurare la proporzione di accordo tra valutatori rispetto agli stessi testi. Le formule utilizzate sono:

– il k di Cohen
– il Q di Cochran
– la correlazione lineare di Bravais-Pearson

La formula k di Cohen indica il grado di concordanza tra due giudici che esprimono delle valutazioni, maggiore sarà il valore, maggiore sarà la concordanza. Limite di questa formula è che essa può essere applicata solamente tra due valutatori e non di più.

Altra formula utilizzata in casi diversi è il Q di Cochran, questa formula è in grado di esprimere la concordanza tra un numero dispari di giudici. Il limite di questa formula è dato dal fatto che i giudici possono esprimersi tramite dicotomie e non tramite altri valori. L’ultima formula utilizzata è il coefficiente di correlazione lineare di Bravais-Pearson, per poter parlare di un buon grado di oggettività è necessario ottenere correlazioni positive ed elevate (superiori a .80).

Se hai domande di psicometria in generale, chiedimi informazioni su igor@igorvitale.org o partecipa alle ripetizioni in psicometria che offro in tutta Italia.

Scrivi a Igor Vitale