Una ricerca rumena dimostra come individuare la depressione con le espressioni facciali
La ricerca ha dimostrato che è possibile usare il riconoscimento automatico delle espressioni facciali per identificare ansia, depressione e stress.
Per la prima volta in letteratura, con lo studio di Gavrilescu e Vizireanu (2019), è stata presentata una ricerca con lo scopo di determinare i livelli di DASS (Depression Anxiety Stress Scale) analizzando le espressioni facciali tramite il Facial Action Coding System (FACS).
La DASS ed il FACS sono i due strumenti principali su cui si basa la ricerca; mentre il FACS è già stato sufficientemente preso in considerazione nei capitoli precedenti, la Depression Anxiety Stress Scale è uno strumento ampiamente utilizzato per determinare la gravità dei tre stati emotivi, quali la depressione, l’ansia e lo stress.
In questo studio è stato utilizzata una versione DASS che utilizza uno specifico questionario di autoanalisi (SAQ). Generalmente il FACS è utilizzato per determinare le emozioni degli individui, ma la sfida principale che gli autori si sono apprestati ad affrontare è stata quella di cercare di determinare la possibilità dell’utilizzo del FACS per valutare la gravità di depressione, ansia e stress.
Come identificare depressione, ansia e stress con le espressioni facciali
La depressione, l’ansia e lo stress sono stati emotivi che influenzano la salute mentale e fisica di tutti e sono fortemente collegati fra loro: lo stress cronico può attivare meccanismi difensivi nel cervello che portano all’ansia, i sentimenti ansiosi costanti possono causare depressione e, successivamente, gli stati depressivi intensificano lo stress mentale e fisico.
Questa connessione ha suggerito agli autori che fosse più adatto valutare i tre stati emotivi insieme piuttosto che separatamente ed infatti, è stata una delle chiavi vincenti dello studio; miravano a determinare quale fosse la migliore struttura e configurazione basata su rete neurale per prevedere i livelli di DASS usando le caratteristiche facciali, quindi si sono concentrati sull’analisi di come le reti neurali feed-forward (FFNN) potessero essere utilizzate per prevedere i livelli di DASS con estrema precisione.
Valutando se una singola FFNN potesse essere utilizzata per prevedere la depressione, l’ansia e lo stress o se tre FFNN per ciascuno dei tre stati emotivi fornissero una migliore precisione, hanno scoperto che la massima precisione per la previsione di tutti e tre gli stati emotivi è stata ottenuta usando una singola FFNN per modellare tutti e tre gli stati emotivi, evidenziando quindi, che la depressione, l’ansia e lo stress sono fortemente collegati dal punto di vista facciale.
La relazione tra espressioni facciali e depressione
Lo studio di Gavrilescu e Vizireanu (2019), oltre ad essere il primo in letteratura che ha analizzato la relazione tra FACS e Depression Anxiety and Stress Scale (DASS), propone una nuova architettura non intrusiva basata su tre strati, con l’obiettivo di determinare i livelli DASS con elevata accuratezza e con bassi tempi di previsione.
Nel primo strato sono stati utilizzati un metodo basato su Active Appearance Models (AAM) ed un set di classificatori Multiclass Support Vector Machine (SVM) per la classificazione delle unità d’azione (AU).
Le unità d’azione della depressione (action unit)
Le AU analizzate sono state in tutto 31, di cui 8 corrispondenti alla contrazione dei muscoli nella parte superiore del viso, 20 nella parte inferiore del viso e 3 riguardanti le aree delle guance; tutte le AU analizzate sono state trattate individualmente, come non additive.
Le Unità d’Azione sono state classificate con un’accuratezza superiore al 90%, il che ha offerto una solida base per il compito più complesso di prevedere i livelli di DASS.
Nel secondo strato è stata costruita una matrice facciale (FM) contenente i livelli delle AU classificate; l’output dei classificatori SVM nel primo strato ha restituito il livello di intensità stimato per ciascuna AU analizzata e tale livello è stato poi normalizzato a intervalli.
La matrice facciale della depressione
Con i valori normalizzati è stata costruita la Matrice Facciale (FM), in cui ciascun fotogramma della registrazione analizzata corrispondeva ad una colonna e ciascuna colonna era composta dai livelli di AU presenti in quel determinato fotogramma.
Nel terzo strato, una rete neurale feed-forward ottimale (FFNN) ha analizzato la matrice del secondo strato in un compito di riconoscimento del modello, prevedendo i livelli di depressione, ansia e stress:
- normale
- lieve
- moderato
- grave
- ed estremamente grave
Nel momento in cui 30 nuove colonne sono state aggiunte alla FM (corrispondenti a 30 frame), sono poi inviate al terzo strato, dove la struttura neurale feed-forward analizza i pattern e restituisce i livelli DASS previsti del soggetto analizzato. (Fig.2)
A causa della mancanza di un database che colleghi il FACS con i livelli DASS, per testare l’architettura proposta, gli autori hanno creato un nuovo database raccogliendo campioni:
- da 128 soggetti caucasici (64 uomini e 64 donne)
- di età compresa tra 18 e 35 anni,
- i quali soffrivano, a livelli diversi, di depressione, di ansia o di stress,
- di cui 20 soffrivano di DDM, 19 di GAD e 17 di PTSD, ma nessun soggetto era in condizioni comorbide.
Come è stato costruito il database di espressioni facciali
Per la costruzione del database sono state analizzate le registrazioni frontali dei soggetti, sia in scenari controllati (sei registrazioni video di un minuto di faccia frontale, corrispondenti alle sei emozioni di base), ovvero quando l’emozione è stata indotta, sia in scenari casuali, ovvero quando non è stata indotta alcuna emozione (5 registrazioni video di un minuto) – assicurandosi che fosse visualizzata in entrambi variabilità intra-soggetto e inter-soggetto – e i corrispondenti risultati SAQ, nonché i risultati del
questionario sulle emozioni discrete (DEQ), dopo che i soggetti avevano guardato ciascuno dei sei video che hanno indotto emozioni.
La ricerca su espressioni facciali e depressione
I campioni sono stati raccolti per ogni soggetto sei volte, con una pausa di due settimane tra le sessioni, così da includere le possibili dinamiche degli stati emotivi nel tempo. Infine il database è stato diviso in due set di dati, dove DSC corrisponde al dataset controllato, contenente campioni raccolti quando è stata indotta l’emozione e DSR corrisponde al dataset casuale, contenente campioni raccolti quando non è stata indotta alcuna emozione.
Fig.2 Architettura per predire i livelli DASS usando il sistema FACS
Fonte: Gavrilescu, M., & Vizireanu, N. (2019). Predicting Depression, Anxiety, and Stress Levels from Videos Using the Facial Action Coding System. Sensor, (MDPI), p.9.
Metodologia intra-soggeto ed inter-soggettiva per depressione e FACS
Nella metodologia intra-soggetto, poiché l’output dell’architettura è rappresentato dai cinque livelli DASS, una previsione di successo è stata considerata quando il livello DASS previsto era lo stesso di quello risultante dal SAQ completato da un soggetto durante la stessa sessione in cui è stato raccolto il campione.
Nella metodologia inter-soggettiva, invece, è stato utilizzato un approccio di esclusione, per cui l’architettura è stata addestrata su campioni DSC e DSR di 127 soggetti e testata sui campioni del soggetto rimanente.
I 30 test sono stati ripetuti finché tutti i campioni sono stati utilizzati per testare il sistema e tutti i soggetti sono stati coinvolti nella fase di test.
Per entrambe le metodologie è stato riscontrato che la massima precisione di previsione avviene quando l’architettura è addestrata con campioni DSC, mentre per i test è possibile usare anche le registrazioni video raccolte in situazioni naturalistiche (DSR); questa osservazione rende estremamente pratica l’architettura, in quanto deve solo essere pre allestita con i campioni del DSC, ma le successive valutazioni dei livelli di DASS di un soggetto, ad esempio, possono essere fatte in condizioni reali, senza indurre emozioni e, quindi, può essere utilizzata in tempo reale per monitorare le dinamiche facciali di un paziente e valutare il livello (o
gravità) di depressione.
L’attendibilità del metodo per riconoscere la depressione con le espressioni facciali
Con la metodologia intra-soggetto è stata ottenuta una precisione dell’87,2% per la depressione, mentre con la metodologia inter-soggetto la precisione corrisponde al 78,6%, ma in entrambe le metodologie è stato dimostrato che il livelli DASS intermedi (lieve, moderato e grave) sono stati previsti con una accuratezza significativamente inferiore, poiché questi livelli erano spesso scambiati per livelli vicini e quindi l’architettura proposta può prevedere con successo se un soggetto, ad esempio, è affetto da depressione,
ma non offre gli stessi risultati accurati per distinguere tra i livelli di gravità dei tre stati emotivi esaminati.
Il tempo di previsione medio è stato di 56 s nella metodologia intra-soggetto e 64 s nella metodologia inter-soggetto; significativamente più veloce del tempo necessario per completare il questionario SAQ (25 min).
Ciò dimostra che l’architettura è veloce e può essere utilizzata in tempo reale per monitorare i tre stati emotivi, è quindi, un’alternativa interessante ai metodi basati sui questionari (Gavrilescu & Vizireanu, 2019).
Il 93% delle valutazioni della depressione era accurata
L’architettura è stata anche testata per discriminare tra soggetti sani e soggetti affetti da disturbi specifici, come il Disturbo Depressivo Maggiore, ed è stata ottenuta un’accuratezza del 93% nella previsione del DDM, confermandosi come un possibile strumento per la diagnosi del disturbo.
Un altro risultato estremamente interessante è derivato dall’intenzione degli autori di riscontrare correlazioni tra emozioni, FACS e livelli DASS, così hanno creato un’applicazione di sfondo che cercasse AU di intensità D ed E nella FM ogni volta che un livello estremamente grave fosse stato correttamente previsto.
Ciò ha portato alla scoperta che una determinata combinazione di Unità d’Azione, quali:
- AU 6 (contrazione per il sollevamento dell guance)
- Action Unit 12 (contrazione dell’angolo delle labbra)
- AU 15 (depressore dell’angolo delle labbra)
- AU 26 (abbassamento della mascella) si rivela unica e determinante per la depressione.
In conclusione, è possibile affermare che l’architettura proposta da Gavrilescu e Vizireanu (2019) potrebbe diventare, in un futuro non troppo lontano, un utile strumento per i professionisti della salute per valutare e monitorare la gravità della depressione nel paziente, per diagnosticare con successo un Disturbo Depressivo Maggiore (DDM) e data la sua affascinante velocità nei tempi di risposta è adeguata ad un utilizzo in tempo reale, senza dimenticare che a renderlo ancora più promettente è il fatto che si tratti di
uno strumento non invasivo.
Conoscere la gravità della depressione associata ad un soggetto e monitorare i livelli nel tempo può aiutare ad agire in modo proattivo per fermare i problemi mentali cronici, come il Disturbo Depressivo Maggiore (DDM).
Questo articolo di depressione ed espressioni facciali è di Valentina Cantini
Scrivi a Igor Vitale