Design and Implementation of an innovative framework for Speech Emotion Recognition

[English]

With this article I want to publish my thesis work in Human-Computer Interaction, for the Master’s Degree in Computer Systems Engineering at Polytechnic of Bari. 

The entire thesis has been written in Italian. For this reason, I have prepared a English brief summary explaining all materials, methods, results and conclusions. Use the following link to read the abstract: My Thesis Abstract.pdf.

[Italiano]

Titolo in Italiano: “Progettazione e implementazione di un innovativo framework per il riconoscimento delle emozioni vocali”.

Con questo post si vuole pubblicare il lavoro di tesi, svolto nella disciplina di Interazione Uomo Macchina, per la Laurea Magistrale in Ingegneria Informatica al Politecnico di Bari.

Introduzione

Lo Speech Emotion Recognition (SER) è un tema di ricerca molto attuale nell’ambito dell’interazione uomo macchina (HCI). In questo lavoro di tesi è stato progettato e sviluppato un sistema con l’obiettivo di fornire una classificazione dello stato emotivo di un generico soggetto. Grazie al lavoro di ricerca svolto da Paul Ekman si è in grado di caratterizzare lo stato emozionale in sette valori discreti (rabbia, disgusto, tristezza, felicità, paura, sorpresa e neutrale), che per quanto concerne il lavoro proposto, dovranno essere valutati partendo dal suono della voce emessa dal parlatore.

Questo risultato può essere utilizzato ad esempio: per rilevare l’insoddisfazione dei clienti in un call center remoto automatico, per monitorare il livello di attenzione di un pilota di aereo in una cabina di pilotaggio, l’andamento dei sintomi depressivi nei pazienti con disturbi dell’umore, la capacità di un insegnante di rendere interessante una lezione al fine di migliorare la qualità della lezione stessa, supporto alla selezione del personale e in molti altri contesti. Il riconoscimento delle emozioni nel parlato è un campo relativamente nuovo nella ricerca ed è stato esplorato con diversi risultati di valore. In letteratura esistono diversi lavori che esplorano le potenzialità di classificatori come le Hidden Markov models, le artificial neural network (ANN), la linear discriminant analysis, il k-nearest neighbors, le support vector machines su differenti database di enunciati; altri lavori esplorano la possibilità di selezionare caratteristiche innovative come gli short time log frequency power coefficients o il Teager energy operator.
L’obiettivo di questo lavoro è principalmente la nuova organizzazione del materiale esistente (algoritmi di base fondamentali, classi di output, strumenti software liberamente disponibili e database), allo scopo di fornire un nuovo e integrato framework, per un tool di supporto alle decisioni.
La fase di progettazione è fatta mediante l’uso di alcuni tool software, messi a disposizione dalla comunità scientifica, come Praat, Weka e Matlab. Praat è impiegato per fare fonetica e permette un’investigazione generale di quelle che sono le caratteristiche fonetiche utili (features). Weka è un software che consente di effettuare Data Mining e mette a disposizione degli strumenti di machine learning, per realizzare la classificazione. Matlab è software che permette di effettuare calcoli matematici, utili per fini statistici e la creazione di grafici. Tutti questi strumenti software saranno descritti con maggiore dettaglio nei prossimi capitoli.
In questa fase di progettazione, l’intero sistema è modulare e tutti i software menzionati cooperano al raggiungimento degli obiettivi. Sono stati eseguiti innumerevoli test, atti a verificare le performance dei classificatori e il ranking delle features mediante algoritmi di features selection. Basandoci su EmoDB e DaFEx come dataset di input, i risultati mostrano che il sistema proposto è abbastanza robusto, raggiungendo picchi di valori di accuratezza pari all’88%.
La fase d’implementazione segue le specifiche fissate durante la progettazione e adotta le strategie della programmazione object oriented (OO) del C++ per lo sviluppo di un applicativo, dotato di interfaccia grafica, finalizzato alla classificazione dello stato emozionale di un interlocutore per mezzo delle informazioni non verbali e quindi non semantiche contenute nella voce umana.

Tutti i riferimenti bibliografici sono citati all’interno della tesi.

Architettura del sistema

Architettura del sistema

Acknowledgements

Questo lavoro di tesi si inquadra nelle attività di ricerca industriale e sviluppo sperimentale finanziate al Politecnico di Bari e alla società AMT Services s.r.l. di Bari, nell’ambito del progetto PON FIT B01/0660/01-02/X17, dal titolo “Sviluppo di un sistema di rilevazione della risonanza (SS-RR)” mirato in particolare ai processi di profilazione e selezione del personale attraverso informazioni non verbali. Il Prof. Bevilacqua è il Responsabile Scientifico per il Politecnico di Bari dell’intero progetto, nonché Responsabile Tecnico dell’intero partenariato, il Prof. Guccione, suo collega, collabora attivamente a molte delle attività di questo progetto e personalmente ho avuto la possibilità di partecipare, in qualità di collaboratore, essendo risultato vincitore di una procedura di selezione insieme con altri miei colleghi dottori in ingegneria triennale.

Download

 SalatinoTesiMagistrale.pdf (Italiano – 9.2 MB)

 My Thesis Abstract.pdf (English – 686 KB)