HUMAINE - Workshop on Databases - Belfast Naturalistic data Emotion in dialogue/interaction: Television databases from QUB and LIMSI (Sarkis Abrilian, Laurence Devillers, Jean-Claude Martin, Ellen Douglas-Cowie) The EmoTV Corpus HUMAINE - Workshop on Databases - Belfast
Theoretical Issues Study naturalistic and non-acted data How to annotate real-life non basic emotions ? Define a typology of non-basic emotion How do emotion and multimodality correlate ? Cross cultural studies Specification of real-life emotions in ECAs Coordination between modalities Specification of mixed emotions
Collection Video selection criteria in EmoTV1 TV monologue in interview context Realistic non acted situations Presence of emotional behavior Speaker face and upper body (close-medium shot) Multimodal signs: speech, head, face, gaze, gesture, torso French language One person Ordinary people
EmoTV-1 Video clips 51 clips from French TV channels Mostly interviews from news 48 different persons 24 different topics : politics, sport, law, religion… Duration: 12 min (4 – 43 seconds per clip) Words: 2500 (800 different words) Wide range of positive / negative emotions
Topic distribution Les critères de sélection sont : La présence du visage du locuteur dans le champ (suffisamment proche de la caméra pour que les codeurs puissent analyser les expressions faciales) ; Le focus sur une seule personne ; La présence de paroles ; Le fait que le locuteur parle français ; La bonne qualité du signal sonore (pas de recouvrements, etc.) ; Le fait que les personnes soient inconnues ; Le réalisme de la situation ; La présence d’un ou plusieurs événements émotionnels, même subtils.
Advantages & Drawbacks Spontaneous Various contexts Reveals requirements on annotation schemes at several levels Drawbacks Visibility of facial expression: glasses / hairs / beard gestures Video and audio quality Les critères de sélection sont : La présence du visage du locuteur dans le champ (suffisamment proche de la caméra pour que les codeurs puissent analyser les expressions faciales) ; Le focus sur une seule personne ; La présence de paroles ; Le fait que le locuteur parle français ; La bonne qualité du signal sonore (pas de recouvrements, etc.) ; Le fait que les personnes soient inconnues ; Le réalisme de la situation ; La présence d’un ou plusieurs événements émotionnels, même subtils.
Future directions Copyrights : TF1 (70% of the corpus), ELDA EmoTV2 More news Interaction between 2 persons Annotations with new coding schemes Study the use for specification of ECAs Perceptual tests Les critères de sélection sont : La présence du visage du locuteur dans le champ (suffisamment proche de la caméra pour que les codeurs puissent analyser les expressions faciales) ; Le focus sur une seule personne ; La présence de paroles ; Le fait que le locuteur parle français ; La bonne qualité du signal sonore (pas de recouvrements, etc.) ; Le fait que les personnes soient inconnues ; Le réalisme de la situation ; La présence d’un ou plusieurs événements émotionnels, même subtils.
Output for exemplar « Provocative » corpus Coding schemes Emotion Context Multimodal signs Samples of annotation files and video Protocole and annotation guides Collection, annotation, validation
Related talks Annotation of emotion and context Annotation of multimodal signs Les critères de sélection sont : La présence du visage du locuteur dans le champ (suffisamment proche de la caméra pour que les codeurs puissent analyser les expressions faciales) ; Le focus sur une seule personne ; La présence de paroles ; Le fait que le locuteur parle français ; La bonne qualité du signal sonore (pas de recouvrements, etc.) ; Le fait que les personnes soient inconnues ; Le réalisme de la situation ; La présence d’un ou plusieurs événements émotionnels, même subtils.