Je m'appelle Dynalips
J'ai commencé à germer en 2011 dans l'esprit de mon créateur, Slim Ouni, maître de conférences à l'université de Lorraine au sein de l'équipe-projet Multispeech, commune à Inria et au Loria, mais je n’ai réellement pris forme qu’en 2015. Depuis, je me perfectionne sans cesse pour permettre une synchronisation automatique plus fluide entre la voix et les lèvres des personnages des films d'animation, des jeux vidéo ou des programmes destinés aux malentendants. Je suis particulièrement innovante parce que je me base sur la parole pour générer le mouvement des lèvres en trois dimensions. « Ce processus ne prend que 30 à 40 secondes », indique Slim Ouni. « Ce qui est très peu et donc très avantageux pour les studios : pour ceux qui font l'effort d'effectuer une synchronisation "à la main", et donc sans l'aide d'un logiciel, il faut en effet compter une journée de travail pour réaliser la synchronisation d'une séquence de seulement 30 secondes. »
Mon objectif: améliorer la fluidité de la parole et mieux anticiper les mouvements des lèvres, comme l’humain
Pour l'heure, l'animation labiale est loin d'être parfaite dans la plupart des films et des séries d'animation : les animateurs se concentrent sur les phonèmes (plus petite unité distinctive dans la chaîne parlée, en linguistique) afin de déduire les mouvements des lèvres. Or cette méthode ne donne pas de bons résultats, pour plusieurs raisons. « Pour que l'articulation des personnages soit réaliste, il ne suffit pas de concaténer les sons les uns après les autres », relève Slim Ouni. « Il faut anticiper certains gestes articulatoires. » Pourquoi ? « Lorsque l'on prononce certains mots, par exemple "clou", il y a des phonèmes qui se préparent dès que l'on commence à prononcer le mot : on commence à articuler le phonème "ou" de clou, avant de s'attaquer au "ke" et au "le". » C'est ce qu'on appelle la coarticulation. Et c'est ce que permet de faire Dynalips : « La technologie part de l'audio et anticipe la réalisation des phonèmes. »
Mes spécificités technologiques
La parole (acoustique ou audiovisuelle) est un domaine naturellement pluridisciplinaire : pour comprendre comment elle se forme, les scientifiques doivent connaitre aussi bien les recherches des phonéticiens, que les travaux des linguistes et des psychologues. Les chercheurs du projet Dynalips y ajoutent en outre leur propre expertise en matière de modélisation de la parole. La technologie issue de ces connaissances multidisciplinaires combine donc l’observation de l'articulation humaine avec une analyse de ces données grâce à l’intelligence artificielle, pour "apprendre" automatiquement comment articuler.
Mon créateur et porteur de projet
En charge du projet Dynalips et de la création à venir de la startup du même nom, Slim Ouni a effectué des études d'ingénieur en informatique avant de soutenir sa thèse en informatique sur le traitement de la parole. Il s'envole ensuite pour la Californie où il reste en postdoc pendant trois ans, avant de revenir en qualité d'enseignant-chercheur à Inria Nancy-Grand Est, en 2004. Il intègre alors l'équipe-projet Multispeech et planche depuis sur "la parole audiovisuelle". Une parole dont le créateur d’entreprise en herbe – qui vient de suivre une formation sur l'entrepreneuriat à l'EM Lyon – rappelle qu'elle ne devrait pas se limiter à un simple signal acoustique, mais englober aussi « toutes les informations émises par le visage lorsqu'une personne parle ».
Mes défis à venir
En tant que startup, l'équipe en charge de Dynalips – qui comprend un chercheur principal, deux doctorants et un ingénieur – ciblera principalement les entreprises qui interviennent dans deux secteurs d'activité jugés porteurs : l'animation et les jeux vidéo. Elle planche aussi sur sa prochaine internationalisation. « La solution a dès le départ été conçue pour devenir multilingue, conclut Slim Ouni. Nos modèles sont donc déjà en train d'être adaptés à d'autres langues, notamment à l'anglais. »