Ivan Laptev : Faire progresser la vision par ordinateur

Mis à jour le 15/10/2020

Ivan Laptev est l’un des quatre candidats Inria retenus pour une subvention du Conseil européen de la recherche (CER) dans la catégorie des jeunes chercheurs. Son sujet, la "vision par ordinateur", consiste à simuler le système visuel humain au moyen d’algorithmes analysant le mouvement, détectant des événements et reconnaissant des objets dans des séquences vidéo. Il nous explique son travail plus en détail et présente quelques-unes des applications potentielles.

La vision par ordinateur est une branche de l’informatique liée à plusieurs disciplines – dont les mathématiques, les sciences cognitives, l’infographie et l’apprentissage automatique. Son objectif est d’interpréter des images et vidéos d’une façon similaire à celle du système visuel humain et donc d’élaborer des algorithmes dans ce but.

La subvention de l'ERC – 1,5 million d’euros – aidera Ivan Laptev et ses collègues à approfondir leurs recherches et, en particulier, à dépasser la simple reconnaissance d’objet, pour atteindre un stade plus utile. Par exemple, dans la rue, l’algorithme conçu serait non seulement capable d’identifier les voitures et les gens comme des objets distincts mais, en outre, il pourrait prédire ce que ces objets seraient susceptibles de faire l’instant suivant. Cela par l’analyse des interactions entre les objets et le développement de modèles statistiques décrivant ces interactions.

Élaboration de modèles statistiques

Dans l’idéal, les informations non pertinentes – ou "bruit" – seraient éliminées de la scène, de façon à ne pas interférer avec les interprétations. « Nous apprendrions ce qui est pertinent en observant de nombreuses personnes interagissant avec un même objet dans des vidéos d’événements relativement prolongés – tels qu’une fête dans une maison ou le ménage dans une habitation – enregistrées par une caméra statique », explique Laptev. Ce type de données servirait alors à construire des modèles statistiques décrivant la manière dont les personnes interagissent habituellement avec certains objets ou dans certaines scènes. Par exemple, un modèle pour cuisine pourrait identifier une personne assise sur une cuisinière comme une chose inhabituelle et potentiellement dangereuse. Le simple fait d’identifier les images ne suffit pas.

Nous aimerions que les ordinateurs soient en mesure d’interpréter des scènes complexes en vidéo ; comme lorsque des gens ouvrent des portes, s’asseyent, se serrent la main et tout un tas d’autres activités, de manière à reconnaître leurs intentions et à les alerter s’ils sont sur le point de faire quelque chose d’éventuellement dangereux, à l’instar du modèle précédent. Nous aimerions aussi pouvoir leur suggérer des actions utiles qu’ils puissent accomplir dans une scène donnée.

Analyser des films et vidéos réels

Jusqu’à récemment, ces analyses n’étaient réalisées que dans des conditions précises, avec des étudiants du groupe d’Ivan Laptev jouant des rôles bien définis. Mais la recherche a désormais atteint un stade où un ordinateur peut correctement analyser de vrais films et de vraies vidéos.

Toutefois, quelles sont les applications potentielles de cette recherche ? « L’INA en France et la BBC au Royaume-Uni sont très intéressés par notre travail, car il pourrait les aider à indexer l’énorme quantité de vidéos que ces organisations ont en archive », a déclaré le chercheur. « On pourrait faire la même chose avec les vidéos de YouTube, dont le nombre augmente chaque jour. »

La santé pourrait également en profiter ; par exemple en surveillant les personnes âgées afin d'éviter les accidents par la prédiction des situations dangereuses. Des caméras intelligentes à la maison pourraient aussi nous faciliter la vie ; notamment en enregistrant où nous avons laissé nos clés la veille au soir pour ne pas perdre de temps à les chercher le matin.

Ivan Laptev travaille actuellement au centre de recherche Inria Paris - Rocquencourt, institut public de recherche entièrement dédié aux sciences du numérique. Il travaille au sein de l'équipe-projet Willow associé au Département d'informatique de l’École normale supérieure, dirigé par Jean Ponce. Il a obtenu son doctorat à l’institut royal de technologie de Stockholm, en Suède, dans le laboratoire de vision par ordinateur et perception active (CVAP).