La vision par ordinateur est une branche de l’informatique liée à plusieurs disciplines – dont les mathématiques, les sciences cognitives, l’infographie et l’apprentissage automatique. Son objectif est d’interpréter des images et vidéos d’une façon similaire à celle du système visuel humain et donc d’élaborer des algorithmes dans ce but.
La subvention de l'ERC – 1,5 million d’euros – aidera Ivan Laptev et ses collègues à approfondir leurs recherches et, en particulier, à dépasser la simple reconnaissance d’objet, pour atteindre un stade plus utile. Par exemple, dans la rue, l’algorithme conçu serait non seulement capable d’identifier les voitures et les gens comme des objets distincts mais, en outre, il pourrait prédire ce que ces objets seraient susceptibles de faire l’instant suivant. Cela par l’analyse des interactions entre les objets et le développement de modèles statistiques décrivant ces interactions.
Élaboration de modèles statistiques
Dans l’idéal, les informations non pertinentes – ou "bruit" – seraient éliminées de la scène, de façon à ne pas interférer avec les interprétations. « Nous apprendrions ce qui est pertinent en observant de nombreuses personnes interagissant avec un même objet dans des vidéos d’événements relativement prolongés – tels qu’une fête dans une maison ou le ménage dans une habitation – enregistrées par une caméra statique », explique Laptev. Ce type de données servirait alors à construire des modèles statistiques décrivant la manière dont les personnes interagissent habituellement avec certains objets ou dans certaines scènes. Par exemple, un modèle pour cuisine pourrait identifier une personne assise sur une cuisinière comme une chose inhabituelle et potentiellement dangereuse. Le simple fait d’identifier les images ne suffit pas.
Nous aimerions que les ordinateurs soient en mesure d’interpréter des scènes complexes en vidéo ; comme lorsque des gens ouvrent des portes, s’asseyent, se serrent la main et tout un tas d’autres activités, de manière à reconnaître leurs intentions et à les alerter s’ils sont sur le point de faire quelque chose d’éventuellement dangereux, à l’instar du modèle précédent. Nous aimerions aussi pouvoir leur suggérer des actions utiles qu’ils puissent accomplir dans une scène donnée.
Analyser des films et vidéos réels
Jusqu’à récemment, ces analyses n’étaient réalisées que dans des conditions précises, avec des étudiants du groupe d’Ivan Laptev jouant des rôles bien définis. Mais la recherche a désormais atteint un stade où un ordinateur peut correctement analyser de vrais films et de vraies vidéos.
Toutefois, quelles sont les applications potentielles de cette recherche ? « L’INA en France et la BBC au Royaume-Uni sont très intéressés par notre travail, car il pourrait les aider à indexer l’énorme quantité de vidéos que ces organisations ont en archive », a déclaré le chercheur. « On pourrait faire la même chose avec les vidéos de YouTube, dont le nombre augmente chaque jour. »
La santé pourrait également en profiter ; par exemple en surveillant les personnes âgées afin d'éviter les accidents par la prédiction des situations dangereuses. Des caméras intelligentes à la maison pourraient aussi nous faciliter la vie ; notamment en enregistrant où nous avons laissé nos clés la veille au soir pour ne pas perdre de temps à les chercher le matin.