Au moins trois projets impliquant le centre Inria Saclay – Île-de-France sélectionnés par l’Institut DATAIA

Date:
Mis à jour le 08/04/2021
Dans le cadre de son appel à projets recherche 2018, l’institut convergence DATAIA a sélectionné GDP-ERE et MissingBigData, deux projets respectivement portés par les équipes Petrus et Parietal du centre Inria Saclay – Île-de-France, en collaboration avec l’université de Versailles Saint-Quentin en Yvelines et le CNRS. Le projet Vadore, porté par des membres de l’équipe Inria TAU pour le CNRS et l’Ensae, a également été retenu tandis que le projet HistorIA, de l’équipe Aviz avec Télécom ParisTech est en passe de l’être sous réserve de ressources financières.
Logo Dataia

Retour sur un appel plébiscité

Financé par l’Agence nationale de la recherche (ANR) dans le cadre du programme des investissements d’avenir, l’institut DATAIA en sciences des données, intelligence artificielle et société, est l'institut convergence en France dédié aux sciences des données et à leurs interfaces disciplinaires et applicatives.

Pour ce premier appel à projets recherche, l’institut DATAIA a reçu 32 propositions. Conditions d’éligibilité obligent, ces propositions s’appuient sur la collaboration d’au moins deux personnes de deux des quatorze établissements fondateurs de l’institut DATAIA, dont fait partie Inria, et qui n’appartiennent ni au même laboratoire ni au même établissement hébergeur.

Le cahier des charges de l’appel à projets disposait également que chaque proposition devait montrer en quoi elle concourait aux objectifs de l’institut DATAIA et notamment à la structuration du domaine de la science des données au sein du campus Paris-Saclay et à la création de synergies nouvelles entre les différents acteurs scientifiques en interface avec des utilisateurs ou des producteurs de données.

L’évaluation des projets, quant à elle, reposait sur des critères bien précis : l’excellence scientifique, la synergie entre les partenaires, l’interdisciplinarité et l’impact applicatif potentiel lié au sujet traité. C’est sur cette base, et après étude des sujets reçus par le comité des programmes, que les représentants de douze projets ont été sélectionnés et auditionnés le 9 avril dernier.

Le centre Inria Saclay – Île-de-France impliqué dans trois des cinq projets retenus

Au terme de ces auditions, le comité de sélection a retenu cinq projets de recherche qui proposent des sujets d’étude allant de la prédiction de la « prosommation* » d’énergie renouvelable à l’exploitation des données pour l’aide à la recherche d’emploi en passant par l’éthique dans l’interaction des agents conversationnels.

Parmi ces lauréats, on retrouve Nicolas Anciaux, responsable de l’équipe Petrus avec son projet GDP-ERE, en collaboration avec l’université de Versailles Saint-Quentin en Yvelines. Ce projet de recherche porte sur le nouveau règlement européen sur la protection des données (RGPD) et le cloud personnel :

GDP-ERE - RGPD et cloud personnel : de l’empowerment à la responsabilité

  • Porteurs et porteuses du projet : Nicolas Anciaux, Inria Saclay – Île-de-France ; Mélanie Clément-Fontaine, UVSQ ; Philippe Pucheral, Inria Saclay – Île-de-France – UVSQ ; Guillaume SCERRI, Inria Saclay – Île-de-France – UVSQ ; Célia Zolynski, UVSQ.
  • Résumé : Alors que se profile un monde bouleversé par l’intelligence artificielle et l’exploitation des données personnelles, la place des individus et la maîtrise de leurs données se sont imposées comme des questions centrales dans le nouveau règlement européen sur la protection des données (RGPD) et la loi pour une République numérique. Le projet GDP-ERE poursuit un double objectif : analyser l’impact des architectures de cloud personnel sur les enjeux de responsabilité et confronter cette analyse aux règles édictées par le RGPD ; et proposer des évolutions législatives et technologiques permettant de mieux capturer le partage de responsabilité nécessaire entre les différentes parties et apportant à chacune les outils appropriés pour les endosser. La portabilité consacre un droit de l’individu à la récupération de ses données personnelles, et ouvre des perspectives d’empowerment et de développement de nouveaux usages tels que le personal big data et le big personal data, réalisés sous le contrôle de l’individu. Le cadre juridique se limite pour l’instant à prescrire ce droit à la portabilité tout en reconnaissant qu’il s’accompagne de nouvelles formes de responsabilités, sans toutefois en préciser l’articulation entre individus, fournisseurs de plates-formes et fournisseurs de services et sans prendre en compte la variété des solutions techniques de clouds personnels. L’objectif du projet GDP-ERE est d’analyser ce double mouvement, juridique et technique, afin d’établir plus précisément les responsabilités inhérentes à l’empowerment, en conformité avec les notions juridiques existantes de responsable de traitement, de sous-traitants et de tiers, et les exemptions du RGPD, ainsi qu’à envisager la préconisation de plates-formes offrant un niveau de responsabilité graduel aux individus, de manière adaptée à la technologie.

Gaël Varoquaux, chercheur au sein de l’équipe Parietal, a également été choisi par l’institut DATAIA pour son projet intitulé MissingBigData en collaboration avec le CNRS. Comme son nom l’indique, ce projet de recherche porte sur les défis des données manquantes dans les big data :

MissingBigData: missing data in the big data era

  • Porteur et porteuse du projet : Julie Josse, CMAP - CNRS et Gaël Varoquaux, Inria Saclay – Île-de-France.
  • Résumé : Le big data, souvent observationnel et composé, plutôt qu'expérimental et homogène, pose des défis de données manquantes. Nous proposons d'utiliser des modèles plus puissants qui peuvent bénéficier des grands échantillons de données, en particulier des auto-encodeurs, pour imputer des valeurs manquantes. Pour éviter de biaiser les conclusions, nous étudierons l'imputation multiple et les conditions sur la dépendance dans les données. Notre projet vise à diminuer les facteurs de risque en matière de santé avec la prédiction de meilleurs résultats et l'identification des facteurs de risque de résultats indésirables. Nous recherchons une solution opérationnelle, de la méthodologie à la mise en œuvre, qui intègre la diversité et le volume des données. Nous nous éloignons également des études classiques en considérant plusieurs types de données manquantes. Ce qui sera une première, mais qui semble réalisable compte tenu des résultats de Mohan et Pearl (2018).

Michèle Sebag et Philippe Caillou, chercheurs au sein de l’équipe TAU, ont été sélectionnés pour leur projet Vadore , en collaboration avec le CNRS et l’Ensae, pour la valorisation des données pour la recherche d'emploi :

Vadore :  Valorisation des Données pour la Recherche d'Emploi 

  • Porteurs et porteuse du projet : Bruno Crepon, Ensae - Michele Sebag, CNRS - Marco Cuturi, Ensae - Christophe Gaillac, Ensae - Philippe Caillou, LRI
  • Résumé : Le contexte du projet est celui du chômage en France. Le chômage est un phénomène multicausal, dépendant notamment des facteurs limitant l’offre et la demande de travail. Ce projet se focalise sur le chômage frictionnel, lié aux imperfections informationnelles, dues aux coûts de collecte, de traitement et de diffusion de l’information, ainsi qu’à l’asymétrie d’information entre offreurs et demandeurs d’emploi (DE), et aux limitations cognitives des individus. Ces imperfections sont une des raisons pour lesquelles certains emplois restent inoccupés alors même qu’une demande d’emploi importante est observée dans les mêmes secteurs. L’idée centrale du projet est de mobiliser l’ensemble des informations disponibles pour améliorer l’appariement des DE et des emplois vacants. Le projet s'appuie sur la mobilisation de l'ensemble considérable des informations sur les DE et les entreprises, parmi lesquelles certaines (les données textuelles notamment) sont encore inexploitées. Ces informations seront exploitées pour élaborer deux fonctionnalités, de nature technique et d'inspiration économique différentes, les évaluer et les comparer rigoureusement.

Pour ces lauréats, le soutien de l’institut DATAIA porte sur le financement d’une thèse et d’un CDD de deux ans ou de deux thèses et éventuellement des frais de fonctionnement.

Un autre projet du centre Inria Saclay – Île-de-France en passe d’être retenu

Le niveau de qualité des projets reçus étant très élevé, l’institut a décidé d’établir une liste complémentaire de trois projets et étudie actuellement les modalités de soutien financier qu’il pourrait leur apporter.

Parmi ces trois projets, on retrouve HistorIA, un projet interdisciplinaire pour le développement de grandes bases de données historiques, porté par Jean-Daniel Fekete, responsable de l’équipe Aviz, en collaboration avec Télécom ParisTech .

HistorIA : Grandes bases de données historiques. Fouille de données, exploration et explicabilité

  • Porteurs du projet : Jean-Daniel Fekete, Inria Saclay – Île-de-France et Christophe Prieur, Télécom ParisTech
  • Résumé : Depuis le développement des méthodes big data et leur arrivée dans les sciences sociales, plusieurs initiatives très ambitieuses ont vu le jour se fixant pour objectif de changer la manière de faire de la recherche en Histoire. Pourtant, le déploiement de ces nouvelles approches se heurte à de nombreuses réticences des historiens, qui, confrontés à la difficulté du dialogue interdisciplinaire, sont souvent sceptiques sur les fins même d'une collaboration dans laquelle ils craignent, parfois à raison, d'être dépossédés d'un matériau qu'ils ont le sentiment de ne plus maîtriser lorsqu'il est transformé pour être intégré dans des bases de données. Tout autant ces procédures de transformation que celles d'analyse suscitent des doutes méthodologiques voire épistémologiques profonds, d'autant plus que les outils mis en œuvre sont souvent novateurs et n'ont donc pas pu bénéficier de nombreux retours d’expérience. Dans ce projet réunissant des chercheurs et chercheuses en Histoire, en sciences sociales computationnelles et en visualisation d'information, nous souhaitons développer des grandes bases de données historiques en y appliquant des méthodes de fouille de données, notamment autour de l'analyse des réseaux de relations, tout en mettant en œuvre une approche itérative du processus d’exploration, fondée sur l'appropriation par les utilisateurs et utilisatrices des procédures et outils mobilisés ainsi que des résultats des analyses. Pour cela, l'accent sera mis sur l'explicabilité des algorithmes et sur l’analyse progressive des données et l’interaction humain-machine.

Nul doute que la qualité des projets et la richesse des sujets proposés ont été largement à la hauteur des attentes de l’institut convergence. Affaire à suivre pour en apprendre davantage sur les projets GDP-ERE  et MissingDataIA  en espérant que HistorIA  soit également soutenu.

_____

* Prosommation : Consommation plus active et plus critique, à travers une information de plus en plus importante du consommateur.