L’essentiel sur : la science des données
Date:
Mis à jour le 06/05/2024
Chaque jour, plus de 200 milliards d’e-mails sont échangés, 4 milliards de vidéos sont vues sur YouTube, 5,5 milliards de recherches sont faites sur Google, 4 milliards de messages sont échangés sur Facebook et plus de 500 millions de tweets sont envoyés. Ces chiffres, qui peuvent paraitre impressionnants, ne sont qu’une infime partie des données générées chaque jour dans le monde, par les smartphones, les cartes bancaires, les GPS, les objets connectés et autres capteurs présents dans notre quotidien.
Le développement des nouvelles technologies, d’Internet et ces réseaux sociaux depuis une vingtaine d’années a entrainé deux problématiques : le stockage de ce gigantesque volume de données numériques produites, mais également son tri, son analyse et son utilisation à bon escient.
C’est sur cette dernière que travaillent les acteurs de la science des données, un domaine à la croisée des statistiques et de l'informatique, qui consiste à exploiter de grands ensembles de données contenant des données structurées et non structurées et à identifier les modèles cachés pour en extraire des informations exploitables. La science des données utilise également des algorithmes complexes d'apprentissage automatique pour construire des modèles prédictifs.
Pourquoi est-ce important ?
Les données n'ont pas de sens tant qu'elles ne sont pas converties en informations utiles. En collectant, analysant et interprétant les données, la data science permet aujourd’hui la compréhension du fonctionnement de nombreuses industries, aussi complexes et compliquées soient-elles.
La science des données révèle des tendances et, d’une manière générale, permet et facilite la prise de décision.
La science des données emploie des techniques et des théories tirées principalement des mathématiques, du domaine statistique, et des technologies de l’information. Elle exploite notamment plusieurs technologies interdépendantes comme :
La science des données a trouvé ses applications dans presque tous les secteurs. Des économies de coûts à des processus et flux de travail plus fluides en passant par une gestion des risques plus efficace, une meilleure performance de la chaîne d'approvisionnement, ou encore de meilleurs résultats pour les personnes malades, la data science permet aujourd’hui aux acteurs des divers secteurs de faire de grands progrès, notamment en termes de précision et d’efficacité. Quelques secteurs sont malgré tout aujourd’hui plus impactés par l’évolution de la gestion de la donnée. En voici trois exemples :
Sans surprise, le secteur de la santé tire d'énormes bénéfices de l'application de la science des données appliquée à la réflexion médicale. L’extraction et l’analyse des données existantes permettent aujourd’hui de construire une vision plus précise des patients, des consommateurs et des cliniciens. La prise de décision basée sur les données ouvre de nouvelles possibilités pour stimuler la qualité des soins de santé, notamment dans l’identification de risques, le développement de nouveaux médicaments, ou encore la personnalisation des traitements en fonction des profils des patients.
Entre optimisation de la production, réduction des coûts et développement de l’autonomie, la science des données appliquée aux industries offre une véritable valeur ajoutée à ses acteurs. En se basant sur les données existantes, majoritairement issues de l’Internet des Objets, la science des données permet ainsi aux entreprises de prévoir les problèmes potentiels, de surveiller les systèmes et d'analyser le flux continu de données. De quoi notamment réduire leurs coûts énergétiques et optimiser leurs heures de production.
La science des données est également utilisée, dans un second temps, par les entreprises de logistique pour optimiser les itinéraires, afin de garantir une livraison plus rapide des produits et d'accroître l'efficacité opérationnelle.
À lire : Équipe EDGE : vers de nouveaux outils pour l’aide à la décision
Une autre application importante de la science des données est la mobilité. La demande grandissante d’une expérience de transport plus confortable, plus efficiente et moins polluante a en effet créé, ces dernières années, une pression gigantesque sur les activités d’exploitation et de maintenance du secteur de la mobilité.
Grâce à une analyse approfondie des modèles de consommation de carburant, du comportement des conducteurs et de la surveillance active des véhicules, la science des données est une réponse solide aux problématiques de l'industrie du transport, en rendant les environnements de conduite plus sûrs pour les conducteurs, en optimisant les performances des véhicules, mais aussi en créant de meilleurs itinéraires logistiques pour les acteurs professionnels de la mobilité (transport ferroviaire, aérien, maritime…).
Plus récemment, la science des données a permis l'introduction et le développement des voitures à conduite autonome, pour une utilisation toujours plus précise.
Chez Inria, plusieurs équipes-projets sont à ce jour spécialisées dans la science des données.
Au centre Inria de l'université de Bordeaux, on peut notamment citer Pleiade, Edge, Astral, HiePACS, Geostat qui a développé des outils pour traiter des grandes données, ou encore Sistm et Monc, toutes deux axées sur le domaine de la santé. Au Centre Inria de l'Université de Rennes, l’équipe-projet LACODAM facilite le processus visant à expliciter du sens à partir de grandes quantités de données, soit en dérivant de nouvelles connaissances, soit pour prendre de meilleures décisions.
Au Centre de recherche Inria d'Université Côte d'Azur, citons Maasai, Wimmics, Zenith et Lemon qui, de son côté, développe par exemple des outils théoriques et numériques (à la fois déterministes et stochastiques) pour modéliser les processus de la zone côtière, que ce soit à l'intérieur des terres ou en mer.
Magnet, Spirals, Modal, toutes trois basées au Centre Inria de l’Université de Lille, travaillent, eux aussi, sur l’analyse et la gestion des données, tout comme Cedar au Centre Inria de Saclay, ou encore Valda, Heka, Aramis et Sierra au Centre Inria de Paris.
Comment aider les journalistes à vérifier plus rapidement des faits à partir de données disponibles en ligne ? C’est la question à laquelle s’est attelée Ioana Manolescu, directrice de l’équipe de recherche Cedar.
Créée en 2015, la startup œuvre à la transition énergétique dans le domaine de l’immobilier professionnel, en proposant une solution de collecte automatique et d’analyse en temps réel des consommations énergétiques immobilières.
Le projet HistorIA a permis la publication et la mise à disposition, en 2020, d’un système de calcul des groupes (clusters) au sein d’un réseau social qui repose sur un partage d’initiatives entre algorithmes et connaissances du chercheur.
Une équipe de recherche pluridisciplinaire a dévoilé les résultats de ses recherche pour identifier les facteurs de risque de démence due à la maladie d'Alzheimer. Son originalité ? Elle s'appuie sur l'analyse des dossiers médicaux de près de 80 000 patients consultant chez des médecins généralistes, en France et au Royaume-Uni.