Dix ans de recherche
Lancé initialement en 2007 par des membres de la communauté scientifique Python, le projet scikit-learn a connu son véritable essor dans le cadre de travaux de recherche sur l’imagerie fonctionnelle du cerveau, menés au sein de l’équipe-projet Parietal d’Inria. L’équipe avait besoin d’un outil de modélisation prédictive qui s’intégrait à l’écosystème Python. Elle a alors organisé un atelier de développement participatif ouvert, avec pour objectif d’implémenter en open source des méthodes d’analyse statistique de données. Deux ans plus tard, une version stable a pu être mise en ligne.
Scikit-learn bénéficie maintenant du soutien d’une équipe importante de développeurs et développeuses basés à Paris, mais aussi à New-York, Sydney et un peu partout dans le monde. Il est dans le top 3 des logiciels de machine learning les plus populaires sur GitHub.
Des objectifs ambitieux
Des objectifs précis ont été fixés dès le départ du projet. D’une part, afin que la bibliothèque puisse être installée facilement sur différentes plates-formes, l’équipe de développement a veillé à ce qu’elle soit bien "packagée" et dans le même temps, elle a rédigé une documentation extensive sur l’utilisation de l’outil, avec des exemples concrets. D'autre part, elle a tenu à ce que toutes les méthodes implémentées soient couvertes par une série de tests automatiques qui aident à garantir sur le long terme la qualité de la base de code.
Extraire des données complexes pour prendre des décisions
Scikit-learn extrait la structure de données complexes (bases de données, textes, images) pour les classifier en utilisant des techniques statistiques.
Scikit-learn est développé en open source et est disponible sous licence BSD. Une communauté de développeurs (internes et externes à Inria) a été rapidement constituée, ce qui a permis d’accélérer le développement de l’outil et de promouvoir des applications très diverses. Un site web (scikit-learn.org), présente de façon détaillée le projet et ses applications.
Scikit-learn est par exemple utilisé par un grand nombre d’entreprises du Web pour prédire des comportements d’achat d’utilisateurs, pour proposer des recommandations de produits ou pour détecter les tendances ainsi que les comportements abusifs (fraudes, spams , etc.). Scikit-learn sert à extraire la structure de données complexes (textes, images), et à les classifier en utilisant des techniques correspondant à l’état de l’art.
Des domaines d’application diversifiés
Un des points forts de Scikit-learn est sa généricité, qui lui assure une grande polyvalence et des domaines d’application divers et variés, tels que :
- Lutte contre la fraude et le spam ;
- Ciblage marketing ;
- Prévision des comportements des utilisateurs ;
- Optimisation des processus industriels et logistiques.
À titre d‘exemple, une utilisation grand public comme la réservation de lieux d’hébergement touristiques a impérativement besoin d’outils de machine learning comme Scikit-learn pour automatiser les tâches. Il faut faire appel à un data scientist pour comprendre les applications et les données qu’elles génèrent, afin de permettre une programmation efficace des systèmes de traitement de ces données.
En évolution permanente et continue, scikit-learn est une bibliothèque d’apprentissage statistique facile à utiliser, efficace et accessible aux non-experts en sciences des données. Au stade de l’exploration des données, l’utilisateur entre quelques lignes dans une interface interactive et peut immédiatement visualiser les résultats de sa requête.
Le consortium Scikit-learn
Pour accompagner et stimuler l’écosystème Scikit-learn, un consortium regroupant des mécènes a été créé avec le soutien de la Fondation Inria. Il doit ainsi permettre aux ingénieurs de développement d'assurer la qualité du projet et l’intégration de nouvelles contributions, ainsi que l’ajout de nouvelles fonctionnalités ambitieuses, le tout en lien et au bénéfice de sa vaste communauté d'utilisateurs et de développeurs.
Les membres du consortium (BCG Gamma, Microsoft, Axa, BNP Paribas Cardif, Intel, Nvidia et Dataiku) et les partenaires de l’initiative sont associés en tant que soutiens et mécènes à la définition des priorités de développement et à la visibilité du projet.