Modélisation audio

Comment le machine learning connecte la musique en ligne

Date:
Mis à jour le 05/07/2022
Grâce à des outils d’analyse audio, de web sémantique et de machine learning, des chercheurs d’Université Côte d’Azur, d’Inria et du CNRS ont créé une base de données unique sur plus de deux millions de chansons. Une mine d’or, accessible depuis un navigateur web, pour les compositeurs, musicologues, professeurs de musique, ingénieurs du son, diffuseurs, etc.
Machine Learning et musique
© Inria / Photo C. Morel

Un projet à l'assaut des bases de connaissances audio

Pop, rock, jazz, reggae, variétés… Grâce à Internet et aux moteurs de recherche, il n’a jamais été aussi facile d’écouter de la musique. Pour autant, cette consommation au "morceau" ne se prête pas à l’analyse et aux investigations poussées. De quoi parlent les textes de Serge Gainsbourg ? Quels sont les accords typiques de David Bowie ? Avec qui Queen a-t-il écrit, arrangé, produit ses 19 albums ? Qui sont les artistes qui ont influencé les Rolling Stones ?

« Ces questions intéressent les musicologues, les compositeurs, les professeurs de musique, les journalistes spécialisés et tous les amateurs de chanson, explique Michel Buffa, professeur à l’Université Côte d’Azur et membre de l’équipe-projet Wimmics (I3S/Inria). Or, il existe de puissants outils de modélisation, d’analyse et de machine learning pour créer des bases de connaissances très riches. C’est ainsi qu’est né le projet ANR Wasabi, mené entre 2017 et 2021. »

Parmi les partenaires, Deezer et l’Ircam

Michel Buffa, il faut le préciser, est lui-même passionné de rock et guitariste dans des groupes amateurs. Il lance Wasabi en 2017 avec plusieurs partenaires. Parmi eux, Deezer, qui met à disposition les fichiers audios de deux millions de titres, et l’Ircam (Institut de recherche et coordination acoustique/musique). Des investigations sont menées dans trois directions.

D’abord l’analyse des paroles, pour déterminer les thèmes des chansons, les lieux et personnages évoqués, la richesse du vocabulaire, la structure couplets/refrain, etc. Ensuite, l’analyse audio, pour séparer le son global en pistes par instrument, reconnaître les genres musicaux, identifier les tonalités, accords et successions d’accords, etc.

Nos projets pour un web créatif et responsable

Du machine learning pour détecter les émotions

Enfin, les chercheurs recueillent des métadonnées sur les chansons auprès d’une vingtaine de sources, des plus connues (Wikipedia, Deezer, Spotify, YouTube) aux plus inattendues. Ainsi, le site equipboard.com leur fournit les marques et modèles de guitares électriques utilisés par des centaines d’artistes tout au long de leur carrière !

Verbatim

Sur le plan scientifique, le plus difficile a été d’exploiter conjointement les données audio et sémantiques. Grâce à un site de karaoké allemand, nous avons pu synchroniser la musique et les paroles de 500 000 titres. Nous avons beaucoup utilisé le machine learning, par exemple pour détecter les émotions dégagées par les chansons en croisant leur son, leurs paroles et leur structure couplet/refrain.

Auteur

Michel Buffa

Poste

Professeur à l’Université Côte d’Azur et membre de l’équipe-projet Wimmics

Enfin un classement précis par genres musicaux

Le fruit de ces quatre ans de travail est une mine d’or. Jamais autant de données n’avaient été réunies sur autant de chansons : thème, auteur, compositeur, interprètes, musiciens, instruments utilisés, lieu d’enregistrement, nom du producteur et de l’album…

Jamais non plus ces titres n’avaient été classés par genre avec une telle précision. « C’est un problème récurrent pour les diffuseurs en ligne, à qui les maisons de disques fournissent des informations vagues voire erronées, détaille Michel Buffa. Un artiste comme David Bowie est estampillé pop-rock alors qu’il a exploré une dizaine de genres musicaux. »

Ce flou pousse les diffuseurs à préférer la promotion des titres les plus populaires… qui le deviennent encore plus. Résultat : l’écoute se concentre sur 1% du catalogue !

Avec notre classement basé sur l’analyse conjointe de l’audio et des paroles, on peut faire des suggestions bien plus variées et ciblées sur les goûts musicaux de l’auditeur.

De nouveaux services portés par le web audio

Restait à rendre ces données accessibles à tous, depuis un simple navigateur. L’équipe Wasabi y est parvenue en employant des standards du web sémantique (RDF, RDFS, SparQL) pour les décrire et formuler des requêtes.

Les possibilités d’investigation deviennent infinies. Des exemples ? Obtenir la liste des reprises de My way. Déterminer la place de sujets comme l’amour, la mort ou l’argent dans le répertoire des années 1990. Vérifier si une chanson a été plagiée. Visualiser la discographie de Led Zeppelin et en écouter un résumé sonore de deux minutes. Inventorier les musiciens avec lesquels Steven Tyler, le chanteur d’Aerosmith, a travaillé pendant sa carrière… Liste non limitative.

En parallèle, Michel Buffa a imaginé de nouveaux services portés par le standard Web Audio du W3C (World Wide Web Consortium), qui confère aux navigateurs des capacités inédites de traitement et de synthèse du son. Il propose par exemple aux professeurs d’instruments d’exploiter la séparation en pistes de chaque titre. Un professeur de guitare veut faire apprendre Smoke on the water à un élève ? Il lui envoie la partie de guitare seule pour qu’il la travaille, et le reste du morceau sans guitare, pour qu’il joue sa partie en étant accompagné par Deep Purple !

Un synthétiseur et un amplificateur de guitare en ligne

Wasabi a également donné naissance à un synthétiseur en ligne qui reproduit le son de plusieurs modèles du marché, dont un très renommé qui coûte la bagatelle de 5 000 euros.

Autre service, un simulateur en ligne d’amplificateur de guitare. Connectez votre guitare électrique à une carte son et à un PC, et vous voilà capable de jouer un son blues, métal ou acoustique assorti de nombreux effets, comme si vous étiez en studio ou sur scène. Ce simulateur fait l’objet d’un contrat de commercialisation par le CNRS.

Branchez votre guitare électrique à une carte son et à un PC et jouez comme si vous étiez en studio.

Le contenu de la base de données Wasabi est réservé aux scientifiques, pour leurs projets de recherche académique, avec des règles d’utilisation strictes qui protègent le droit d’auteur. En revanche, tout le monde peut l’interroger depuis un simple navigateur web. Les passionnés n’ont pas fini de voyager dans ses deux millions de chansons…