A la fin de cet article, vous découvrez en vidéo comment cette IA à appris à isoler une seule voix dans une foule.
Des appareils comme Amazon’s Echo et Google Home peuvent généralement répondre aux demandes d’une personne seule, mais comme nous, ils se débattent dans des situations comme un cocktail bruyant, où plusieurs personnes parlent à la fois.
Désormais, une IA capable de séparer les voix de plusieurs locuteurs en temps réel promet d’augmenter considérablement la reconnaissance automatique de la parole, et pourrait bientôt se retrouver dans un ascenseur près de chez vous.
Cette technologie, mise au point par des chercheurs du Mitsubishi Electric Research Laboratory de Cambridge, Massachusetts, a été présentée pour la première fois au public lors du salon Combined Exhibition of Advanced Technologies de Tokyo.
Il utilise une technique d’apprentissage automatique que l’équipe appelle ” le regroupement en grappes profondes ” pour identifier les caractéristiques uniques de l'” empreinte vocale ” de plusieurs locuteurs. Il regroupe ensuite les caractéristiques distinctes de la voix de chaque locuteur, ce qui lui permet de démêler plusieurs voix et de reconstituer ce que chacun a dit. Il a été formé avec 100 anglophones, mais il peut séparer les voix même si un orateur est japonais “, explique Niels Meinke, porte-parole de Mitsubishi Electric.
M. Meinke indique que le système peut séparer et reconstruire la parole de deux personnes parlant en un seul microphone avec une précision pouvant atteindre 90 %. S’il y a trois haut-parleurs, la précision baisse, mais elle peut tout de même atteindre 80 %. Dans les deux cas, c’était avec des enceintes que le système n’avait jamais rencontré auparavant.
Les approches conventionnelles à ce problème – comme l’utilisation de deux microphones pour reproduire la position des oreilles d’un auditeur – n’ont réussi qu’ à obtenir une précision de 51 %.
En surmontant l'”effet cocktail party” qui a persisté pendant des décennies dans la recherche sur l’IA, la nouvelle technologie pourrait aider les assistants intelligents dans les foyers et les voitures à mieux fonctionner. Il pourrait également améliorer la transcription automatique de la parole et aider les organismes d’application de la loi à reconstituer les enregistrements des conversations brouillées par la musique, par exemple.
Lors de tests préliminaires, le système a pu séparer les voix de cinq personnes à la fois. Le système pourrait être utilisé pour séparer la parole dans une gamme de produits, y compris les ascenseurs, les climatiseurs et les appareils ménagers “, explique M. Meinke.
En effet, Mitsubishi est en train d’intégrer sa technologie de reconnaissance vocale dans les ascenseurs et les climatiseurs, entre autres produits.
Article initialement rédigé Par Richard Gray et traduit par mes soins.