Des chercheurs développent une IA qui convertit les pensées en texte

Des chercheurs développent une IA qui convertit les pensées en texte

06/04/2020 Non Par Arnaud Lefebvre

Ces dernières années, le monde a découvert la puissance et la sophistication des assistants virtuels capables de décoder notre discours parlé avec précision. Les utilisateurs commencent à peine à s’habituer aux diverses capacités des assistants vocaux de Google et Amazon. Toutefois, une étape bien plus impressionnante est sur le point d’être franchie. Des chercheurs ont développé une IA capable de décoder et de convertir notre activité cérébrale en texte sans avoir écouté aucun mot prononcé, rapporte The Guardian.

Par rapport à cette technologie imminente, les systèmes d’intelligence artificielle actuels feront pâle figure et sembleront n’être qu’un jeu d’enfant.

Prothèse de la parole

L’équipe dirigée par le neurochirurgien Edward Chang du laboratoire Chang de l’Université de Californie à San Francisco (UCSF) a développé une nouvelle IA pour décoder un électrocorticogramme, à savoir l’enregistrement des impulsions électriques produites pendant l’activité corticale, captées grâce à des électrodes en contact direct avec le cortex dans le cerveau.

La création de l’équipe de l’UCSF pourrait s’avérer très utile pour les personnes incapables de parler ou de taper, par exemple, celles qui sont atteintes du syndrome de l’enfermement.

Cette IA qui lit en quelque sorte dans nos pensées pourrait ainsi aboutir au développement d’une prothèse de la parole, a déclaré le Dr. Joseph Makin, co-auteur de l’étude parue dans la revue Nature Neuroscience.

Faible marge d’erreur

Pour leur expérience, les scientifiques ont fait appel à quatre patients épileptiques portant des implants d’électrodes placés dans leur cerveau afin de surveiller leur état de santé. L’équipe a mené une expérience parallèle. Les participants ont dû lire et répéter à haute voix un certain nombre de phrases pendant que les électrodes enregistraient leur activité cérébrale pendant l’exercice.

Ces données cérébrales ont ensuite été introduites dans un réseau neuronal (un algorithme d’apprentissage automatique) qui a analysé les modèles de l’activité cérébrale correspondant à certaines signatures vocales, telles que les voyelles, les consonnes ou les mouvements de la bouche, sur la base des enregistrements audio de l’expérience. Ces signatures ont été ensuite converties en une chaîne de nombres et comparées à l’enregistrement audio. Par la suite, un autre réseau neuronal a décodé ces modèles glanés afin d’essayer de prédire ce qui avait été dit, uniquement sur la base des signatures corticales des mots. En d’autres termes, l’IA a transformé la chaîne de nombres en une séquence de mots.

Après un certain temps, le système a pu convertir cette activité cérébrale en phrases. Au départ, les séquences n’avaient guère de sens. Mais la machine a poursuivi son apprentissage et a comparé chaque séquence de mots avec les phrases réellement prononcées par les participants. Le réseau a finalement commencé à apprendre et à s’améliorer.

Le résultat final n’était pas toujours parfait. En effet, certaines erreurs étaient évidentes et les phrases prédites par le système différaient fortement des phrases prononcées.

Par exemple, la phrase « Ces musiciens s’harmonisent merveilleusement » était comprise comme « les épinards étaient un chanteur célèbre ». La phrase « le musée engage des musiciens tous les soirs » était prédite comme « le musée engage des musiciens chaque matin cher » et « une partie du gâteau a été mangée par le chien » devenait « une partie du gâteau était le biscuit ». Dans les cas les moins précis, les erreurs n’avaient pratiquement aucun rapport, sémantique ou phonétique, avec ce qui avait été dit : « elle portait une salopette en laine chaude » a été interprété comme « l’oasis était un mirage ».

Système rapide et fiable

Cependant, les chercheurs ont constaté que la précision de leur système était beaucoup plus élevée que celle des approches précédentes. La marge d’erreur n’était que de 3% en moyenne, contre 5% pour les transcripteurs professionnels de la parole humaine.

Dans l’ensemble, le système n’a pris que 40 minutes pour apprendre, ce qui prouve à quel point il peut être rapide et fiable.

Bien sûr, les transcripteurs professionnels qui traitent avec des locuteurs humains ordinaires prennent en charge des lexiques de plusieurs dizaines de milliers de mots. En revanche, le système de l’USFC n’a eu à apprendre que les signatures corticales d’environ 250 mots uniques utilisés dans un corpus limité de phrases courtes.

Bien qu’il existe de nombreux obstacles à surmonter, l’équipe estime que ce système pourrait un jour servir de base à une prothèse vocale pour les patients qui ont perdu la parole. Cela pourrait fournir à certaines personnes un moyen de communiquer avec le monde.