Comment la science bâcle son utilisation de l’apprentissage automatique

Arnaud Lefebvre

il y a 2 ans

Le battage médiatique autour l’IA et de l’apprentissage automatique pousse de nombreux chercheurs, dans des domaines tels que la médecine et la sociologie, à utiliser dans la hâte des techniques qu’ils ne maîtrisent pas toujours. Et cet empressement provoque une vague de faux résultats en science, avancent deux chercheurs de l’Université de Princeton, cités par Wired.

Mauvaise application de l’apprentissage automatique en science

Si l’on observe le cours de l’histoire, on se rend compte que les guerres civiles figurent parmi les évènements les plus imprévisibles, désordonnés et horribles. Pourtant, l’année dernière, le professeur de Princeton Arvind Narayanan et son doctorant Sayash Kapoor ont été surpris de découvrir un volet de la recherche en sciences politiques prétendant prédire l’éclatement d’une guerre civile avec plus de 90% de précision, et ce, grâce à l’intelligence artificielle.

Les articles décrivant les performances surprenantes de l’apprentissage automatique, la technique sous-jacente à l’IA, sont légion depuis plusieurs années. Son application à des données telles que le PIB et le taux de chômage d’un pays permettrait de dépasser de près de 20 points de pourcentage les méthodes statistiques conventionnelles pour prédire le déclenchement d’une guerre civile, selon les articles susmentionnés.

Cependant, lorsque les chercheurs de Princeton ont regardé de plus près cette série de papiers, ils ont constaté que bon nombre des résultats étaient faussés.

L’apprentissage automatique consiste à alimenter un algorithme avec des données du passé qui l’adaptent pour qu’il fonctionne sur des données futures et invisibles. Cependant, dans plusieurs articles, les chercheurs n’ont pas réussi à séparer correctement les pools de données utilisés pour former et tester les performances de leur code. On nomme cette erreur « fuite de données ». Elle a lieu lorsqu’un système est testé avec des données déjà vues, comme un étudiant passant un test après avoir reçu les réponses.

« Ils prétendaient avoir une précision presque parfaite, mais nous avons constaté que dans chacun de ces cas, il y avait une erreur dans le pipeline d’apprentissage automatique », explique Kapoor. Lorsque lui et Narayanan ont procédé à la correction de ces erreurs, ils ont constaté dans tous les cas que l’IA n’offrait pratiquement aucun avantage.

De multiples études basées sur l’IA contiennent des erreurs

Cette expérience a incité le couple de scientifiques de Princeton à chercher à déterminer si une mauvaise application de l’apprentissage automatique déformait les résultats dans d’autres domaines. Suite à leurs recherches, ils ont conclu que l’utilisation incorrecte de la technique était un problème répandu dans la science moderne.

On dépeint souvent l’IA comme potentiellement transformatrice pour la science en raison de sa capacité à découvrir des modèles plus difficiles à discerner via une analyse de données plus conventionnelle. Au cours des dernières années, la science a eu recourt à l’IA pour progresser dans la prédiction des structures des protéines, dans le contrôle des réacteurs de fusion ou encore pour sonder le cosmos.

Pourtant, selon Kapoor et Narayanan, l’impact de l’IA sur la recherche scientifique est moins significatif dans de nombreux cas. Durant leur enquête sur les domaines scientifiques utilisant l’apprentissage automatique, ils ont découvert que d’autres chercheurs avaient identifié des erreurs dans 329 études reposant sur l’apprentissage automatique.

« De nombreux chercheurs s’empressent d’utiliser l’apprentissage automatique sans une compréhension complète de ses techniques et de ses limites. L’initiation à la technologie est beaucoup plus facile. Cela se doit partiellement au fait que l’industrie technologique s’empresse de proposer des outils et des didacticiels d’IA pour attirer les nouveaux arrivants. Et elle agit souvent de la sorte afin de promouvoir les plates-formes et les services cloud », explique Kapoor.

« L’idée selon laquelle un cours en ligne de quatre heures suffit pour utiliser l’apprentissage automatique dans votre recherche scientifique est une exagération », déclare Kapoor. Selon lui, les personnes ne réfléchissent pas aux conséquences néfastes que cela pourrait avoir.

Crise de reproductibilité

L’excitation suscitée par le potentiel de l’IA a poussé certains scientifiques à parier sur son utilisation dans la recherche. Tonio Buonassisi, professeur au MIT qui étudie de nouvelles cellules solaires, a largement recours à l’IA pour explorer de nouveaux matériaux. Selon lui, même s’il est facile de commettre des erreurs, l’apprentissage automatique est un outil puissant que nous ne devons pas abandonner. Le chercheur fait valoir qu’il est souvent possible d’aplanir les erreurs si les chercheurs de différents domaines développent et partagent les meilleures pratiques.

Récemment, Kapoor et Narayanan ont organisé un atelier pour attirer l’attention sur ce qu’ils appellent une « crise de reproductibilité » dans la science utilisant l’apprentissage automatique. Les deux chercheurs de Princeton tablaient sur la participation d’une trentaine de personnes. Au lieu de cela, plus de 1.500 personnes ont participé à l’atelier. Selon eux, cette participation massive montre l’étendue des problèmes d’apprentissage automatique dans le champ scientifique.

De nombreux domaines scientifiques concernés

Au cours de l’événement, des conférenciers ont évoqué de nombreux exemples de mauvaise utilisation de l’IA dans des domaines tels que la médecine et les sciences sociales.

Michael Roberts, associé de recherche principal à l’Université de Cambridge, a montré que dans des dizaines d’articles prétendant employer l’apprentissage automatique dans le cadre de la lutte contre la Covid-19, les données étaient faussées car elles provenaient d’une variété de machines différentes.

Jessica Hullman, professeure agrégée à la Northwestern University, a comparé les problèmes des études utilisant l’apprentissage automatique au phénomène de résultats majeurs en psychologie qui s’avèrent impossibles à reproduire. Dans les deux cas, les chercheurs ont tendance à utiliser trop peu de données et à mal interpréter la signification statistique des résultats, explique-t-elle.

L’IA n’est pas toujours l’outil le mieux adapté à la recherche

Selon Momin Malik, spécialiste des données et de l’apprentissage automatique à la Mayo Clinic, outre les erreurs courantes dans la mise en œuvre de la technique, les scientifiques utilisent parfois l’apprentissage automatique alors que ce n’est pas le bon outil pour leur recherche.

Malik illustre son propos avec un exemple frappant d’apprentissage automatique produisant des résultats trompeurs. Il s’agit de Google Flu Trends, un outil développé par Google en 2008. Google Flu Trends utilise l’apprentissage automatique pour identifier plus rapidement les épidémies de grippe à partir des journaux de requêtes de recherche des internautes.

Toutefois Google a échoué, via son projet, à prédire le cours de la saison grippale 2013. Selon une étude, le modèle de Google se basait sur des termes saisonniers n’ayant rien à voir avec la prévalence de la grippe.

« Vous ne pouvez pas simplement tout jeter dans un grand modèle d’apprentissage automatique et voir ce qui en ressort », explique Malik.

Selon Amy Winecoff, spécialiste des données au Center for Information Technology Policy de Princeton, il est important pour les scientifiques d’apprendre de bons principes d’ingénierie logicielle. Ils doivent en outre maîtriser les techniques statistiques et consacrer du temps à la maintenance des ensembles de données. Toutefois, cela ne devrait pas se faire au détriment de la connaissance du domaine.

« Nous ne voulons pas, par exemple, que les chercheurs en schizophrénie en sachent beaucoup sur le génie logiciel, mais peu sur les causes du trouble », explique-t-elle.

Winecoff suggère qu’une plus grande collaboration entre les scientifiques et les informaticiens pourrait aider à trouver le bon équilibre.

Les conséquences réelles d’une utilisation abusive de l’apprentissage automatique

L’utilisation abusive de l’apprentissage automatique en science est un problème en soi. Par ailleurs, elle laisse présager que des problèmes similaires sont certainement courants dans les projets d’IA d’entreprise ou gouvernementaux moins ouverts à un examen extérieur.

Seln Malik, une mauvaise application des algorithmes d’IA entraîne des conséquences réelles, telles que refuser injustement à quelqu’un des soins médicaux ou déconseiller injustement la libération conditionnelle.

« La leçon générale est qu’il ne faut pas tout aborder avec l’apprentissage automatique », dit-il. « Malgré la rhétorique, le battage médiatique, les succès et les espoirs, il s’agit d’une approche limitée. »

Selon Kapoor , il est vital que les communautés scientifiques commencent à réfléchir à la question.

« La science se basant sur l’apprentissage automatique en est encore à ses balbutiements. Il est urgent de réfléchir à ces questions car cela peut avoir des conséquences très néfastes à long terme. »