L’apprentissage automatique pourrait accélérer le développement de nouveaux médicaments contre les virus

02/02/2022 Non Par Arnaud Lefebvre

Les anticorps, des protéines produites par le système immunitaire de l’individu, sont capables de se fixer sur des zones précises d’un virus pour en permettre la neutralisation. Dans ce sens, des scientifiques du MIT, Institut de technologie du Massachusetts, cherchent à développer, via un modèle d’apprentissage automatique, le développement d’un anticorps synthétique. Celui-ci serait capable de se lier aux protéines de pointe du virus. Il constituerait ainsi une arme létale contre les virus en permettant de bloquer leur pénétration dans une cellule humaine.

L’apprentissage automatique pour découvrir le complexe protéique idéal

Pour parvenir à la conception d’un anticorps synthétique, les chercheurs doivent comprendre le processus exact d’attachement. Pourvues de structures 3D grumeleuses constituées de nombreux plus, les protéines peuvent se loger et s’agglutiner dans un grand nombre de combinaisons de plis. Découvrir le complexe protéique idéal parmi une multitude de candidats prend donc énormément de temps.

Afin de rationnaliser ce processus de sélection, les scientifiques du MIT ont développé un modèle d’apprentissage automatique spécifique. Celui-ci est capable de prédire la formation du complexe protéique ayant lieu lors de l’association de deux protéines. L’avantage de cette technique est sa rapidité entre 80 et 500 fois supérieure à celles des méthodes logicielles les plus avancées. Par ailleurs, la méthode des scientifiques est capable de prédire plus régulièrement des structures protéiques davantage similaires aux structures réelles observées expérimentalement.

D’autre part, cette méthode peut également aider les scientifiques dans leur compréhension de certains processus biologiques impliquant des interactions protéiques telles que la réparation et la réplication de l’ADN. D’un point de vue général, cette technique pourrait permettre d’accélérer le développement de nouveaux médicaments contre les virus.

Octavian-Eugen Ganea, co-auteur principal de l’étude, postdoctorant au CSAIL , le laboratoire d’informatique et d’intelligence artificielle du MIT, a souligné l’efficacité de l’apprentissage en profondeur lors de la capture des interactions protéiques.

Actuellement, les chimistes et biologistes éprouvent des difficultés lors de la formulation expérimentale de certaines de ces interactions protéiques.

« Certaines d’entre-elles sont très difficiles à exprimer. Ce modèle d’apprentissage peut apprendre ces interactions à partir des données », a déclaré le chercheur.

Fixation des protéines

Equidock, le modèle développé par les chercheurs, se focalise sur l’amarrage du corps rigide. Cela se produit lorsque deux protéines s’attachent par rotation ou déplacement dans l’espace 3D. Toutefois, dans ce cas de figure, les formes des protéines ne se plient pas ou ne se compriment pas.

Le modèle des scientifiques prend les structures de deux protéines. Il les transpose en graphiques 3D que le réseau neuronal analyse ensuite. Les protéines sont conçues à partir d’acides aminés. Chacun d’entre eux est représenté, dans le graphique, par un nœud.

Le modèle a été alimenté de données géométriques permettant de l’aider à comprendre la manière dont les objets peuvent être modifiés lors d’une rotation ou d’un déplacement dans un espace 3D. Il a également été approvisionné en connaissances mathématiques garantissant une fixation identique des protéines, peu importe leur emplacement au sein de l’espace 3D.

Le système, via ces données, peut identifier les atomes de deux protéines les plus susceptibles d’interactions et de formations de réactions chimiques. Ceux-ci sont nommés points de poche de liaison ou de fixation. Le système utilise ces points pour placer deux protéines conjointement au sein d’un complexe.

Ganea a expliqué que s’il était possible de comprendre, via des protéines, quelles zones individuelles sont susceptibles d’être ces points de fixation, il serait possible de capturer toutes les données nécessaires pour placer les deux protéines ensemble. Si les scientifiques parviennent à trouver ces deux ensembles de points, ils pourront découvrir comment provoquer le pivotement ou le déplacement des protéines afin qu’un ensemble corresponde à l’autre ensemble.

Pour le développement de leur modèle, les scientifiques se sont heurtés au manque de données de formation. Il était donc important d’intégrer des connaissances géométriques dans le modèle d’apprentissage automatique Equidock car il existe peu de données expérimentales 3D pour les protéines.

Performances du modèle d’apprentissage automatique Equidock

Une fois la formation de leur modèle terminée, les scientifiques l’ont comparé à quatre autres techniques logicielles. Il a fallu entre 1 et 5 secondes à Equidock pour la prédiction du complexe protéique final.

Toutes les autres méthodes de référence ont pris beaucoup plus de temps. Il leur a fallu entre 10 min et une heure ou plus pour prédire le complexe protéique final.

En ce qui concerne les mesures de qualité, qui calculent le taux de correspondance du complexe protéique prédit au complexe protéique réel, les performances d’Equidock étaient similaires aux points de comparaison. Toutefois, le système des chercheurs a parfois été en-deca de ces points de référence.

Ganea a expliqué que leur méthode pouvait être améliorée en raison de son retard sur l’un des points de comparaison. Cette technique pourrait être utilisée pour comprendre les capacités d’interaction de milliers de protéines et leur formation de complexes protéiques. Equidock pourrait permettre de générer rapidement un ensemble initial de candidats. On affinerait ensuite les candidats via certaines méthodes traditionnelles plus lentes.

Par ailleurs, les chercheurs souhaitent intégrer à Equidock des interactions atomiques spécifiques. Cela lui permettrait d’aboutir à des prédictions plus précises. Leur méthode pourrait en outre servir à la conception de molécules semblables à des médicaments. Ces petites molécules se fixent à la surface des protéines de manière spécifique. Par conséquent, la compréhension rapide de ce type de fixation permettrait de réduire la durée de développement de médicaments.