Au cours des 40 dernières années, la biologie - et particulièrement la biologie moléculaire - ont connu un essor exceptionnel. Ceci est dû à une meilleure connaissance des mécanismes biologiques, à l’amélioration des techniques expérimentales, mais également au développement d’une science particulière : la bioinformatique. Cette science nouvelle combine des approches statistique et comparative de données biologiques, la puissance de calcul des ordinateurs permettant le traitement simultané d’un très grand nombre de ces données.
Le premier domaine dans lequel la bioinformatique s’est illustrée dès la fin des années 80 est l’analyse des génomes des êtres vivants. Ces génomes sont constitués très majoritairement d’ADN, les exceptions à cette règle étant, entre autres, les virus à ARN. Un brin d’ADN est constitué de la succession de 4 molécules appelées bases nucléotidiques, symbolisées par les lettres A, T, G, C. La structure en double hélice provient de l’association d’un brin d’ADN avec un second brin, copie miroir du premier, permettant à une base A d’un brin de faire toujours face à une base T de l’autre brin. De même, une base C fait toujours face à une base G (voir illustration ci-dessus). Le génome d’un virus à ADN tel que celui responsable de la varicelle et du zona contient environ 120 000 paires de bases, celui d’une bactérie en moyenne 5 millions de paires de bases, celui de l’homme quelques 3,2 milliards de paires de bases, et les génomes les plus complexes, ceux des plantes, pourraient contenir jusqu’à 150 milliards de paires de bases. On comprend aisément, devant ces chiffres, qu’aucun traitement humain de ces données n’est possible. Dans ce domaine, ce sont les ordinateurs qui « font le job ». Pour donner au lecteur une idée de la vitesse de calcul des machines actuelles, je prends le cas de la comparaison d’une séquence d’ADN de 1 000 paires de bases issue d’une bactérie X avec les séquences des quelques 225 milliards de paires de bases disponibles dans les serveurs, dont certains sont situés à l’autre bout de la planète. Entre l’envoi de la séquence de 1 000 paires de base à partir de mon ordinateur de bureau, le traitement de la comparaison au niveau des serveurs, et le renvoi des résultats vers mon PC, il peut se passer seulement… 15 secondes alors que la vie d’un homme dédiée à cette tâche unique n'y aurait pas suffi ! Cet exemple explique bien comment la bioinformatique a pu révolutionner la génomique, mais également, au-delà, les sciences de l’évolution, ou, plus parlant aujourd’hui, l’épidémiologie. C’est effectivement parce que nous sommes en capacité de séquencer, puis comparer plus rapidement les génomes que nous pouvons facilement détecter l’apparition d’un nouveau variant du virus SARS-CoV2.
L’apport de la bioinformatique à la biologie ne se limite pas à l’analyse des génomes. Cette discipline a également permis des progrès fantastiques en biologie structurale. Pour expliquer cela, j’ai besoin de revenir à nouveau à quelques données fondamentales. Les génomes regroupent l’ensemble des gènes d’un individu. Ces gènes sont des séquences d’ADN de plus ou moins grande taille. La plupart des gènes sont lus ou lisibles par la machinerie cellulaire, qui transcrit puis traduit la séquence ADN via l’ARN messager, en séquence protéique. Les protéines jouent des rôles fondamentaux dans les cellules, assurant des fonctions très diverses, telles que, liste non limitative, la réplication de l’ADN et sa lecture, la signalisation hormonale, ou le métabolisme cellulaire puisque l’ensemble des enzymes assurant la transformation d’un produit A en produit B sont des protéines. Toutes ces protéines sont constituées d’un enchaînement de plus petites molécules appelées acides aminés. Il existe en tout et pour tout vingt acides aminés protéiques. Si certaines structures protéiques comme les hormones peuvent être de petite taille, la plupart des protéines sont des molécules de grande taille, constituées de l’enchaînement de plusieurs dizaines, et le plus souvent de plusieurs centaines de ces 20 acides aminés de base, formant une sorte de « collier de perles », de « ruban » moléculaire (voir illustration ci-dessous). L’une des découvertes majeures de la biologie moléculaire a été l’identification du code génétique qui permet, à partir de la séquence d’ADN d’un gène, de déduire avec certitude la séquence de la protéine synthétisée par la cellule. En parallèle du développement des bases de données contenant des séquences ADN, d’autres bases se sont constituées contenant des séquences de protéines dont la comparaison peut également être effectuée par bioinformatique. il est possible de déterminer la fonction d’une protéine par comparaison avec celles de protéines semblables. Il restait cependant un obstacle majeur à l’exploitation des données des séquences protéiques : que peut-on dire de la fonction d’une protéine qui ne ressemble à aucune protéine contenue dans les bases de données ? Une des façons de répondre à cette question est de déterminer la structure dans l’espace (structure dite 3D ou tridimensionnelle) de la protéine et de comparer ces structures 3D avec d’autres. Malheureusement, jusqu’à très récemment, cela était impossible. On ne pouvait, à partir de la séquence d'acides aminés, déterminer la structure 3D ! Tout au plus pouvait-on prédire avec une bonne probabilité de réussite, des éléments des structures locales de la protéine, dites structures secondaires (telles les zones en forme de ressort visibles sur le schéma ci-dessous, appelées hélices alpha).
Protéine représentée sous forme de "ruban" constitué de
l'enchaînement des acides aminés (non figurés individuellement)
Le verrou de l’impossibilité de prédiction des structures 3D des protéines a sauté, là aussi grâce à la bioinformatique et au développement de l’intelligence artificielle (IA). Le programme IA « DeepMind » de la société Google a été mis à profit pour développer le logiciel Alphafold. Au moyen d’un processus d’apprentissage progressif des données génétiques et de la structure de protéines, la première version du logiciel prédisait la distance séparant 2 acides aminés d’une protéine. Par itérations successives, la première version du logiciel pouvait alors proposer un ou plusieurs modèles consensuels, de ce que à quoi la protéine pouvait ressembler. La précision obtenue n’étant pas encore suffisante, les chercheurs ont alors eu recours à un réseau d’ordinateurs pour incorporer au système d’intelligence artificielle des informations sur les contraintes physiques et géométriques qui déterminent la façon dont une protéine se replie. Ils lui ont également confié une tâche plus complexe : au lieu de seulement s’intéresser aux seules relations entre acides aminés voisins, le réseau devait identifier les relations spatiales entre acides aminés pour des protéines de structures connues. Au final, le programme Alphafold2 et le réseau IA ont pu proposer dès 2020 la structure 3D de plusieurs protéines dont seule la séquence d’acides aminés était connue. Pour certaines de ces séquences, lorsque la structure réelle a été obtenue, il s'est avéré que la prédiction était exacte à une distance atomique près, ce qui est absolument remarquable (voir ci-dessous).
l'enchaînement des acides aminés (non figurés individuellement)
Le verrou de l’impossibilité de prédiction des structures 3D des protéines a sauté, là aussi grâce à la bioinformatique et au développement de l’intelligence artificielle (IA). Le programme IA « DeepMind » de la société Google a été mis à profit pour développer le logiciel Alphafold. Au moyen d’un processus d’apprentissage progressif des données génétiques et de la structure de protéines, la première version du logiciel prédisait la distance séparant 2 acides aminés d’une protéine. Par itérations successives, la première version du logiciel pouvait alors proposer un ou plusieurs modèles consensuels, de ce que à quoi la protéine pouvait ressembler. La précision obtenue n’étant pas encore suffisante, les chercheurs ont alors eu recours à un réseau d’ordinateurs pour incorporer au système d’intelligence artificielle des informations sur les contraintes physiques et géométriques qui déterminent la façon dont une protéine se replie. Ils lui ont également confié une tâche plus complexe : au lieu de seulement s’intéresser aux seules relations entre acides aminés voisins, le réseau devait identifier les relations spatiales entre acides aminés pour des protéines de structures connues. Au final, le programme Alphafold2 et le réseau IA ont pu proposer dès 2020 la structure 3D de plusieurs protéines dont seule la séquence d’acides aminés était connue. Pour certaines de ces séquences, lorsque la structure réelle a été obtenue, il s'est avéré que la prédiction était exacte à une distance atomique près, ce qui est absolument remarquable (voir ci-dessous).
Structure réelle en vert, structure prédite en bleu
Tout aussi remarquable est le développement par des chercheurs de l’université de l’État de Washington à Seattle, d’un autre logiciel, RoseTTAFold. Ce dernier, s’appuyant également sur des processus d’apprentissage et d’intelligence artificielle, permet depuis juillet 2021 de prédire la structure de protéines isolées, comme le fait Alphafold2, mais également celle de protéines associées à d’autres molécules. Cette dernière avancée est critique car la plupart des protéines interagissent, soit avec d’autres protéines, soit avec de petites molécules dont elles peuvent être le récepteur, ou qu’elles transforment dans le cas où ces protéines seraient des enzymes. Or bon nombre des protéines réceptrices ou enzymatiques sont la cible de molécules à visée thérapeutique, qui réduisent ou augmentent l’affinité de ces protéines pour les petites molécules naturelles dont elles sont le récepteur ou qu’elles transforment. Au-delà de la compréhension accrue de mécanismes fondamentaux en biologie, il est évident que la possibilité maintenant offerte par la bioinformatique de prédire très finement la structure d’une protéine en association avec sa molécule cible accélérera considérablement le développement de nouveaux médicaments. L’efficacité de ces nouvelles molécules pourrait ainsi être plus facilement et plus rapidement testée non plus chez l’animal en première intention, mais dans des modèles informatiques, par des approches dites in silico (dans le silicium, c'est à dire au moyen de l'ordinateur). On pourrait également envisager sur un plus long terme de tester, là aussi in silico, les effets potentiels de ces nouvelles molécules sur des protéines non-cibles* dans l’organisme auquel elles sont destinées. Cela permettra d’identifier les interactions - donc les effets - indésirables potentiels de ces nouveaux médicaments.
Tout aussi remarquable est le développement par des chercheurs de l’université de l’État de Washington à Seattle, d’un autre logiciel, RoseTTAFold. Ce dernier, s’appuyant également sur des processus d’apprentissage et d’intelligence artificielle, permet depuis juillet 2021 de prédire la structure de protéines isolées, comme le fait Alphafold2, mais également celle de protéines associées à d’autres molécules. Cette dernière avancée est critique car la plupart des protéines interagissent, soit avec d’autres protéines, soit avec de petites molécules dont elles peuvent être le récepteur, ou qu’elles transforment dans le cas où ces protéines seraient des enzymes. Or bon nombre des protéines réceptrices ou enzymatiques sont la cible de molécules à visée thérapeutique, qui réduisent ou augmentent l’affinité de ces protéines pour les petites molécules naturelles dont elles sont le récepteur ou qu’elles transforment. Au-delà de la compréhension accrue de mécanismes fondamentaux en biologie, il est évident que la possibilité maintenant offerte par la bioinformatique de prédire très finement la structure d’une protéine en association avec sa molécule cible accélérera considérablement le développement de nouveaux médicaments. L’efficacité de ces nouvelles molécules pourrait ainsi être plus facilement et plus rapidement testée non plus chez l’animal en première intention, mais dans des modèles informatiques, par des approches dites in silico (dans le silicium, c'est à dire au moyen de l'ordinateur). On pourrait également envisager sur un plus long terme de tester, là aussi in silico, les effets potentiels de ces nouvelles molécules sur des protéines non-cibles* dans l’organisme auquel elles sont destinées. Cela permettra d’identifier les interactions - donc les effets - indésirables potentiels de ces nouveaux médicaments.
Le développement de ces nouveaux programmes constitue une véritable révolution silencieuse en biologie, qui a permis de résoudre la question du repliement des protéines, un problème vieux de plus de 60 ans. Il est à noter que ces deux programmes, comme leurs codes-sources, ont été mis gratuitement à disposition de la communauté scientifique qui peut en disposer librement.
*protéines non-cibles : protéines qui ne sont pas celles visées par les nouvelles molécules.
Crédit illustrations :
De haut en bas :
Aucun commentaire:
Enregistrer un commentaire