Biologie computationnelle ou informatique appliquée à la biologie?

Texte rédigé par William Ou, candidat au doctorat à UBC et stagiaire BIOS² depuis 2021.
Traduction libre de Varina Crisfield, candidate au doctorat à l’UdeS et stagiaire BIOS² depuis 2020.

Juste avant le début de la session de printemps, ma directrice m’a demandé si je voulais faire une présentation sur l’écologie computationnelle dans le cadre de son cours de méthodologie écologique. Elle savait que je m’intéressais à l’enseignement et que les méthodes de recherche basées sur la simulation deviennent de plus en plus populaires, mais qu’elles ne se retrouvaient pas ou peu dans les programmes de formation réguliers. Elle a donc pensé que ce serait une excellente occasion pour tout le monde.

En tant que communicateur scientifique en herbe, j’ai immédiatement accepté cette opportunité. Cependant, mon enthousiasme à répondre à cette invitation vient aussi, en partie, avec un sentiment de dépit. Du dépit parce que je ne me suis jamais vraiment considéré comme un écologiste computationnel au sens traditionnel du terme (je reviendrai sur ce point plus tard). Comme je soupçonne que la plupart des gens ne savent probablement pas ce que l’informatique dans l’écologie computationnelle pourrait être d’autre qu’un outil pour étudier l’écologie, j’ai pensé que je pouvais saisir cette occasion pour offrir une nouvelle perspective. Inspiré par l’engagement que j’ai reçu de la classe, j’ai pensé élargir la portée du matériel que j’ai partagé dans le blog de BIOS² !

Contrairement à la plupart des biologistes computationnels modernes, je n’exécute pas de scripts shell, je ne construis pas de modèles statistiques avant-gardes, je ne construis pas de réseaux neuronaux, je n’ai pas de site web HUGO, je n’écris pas en LaTeX et je ne fais rien qui nécessite du calcul de haute performance (même si j’aimerais bien le faire un jour !). C’est exactement pour cette raison que j’ai hésité à me présenter, ou même à me considérer comme un biologiste informaticien. En tant que stagiaire BIOS², vous pouvez imaginer l’anxiété que j’éprouve à me sentir un imposteur ! Mais, même si je n’utilise aucun de ces outils informatiques et que je ne pense pas être un expert en la matière, j’y pense profondément à un niveau conceptuel. En un sens, j’utilise l’informatique comme un outil conceptuel. Par exemple, il peut sembler ridicule de penser au « concept » des sites web HUGO, mais ce n’est pas si absurde. D’accord, peut-être que les sites web HUGO en particulier sont un peu ridicules, mais le concept des sites web est en fait extrêmement fascinant.

En quoi un CV hébergé sur un site web est-il différent d’un CV sur papier ? En supposant que le contenu des CV soit totalement identique, on pourrait dire qu’il n’y a aucune différence. Du moins en ce qui concerne le contenu du CV lui-même. Dans le domaine, le contenu du CV est ce qu’on appelle l’information syntaxique et c’est ce que mesure l’entropie de Shannon (c’est-à-dire la diversité de Shannon que les écologistes adorent). Mais si vous êtes pointilleux, vous pourriez dire* : « Attendez, le texte de l’un est représenté par de l’encre tandis que celui de l’autre l’est par des lumières LED ! ». Et vous auriez tout à fait raison ! Mais c’est précisément la beauté de la preuve d’Alan Turing que le calcul est indépendant du substrat, que l’information syntaxique peut être représentée (ou calculée) dans n’importe quelle forme de média. Pour reprendre les mots de Max Tegmark, « la matière n’a pas d’importance ». C’est cette profonde intuition de l’indépendance du support qui m’a poussé à m’intéresser à l’universalité du calcul, au calcul au-delà de ce qui se passe dans les puces en silicium, et en particulier au calcul dans les systèmes vivants.

Optimisation

Avant d’aborder le calcul en tant qu’outil conceptuel, il est peut-être préférable de commencer par le cœur de l’informatique : l’optimisation. À mon sens, les ordinateurs ont été conçus pour nous permettre de déléguer des tâches, souvent répétitives, fastidieuses et sans intérêt, à des machines, afin que nous puissions nous consacrer à des tâches plus urgentes, comme regarder Netflix. Au lieu d’organiser tous vos reçus et de faire de l’arithmétique pour en sortir des statistiques sommaires, il est maintenant possible d’automatiser tout ce processus en demandant à des programmes informatiques de lire vos reçus électroniques (ou de scanner un code QR) et de calculer des statistiques en une fraction de seconde. La comptabilité est désormais optimisée.

Maintenant, échangez la « comptabilité » avec un problème écologique et, au moins en principe, vous pouvez l’optimiser grâce aux ordinateurs. Dans de nombreux cas, ce problème est masqué sous le nom de « moindres carrés », utilisé lorsque nous ajustons des modèles statistiques à nos données. En trouvant les valeurs des paramètres qui correspondent à la plus petite erreur des carrés, on trouve la solution optimale. La fonction d’utilité en économie, la fonction de fitness en évolution ou, plus généralement, la fonction de coût/perte en jargon ML sont toutes du même type. Ces fonctions servent essentiellement de critère objectif permettant d’évaluer dans quelle mesure une solution particulière résout un problème donné. Si certaines des solutions à ces fonctions ont des solutions analytiques, beaucoup n’en ont pas ou sont difficiles à trouver ! C’est là que les approximations numériques ou l’essai itératif de solutions possibles à l’aide d’ordinateurs peuvent devenir très pratiques. Comme exemple trivial, essayez de trouver la ligne de meilleur ajustement en ajustant manuellement les termes de pente et d’interception : approximation numérique. Tout comme vous essayez de manière itérative des combinaisons spécifiques, nous pouvons écrire des algorithmes qui demandent aux ordinateurs de faire exactement cela pour nous.

La modélisation basée sur les données

L’exemple ci-dessus démontre comment nous pourrions utiliser des ordinateurs pour trouver les valeurs optimales des paramètres d’un modèle a priori qui correspond le mieux à nos données. Mais comment savoir si ce modèle a priori (c’est-à-dire le modèle linéaire) est le meilleur que nous puissions faire ? Au lieu de trouver les valeurs des paramètres, on peut aussi déléguer à un ordinateur le processus de construction du modèle lui-même ! Cette idée est au cœur de la modélisation basée sur les données. Au lieu de demander aux ordinateurs de trier uniquement des chiffres, nous pouvons leur demander de trier également des opérateurs mathématiques et laisser l’algorithme évoluer de manière organique, en trouvant des opérateurs et des valeurs de paramètres qui correspondent à une solution optimale et, espérons-le, sensée (!). Ce type d’approche devient indispensable notamment lorsque nous voulons prendre en compte les contraintes physiques du monde réel (par exemple, la gravité, la conservation de la masse, etc.) pour nous aider à comprendre les mécanismes qui ont généré les données que nous observons. Pour donner un exemple plus concret, bien que les lois de Kepler et de Newton (c’est-à-dire les modèles) prédisent bien les orbites des planètes dans le système solaire (c’est-à-dire que les données s’ajustent bien), le cadre explicatif derrière les deux prédictions est différent. En particulier, la relation entre la quantité de mouvement et l’énergie dans le modèle de Newton permet de l’extrapoler au-delà des planètes et de décrire le mouvement de tout objet ayant une masse. En écologie, cela revient à utiliser des tendances sinusoïdales au lieu d’équations différentielles couplées pour modéliser les données des cycles prédateur-proie ; les deux modèles peuvent bien s’adapter aux données, mais l’un d’eux contient des paramètres biologiquement significatifs.

La beauté de l’approche de modélisation basée sur les données est qu’elle nécessite un minimum d’hypothèses sur les phénomènes que nous étudions et nous permet d’explorer l’espace des explications possibles. En écologie, les espèces évoluent constamment, interagissant avec elles-mêmes, avec d’autres espèces et avec l’environnement. Ce type d’approche axée sur les données devient encore plus indispensable, car où commencer à écrire une équation qui englobe toute cette complexité ? De plus, la complexité des systèmes écologiques donne souvent lieu à des dynamiques chaotiques et à ce qui, selon moi, est au cœur de notre science (et de la section discussion de tous les articles en écologie) : la contextualité. Pour comprendre les systèmes hautement dimensionnels et leurs dépendances contextuelles, plusieurs auteurs ont suggéré qu’il n’y a peut-être pas de modèle unique unifié en écologie, et que nous devrions simplement accepter sa dépendance contextuelle et adopter une approche axée sur les données dans laquelle nous collectons constamment des données et mettons à jour nos modèles (Ye et al 2015 ; Dietze et al 2018). En fait, un écologiste a même proposé que nous nous débarrassions complètement des équations.

L’informatique en biologie

Je suppose que vous avez remarqué que le paradigme de modélisation basé sur les données décrit ci-dessus semble plutôt bayésien, n’est-ce pas ? Plus précisément, il part du principe qu’il n’existe pas de meilleur modèle unique et global (ou qu’il est impossible de l’atteindre). Elle adopte plutôt une approche itérative dans laquelle les modèles actuels sont constamment mis à jour ou réécrits en fonction de nouvelles données ou preuves. Si cette approche itérative est à la base des outils informatiques que nous utilisons, comme je l’ai peut-être laissé entendre déjà, cet algorithme itératif n’est pas unique aux ordinateurs à base de silicium. La science elle-même a été un processus itératif avant que les ordinateurs modernes n’existent. En fait, le mot « ordinateurs » désignait autrefois une profession à prédominance féminine, qui, en passant, a contribué à la découverte de la théorie du chaos (notamment Ellen Fetter et Margaret Hamilton) ! Alors que les ordinateurs humains calculent pour donner un sens au monde, utilisent les connaissances acquises pour construire des routes, lancer des satellites et extraire des ressources des profondeurs marines, il est difficile de ne pas se demander : Comment les autres organismes biologiques calculent-ils pour donner un sens à leur monde ? Et comment cela influe-t-il leur écologie et leur évolution ? C’est ce que j’appelle l’informatique biologique.

L’un des axes de recherche les plus passionnants qui, à mon avis, touche de nombreuses disciplines scientifiques consiste à concevoir la vie comme des agents de traitement de l’information. La capacité à effectuer des calculs ou à traiter des informations a été suggérée comme étant une caractéristique de la vie. Cette perspective part du principe que tous les organismes, qu’ils soient unicellulaires ou multicellulaires, non neuronaux ou neuronaux, s’engagent dans une certaine forme de cognition, en détectant des stimuli et en réagissant en conséquence. En traitant l’information, les organismes acquièrent la capacité de ne pas se contenter de réagir passivement à l’environnement extérieur, mais de le transformer et de le sélectionner activement. Mon exemple préféré est la moisissure visqueuse Physarum spp. Dans une expérience ingénieuse, Saigusa et al (2008) ont démontré qu’après avoir exposé des moisissures visqueuses à des cycles périodiques de conditions favorables et défavorables, elles étaient capables d’adapter leur comportement de manière préventive, comme si elles l’avaient anticipé ! Afin de réaliser un tel exploit, les moisissures visqueuses doivent posséder des capacités sensorielles et une certaine forme de système de stockage de l’information (c’est-à-dire une mémoire), ce qui leur permet d’intégrer des observations dans le temps et de construire des « modèles mentaux » qui prédisent leur avenir. Grâce à ces prédictions, elles peuvent prendre des décisions de survie éclairées qui sont, ou semblent être, intentionnelles. Pour moi, il s’agit d’une illustration claire de la façon dont les organismes peuvent apprendre les tendances de leur environnement pour prendre des décisions éclairées, comme s’éloigner d’un endroit avant que les conditions ne deviennent inhospitalières.

Il est très facile de se faire absorber par les détails de nos outils informatiques et d’oublier d’où ils viennent. En commençant par les observations, les protéines sensorielles ont sans doute été la première forme de matière dans l’univers capable de détecter des changements ou de faire des observations sur son environnement. L’analyse, quant à elle, bien qu’elle semble particulièrement anthropocentrique, est également omniprésente en biologie. Comme exemple évident, les réseaux neuronaux, comme leur nom l’indique, ont été inspirés de l’architecture analytique/cognitive des neurones chez les animaux. En outre, l’évolution par la sélection naturelle, un processus unique à la vie, est elle-même un algorithme d’optimisation qui constitue la base d’une classe d’algorithmes connus sous le nom d’algorithmes évolutifs.

Conscients de ces parallèles et de l’importance du traitement de l’information dans les systèmes vivants, de nombreux écologistes explorent les algorithmes utilisés par les organismes pour survivre dans des environnements bruyants, et leurs conséquences sur l’écologie et l’évolution (par exemple, Hein et al 2016 ; Bernhardt et al 2020 ; Little et al 2022). Au lieu de mettre le calcul au service de la biologie, certains mettent même la biologie au service de l’informatique : les puces en silicium devenant les tubes à essai expérimentaux dans lesquels les organismes numériques se développent, interagissent et évoluent (par exemple Fortuna et al 2013).

Bien qu’ils soient « informatiques », les chercheurs travaillant dans ce domaine posent des questions fondamentalement différentes de celles des biologistes informatiques classiques qui utilisent des outils informatiques pour donner un sens aux données. Sur la base de ce que je viens de dire, pensez-vous que ce type de biologiste computationnel justifie une nouvelle catégorie pour les classer ? La prochaine fois que quelqu’un vous dira qu’il est un biologiste computationnel, assurez-vous de préciser s’il s’agit en fait d’un biologiste computationnel ou d’un spécialiste du calcul biologique. 😉

Photo par Ray Hennessy / Unsplash