Prévision de la biodiversité : Une question de disponibilité des données

©Spencer Evers (Unsplash)

Dans l’article précédent, nous avons présenté notre expérience de stage avec GEO BON, dans lequel nous avons développé un modèle de prévision des contributions locales à la diversité bêta (LCBD) à l’échelle régionale, en utilisant les communautés d’espèces de parulines au Québec et en Colombie comme étude de cas. La première étape de notre projet était d’avoir accès aux données. Comme tout étudiant de cycle supérieur en écologie quantitative qui se respecte, nous avons utilisé des données ouvertes disponibles en ligne. Tel que mentionné dans l’article précédent, pour les données d’occurrence des espèces, nous avons utilisé la base de données eBird. Les données environnementales et d’utilisation du territoire, quant à elles, ont été respectivement obtenues de la base de données CHELSA et de l’Oak Ridge National Laboratory Distributed Active Archive Center (ORNL DAAC). Bien que ces jeux de données soient disponibles en libre accès, les manipulations requises pour les utiliser dans nos analyses et l’espace qu’elles occupent dans la mémoire vive peuvent être de grands défis.

Un autre facteur contraignant concernant la disponibilité des données était que les données environnementales et d’utilisation du territoire devaient être obtenues du même modèle climatique et du même scénario RCP, ce qui a grandement limité les jeux de données que nous pouvions utiliser. En ce qui a trait à eBird, nous avons également dû demander l’autorisation pour télécharger les données brutes et leur grande taille a rendu leur utilisation difficile au début du projet (58 GB pour le fichier compressé et 120 GB lorsque décompressé). Une fois en main, nous devions les transformer afin de les utiliser adéquatement; néanmoins, de façon générale, cette étape s’est déroulée sans trop d’embûches et l’ensemble des commandes pour la manipulation des données ont été exécutées dans un script de code reproductible. Cependant, les données de prévision de l’utilisation du territoire étaient plutôt difficiles à trouver à une résolution spatiale adéquate et pour la période de temps désirée. En comparaison, les données environnementales étaient beaucoup plus faciles à obtenir; en travaillant avec Julia, nous pouvions utiliser la librairie SimpleSDMLayers.jl pour directement récupérer et travailler avec les données de CHELSA. Il est également possible de répliquer notre travail en utilisant un autre langage de programmation; dans ce cas, il faudrait récupérer les données directement de CHELSA et les adapter pour qu’elles correspondent à la résolution des données d’utilisation du territoire. Dans notre cas, nous avons utilisé la fonction coarsen de SimpleSDMLayers.jl; en revanche, sans Julia, des manipulations additionnelles dans d’autres logiciels, comme R ou QGIS, seraient requises avant de conduire notre analyse. Bref, tout ceci constitue les principales difficultés que nous avons rencontrées en ce qui a trait aux données. Bien que les données que nous avons trouvées étaient adéquates pour notre preuve de concept, nous les avons surtout utilisées à cause de contraintes de temps et puisque nous n’avons pas trouvé de données plus adaptées. Si nous devions utiliser notre méthode dans un contexte plus large, il serait bénéfique d’avoir des données de meilleures qualités.

Nous allons maintenant aborder les problèmes spécifiques auxquelles nous avons dû faire face pour les différents types de données et les raisons pour lesquelles ils ont limité les jeux de données que nous pouvions utiliser. Le plus gros défi était, et sera probablement toujours, la résolution des données disponibles, surtout pour les données d’utilisation du territoire. Lorsque nous travaillons à de grandes échelles spatiales, la plupart des jeux de données disponibles ont une résolution grossière et/ou ont des données manquantes dans plusieurs zones du monde. Les données environnementales à notre disposition avaient une résolution très fine de 30 secondes d’arc, pour une largeur de pixel d’environ 1 km en moyenne. En revanche, les données d’utilisation du territoire avaient une résolution de 15 minutes d’arc, c-à-d 30 fois plus grande que les données environnementales. Nous avons trouvé un jeu de données d’utilisation du territoire avec une résolution plus fine de 3 minutes d’arc; cependant, nous avons choisi d’utiliser le premier à cause de contraintes de temps et de nos objectifs de recherche. Toutefois, même avec une résolution de 3 minutes d’arc, il pourrait quand même y avoir des difficultés avec des pixels d’environ 30 km2 comme entrée à notre modèle. En effet, l’information n’est pas utilisée à son plein potentiel lorsque l’on rend les données environnementales plus grossières. De plus, il peut être ardu de trouver des sites ayant une unicité écologique élevée en terme de LCBD si l’aire de nos communautés est aussi grande que 30 km2

Valeurs de LCBD relatives au Québec en 2020. Il est possible de constater que l’entièreté de l’île d’Anticosti est composée d’environ 30 pixels. 

Cela étant dit, ces enjeux sont surtout spéculatifs et nous aurions besoin d’exécuter notre modèle à différentes résolutions spatiales pour observer comment cela affecte nos résultats. En revanche, si nous travaillons à une résolution spatiale plus fine, il est probable qu’une grande portion du territoire ait aucune observation et nous ne savons pas comment notre modèle traiterait cela. Encore une fois, cela devra être vérifié dans de travaux futurs. Un autre aspect du jeu de données d’utilisation du territoire qui pourrait être amélioré serait d’avoir davantage d’informations sur des écosystèmes spécifiques comme les milieux humides, les déserts, les forêts décidues, etc. Le jeu de données que nous avons utilisé classifie les écosystèmes surtout d’un point de vue anthropogénique, avec des catégories comme terres forestières, pâturages, terres agricoles et milieux urbains. La principale difficulté est de trouver ce type de jeu de données à l’échelle globale (ou même à l’échelle nationale) avec une assez bonne résolution et le moins de données manquantes possibles. Encore une fois, nous ne savons pas si notre modèle a réellement besoin de données aussi précises, mais davantage de tests et de données sont nécessaires pour explorer ces enjeux. De plus, il serait pratique de pouvoir utiliser des données environnementales de prévision sur davantage d’années. En effet, nous avons seulement pu travailler avec des données moyennes de prévision pour les années 2041-2060 et 2061-2080. Cela étant dit, la résolution spatiale des données environnementales, le fait qu’elles soient globales et leur facilité d’utilisation font en sorte que le jeu de données environnementales que nous avons trouvé est d’assez bonne qualité. Finalement, si nous voulions répliquer notre étude sur un autre groupe taxonomique, obtenir des données d’occurrence pourrait s’avérer une tâche très difficile. Tel que mentionné dans l’article précédent, les données d’occurrence de parulines sont abondantes sur eBird grâce à la popularité croissante de la base de données et de l’attrait des parulines. Pour d’autres espèces, avoir une quantité comparable de données pourrait être un gros défi.

Pour conclure, nos données étaient suffisantes pour ce que nous voulions accomplir dans le cadre de notre stage avec GEO BON, mais il est toujours intéressant et passionnant de réfléchir à quel point notre approche pourrait être puissante avec des données de meilleures qualités. Tout ce dont nous avons besoin est de davantage de données, davantage de tests, d’une capacité de traitement des données plus grande et d’assez d’amour pour le métier pour faire face à tous ces messages d’erreurs.

Ce texte est le deuxième et dernier article de blog sur notre expérience de stage avec GEO BON. Grâce à cette série d’articles, nous espérons pouvoir susciter votre envie de poursuivre un stage axé sur la science dans un avenir plus ou moins proche !

Samuel Provencher-Tardif, Francis Banville, and Gabriel Dansereau

Écrit le 1er novembre 2021

Share