Biogéographie et Ecologie des Vertébrés

Pierre-Edouard GUERIN

pierre edouard guerin photo webIngénieur d'étude, bioinformaticien

Diplômé du master professionnel double compétence informatique et biologie de l’Université Paris Diderot, j'apporte mes compétences en programmation pour de nombreux projets scientifiques en collaboration avec des équipes de recherche.

CEFE/CNRS
Campus du CNRS
1919, route de Mende
34293 Montpellier 5

  • mail:Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • website:https://guerinpe.com/

 

 

Introduction

Mon travail consiste à développer de nouvelles applications informatiques pour l’analyse et la visualisation des mégadonnées issues du séquençage ADN haut-débit (génomique, ADN environnemental). J’assure également la veille technologique pour mettre en place de nouvelles méthodes de traitement des données et optimiser la reproductibilité scientifique. Outre les développements logiciels au sein de mon équipe, je collabore avec de nombreux biologistes à l’organisation et la gestion du traitement des mégadonnées issus pour la recherche. Je participe à des réseaux professionnels (Madics, RIS, jebif) et je suis membre de la Société Française de Bioinformatique. Enfin, je rédige des articles de vulgarisation en français autour de mon métier pour la communauté bioinfo-fr.

Développement logiciels 

J'ai travaillé sur des projets stimulants liés au séquençage de génomes entiers, à l'appel de variants génétiques (technologie RAD-seq), à l'assemblage du génome, à l’ADN environnemental metabarcodinget et à l'analyse de données génétiques combinées avec la géographie et des descripteurs environnementaux de grandes banques de données internationales et à la production de résultats dans des délais serrés.

  

Reservebenefit

RESERVEBENEFIT est un projet de recherche européen financé par une ANR sur lequel je suis pleinement engagé entre 2017 et 2020. Il vise à estimer la connectivité des réserves marines en Méditerranée pour plusieurs espèces de poissons pêchés en investiguant les données génétiques et géographiques.

Pour ce projet j’ai réalisé et mise en production un workflow d'analyse de megadonnées de séquençage ADN (technologie RAD-seq) sur 1200 individus parmi 3 espèces de poissons en Méditerranée.

Combinaison de scripts et de programmes codes en python, bash et C en utilisant les outil tiers STACKS et VCFtools. Les calculs sont réalisés sur cluster. Le workflow final a été recodé en snakemake pour permettre la reproductibilité scientifique. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/snakemake_stacks2

Assemblage de génomes

Conception du protocole et assemblage de la première séquence génomique de référence pour le rouget de roche (Mullus surmuletus), le serran (Serranus cabrilla) et le sar (Diplodus sargus). Sélection des prestataires pour le séquençage. Les librairies sont illumina paired-end et mate-pair ainsi que linked-read (technologie 10X Genomics). 

Plusieurs assemblages exploitant les différentes librairies ont été réalisés avec les logiciels Platanus, Abyss, Supernova et ARCS. Les calculs ont été réalisés sur le cluster MESO@LR(ordonnanceur : SLURM). Les assemblages ont été évalués avec QUAST et les annotations avec Augustus et BLAST. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/genomic_resources_for_med_fishes

Megafauna

Réalisation et mise en production de workflows d'analyse des megadonnées metabarcoding d'ADN environnemental marin de l’expédition océanographique de MONACO. Les workflows sont un ensemble de commande bash utilisant différents outils tels que obitoolsswarmvsearch,usearchet dada2. Le workflow final a été recodé en snakemakeet nextflowpour permettre la reproductibilité scientifique. Portage sur différents système d’exploitation avec l’utilisation de conteneurs (singularity). Les calculs ont été réalisés sur les serveurs du laboratoire MARBEC. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/edna

 

Carte marine de la diversité génétique des actinoptérygiens (poissons)

Minage et curation de plusieurs banques de données BOLDpour les séquences ADN mitochondriales géoreferencées, fishbasepour les informations relatives aux espèces de poissons, gmed, gebcoet wordclimpour les descripteurs environnementaux. La programmation est en python mais utilise le nouveau langage de programmation juliapour le calcul de la diversité génétique. Les analyses statistiques sont faites avec le langage R. Un conteneur est disponible pour permettre le portage des analyses sur d’autres systèmes sans avoir besoin d’installer les dépendances. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/worldmap_fish_genetic_diversity

Évaluation comparative des méthodes d’analyse de megadonnées metabarcoding  

Développement et comparaison de protocoles informatiques du traitement de la donnée de séquençage ADN environnemental metabarcodingen étroite collaboration avec la société SPYGEN. Les calculs ont été réalisés sur le cluster de l’Université de Montpellier (ordonnanceur : SGE). Les codes sont confidentiels, ce projet est toujours en cours de développement.

Aker

Analyses du génome de la betterave (Beta vulgaris) en exploitant des données chipseq et les séquences génomiques réferences pour caractériser les régions génomiques associées à la sécheresse. La programmation est une combinaison de scripts bash, python et R. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/aker/beetgenomeenvironmentassociation

Seaconnect

Traitement de données de séquençage de génome réduit (RAD-seq) avec une faible couverture de plus de 500 individus du rouget de roche (Mullus surmuletus). La programmation est une combinaison de python, R et bash. Portage sur différents système d’exploitation avec l’utilisation de conteneurs. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/seaconnect

Genbar

Développement logiciel C++ détection et assignation des individus à des populations génétiques à partir de données ADN type génotypage. Les codes sont confidentiels, ce projet est toujours en cours de développement.

Services pour l’équipe « Biogéographie des Vertébrés »

Je suis membre de l’équipe « Biogéographie des Vertebrés », j’apporte un soutien technique en informatique :

  • Lien avec la plate-forme de bioinformatique du CEMEB
  • Lien avec les plates-formes techniques du CEFE
  • Réalisation de conteneurs pour permettre la portabilité des programmes vers le cluster de calcul
  • Atelier de formation 1 : Utilisation des workflows d’analyse en metabarcoding
  • Atelier de formation 2 : Utilisation de l’outil GIT et des forges logicielles
  • Organisation de la mise et en forme et du stockage des données

 

Principales disciplines / approches / systèmes d'étude :