Pierre-Edouard GUERIN

pierre edouard guerin photo webIngénieur d'étude, bioinformaticien (2017 - 2021)

Diplômé du master professionnel double compétence informatique et biologie de l’Université Paris Diderot, j'apporte mes compétences en programmation pour de nombreux projets scientifiques en collaboration avec des équipes de recherche.

CEFE/CNRS
Campus du CNRS
1919, route de Mende
34293 Montpellier 5

  • mail:This email address is being protected from spambots. You need JavaScript enabled to view it.
  • website:https://guerinpe.com/

 

 

Introduction

Mon travail consiste à développer de nouvelles applications informatiques pour l’analyse et la visualisation des mégadonnées issues du séquençage ADN haut-débit (génomique, ADN environnemental). J’assure également la veille technologique pour mettre en place de nouvelles méthodes de traitement des données et optimiser la reproductibilité scientifique. Outre les développements logiciels au sein de mon équipe, je collabore avec de nombreux biologistes à l’organisation et la gestion du traitement des mégadonnées issus pour la recherche. Je participe à des réseaux professionnels (Madics, RIS, jebif) et je suis membre de la Société Française de Bioinformatique. Enfin, je rédige des articles de vulgarisation en français autour de mon métier pour la communauté bioinfo-fr.

Développement logiciels 

J'ai travaillé sur des projets stimulants liés au séquençage de génomes entiers, à l'appel de variants génétiques (technologie RAD-seq), à l'assemblage du génome, à l’ADN environnemental metabarcoding et et à l'analyse de données génétiques combinées avec la géographie et des descripteurs environnementaux de grandes banques de données internationales et à la production de résultats dans des délais serrés.

 

Reservebenefit

RESERVEBENEFIT est un projet de recherche européen financé par une ANR sur lequel je suis pleinement engagé entre 2017 et 2020. Il vise à estimer la connectivité des réserves marines en Méditerranée pour plusieurs espèces de poissons pêchés en investiguant les données génétiques et géographiques.

Pour ce projet j’ai développer, tester, déployer un workflow d'analyse des données brutes de séquençage ADN (technologie RAD-seq) sur 1200 individus parmi 3 espèces de poissons en Méditerranée.

Combinaison de scripts et de programmes codes en python, bash et C en utilisant les outil tiers STACKS et VCFtools. Les calculs sont executés sur cluster. Le workflow final a été recodé en snakemake pour permettre la reproductibilité scientifique. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/snakemake_stacks2

Assemblage de génomes

Conception du protocole et assemblage de la première séquence génomique de référence pour le rouget de roche (Mullus surmuletus), le serran (Serranus cabrilla) et le sar (Diplodus sargus). Sélection des prestataires pour le séquençage. Les librairies sont illumina paired-end et mate-pair ainsi que linked-read (technologie 10X Genomics). 

Plusieurs assemblages exploitant les différentes librairies ont été réalisés avec les logiciels Platanus, Abyss, Supernova et ARCS (avec la collaboration du génopole). Les calculs ont été réalisés sur le cluster MESO@LR(ordonnanceur : SLURM). Les assemblages ont été évalués avec QUAST et les annotations avec Augustus et BLAST. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/genomic_resources_for_med_fishes

Megafauna

Comparer, adapter, tester et déployer les workflows existants de traitement des données metabarcoding d'ADN environnemental marin produits par l’expédition océanographique de MONACO. En étroite collaboration avec la société SPYGEN, évaluation des performances des workflows et conformité avec leurs résultats d'analyse. Les workflows sont un ensemble de commande bash utilisant différents outils tels  que obitoolsswarmvsearch,usearch et dada2. Les workflows retenus ont été recodés en snakemake et/ou nextflow pour permettre la reproductibilité scientifique et intensifier leur exploitation en terme de volume de données à traiter. Portage sur différents système d’exploitation avec l’utilisation de conteneurs (singularity). Les calculs ont été executés sur les serveurs du laboratoire MARBEC. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/edna

Carte marine de la diversité génétique des actinoptérygiens (poissons)

Minage et curation de plusieurs banques de données BOLD pour les séquences ADN mitochondriales géoreferencées, fishbase pour les informations relatives aux espèces de poissons, gmed, gebcoet wordclimpour les descripteurs environnementaux. La programmation est en python mais utilise le nouveau langage de programmation julia pour le calcul de la diversité génétique. Les analyses statistiques sont faites avec le langage R. Un conteneur est disponible pour permettre le portage des analyses sur d’autres systèmes sans avoir besoin d’installer les dépendances. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/worldmap_fish_genetic_diversity

En complétement, l'application shiny : https://shiny.cefe.cnrs.fr/wfgd/

AKER Améliorer la compétitivité de la betterave

Le programme AKER vise à améliorer la compétitivité de la betterave en France dans un contexte international marqué par l'augmentation de la demande mondiale en sucre et la prédominance de la canne à sucre.

En collaboration avec la société Florimond Desprez, analyses du génome de la betterave (Beta vulgaris) en exploitant des données chipseq et les séquences génomiques réferences pour caractériser les régions génomiques associées à la sécheresse. La programmation est une combinaison de scripts bash, python et R. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/aker/beetgenomeenvironmentassociation

Seaconnect

Traitement de données de séquençage de génome réduit (RAD-seq) avec une faible couverture de plus de 1000 individus du rouget de roche (Mullus surmuletus). La programmation est une combinaison de python, R et bash. Portage sur différents système d’exploitation avec l’utilisation de conteneurs. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/seaconnect

Genbar

Développement logiciel C++ détection et assignation des individus à des populations génétiques à partir de données ADN type génotypage. Les codes sont confidentiels, ce projet est toujours en cours de développement.

Services pour l’équipe « Biogéographie des Vertébrés »

Je suis membre de l’équipe « Biogéographie des Vertebrés », j’apporte un soutien technique en informatique :

  • Lien avec la plate-forme de bioinformatique du CEMEB
  • Lien avec les plates-formes techniques du CEFE GEMEX
  • Réalisation de conteneurs pour permettre la portabilité des programmes vers le cluster de calcul
  • Atelier de formation 1 : Utilisation des workflows pour l'analyse de données metabarcoding
  • Atelier de formation 2 : Utilisation de l’outil GIT et des forges logicielles
  • Organisation de la mise et en forme et du stockage des données

 

Publications au CEFE entre 2018 et 2021

 

Restricted dispersal in a sea of gene flow

Laura Benestan, Katharina Fietz, Nicolas Loiseau, Pierre-Edouard Guerin, Elena Trofimenko, Siren Rhüs, Christina Schmidt, Willi Rath, Arne Biastoch, Angel Pérez-Ruzafa, Pilar Baixauli, Aitor Forcada, Esther Arcas Sen, Philippe Lenfant, Sandra Mallol, Rachel Goñi, Laure Velez, Mark Höppner, Stuart Kininmonth, David Mouillot, Oscar Puebla, Stephanie Manel

Proceedings of the Royal Society B. 2021 May 19. DOI 10.1098/rspb.2021.0458

Benchmarking bioinformatic tools for fast and accurate eDNA metabarcoding species identification

Laetitia Mathon, Alice Valentini, Pierre-Edouard Guerin, Eric Normandeau, Cyril Noel, Clément Lionnet, Emilie Boulanger, Wilfried Thuiller, Louis Bernatchez, David Mouillot, Tony Dejean, Stephanie Manel

Molecular Ecology Resources. 2021 May 18. DOI 10.1111/1755-0998.13430

Blind assessment of vertebrate taxonomic diversity across spatial scales by clustering environmental DNA metabarcoding sequences

Virginie Marques, Pierre‐Edouard Guerin, Mathieu Rocle, Alice Valentini, Stephanie Manel, David Mouillot, Tony Dejean

Ecography. 2020 Aug 04. DOI: 10.1111/ecog.05049

New genomic ressources for three exploited Mediterranean fishes

Katharina Fietz, Elena Trofimenkoa, Pierre-Edouard Guerin, Veronique Arnal, Montserrat Torres-Oliva, Stephane Lobreaux,Angel Perez-Ruzafa, Stephanie Manel, Oscar Puebla

Genomics. 2020 July 03. DOI: 10.1016/j.ygeno.2020.06.041

Global determinants of freshwater and marine fish genetic diversity

Stephanie Manel, Pierre-Edouard Guerin, David Mouillot, Simon Blanchet, Laure Velez, Camille Albouy & Loic Pellissier

Nature communications. 2020 Feb 10. DOI: 10.1038/s41467-020-14409-7

Predicting genotype environmental range from genome–environment associations

Stephanie Manel, Marco Andrello, Karine Henry, Daphne Verdelet, Aude Darracq, Pierre‐Edouard Guerin, Bruno Desprez, Pierre Devaux

Molecular Ecology. 2018 May 17. DOI: 10.1111/mec.14723

 

 

Principales disciplines / approches / systèmes d'étude :