Pierre-Edouard GUERIN
- Published: 12 October 2018
Ingénieur d'étude, bioinformaticien (2017 - 2021)
Diplômé du master professionnel double compétence informatique et biologie de l’Université Paris Diderot, j'apporte mes compétences en programmation pour de nombreux projets scientifiques en collaboration avec des équipes de recherche.
CEFE/CNRS
Campus du CNRS
1919, route de Mende
34293 Montpellier 5
- mail:This email address is being protected from spambots. You need JavaScript enabled to view it.
- website:https://guerinpe.com/
Introduction
Mon travail consiste à développer de nouvelles applications informatiques pour l’analyse et la visualisation des mégadonnées issues du séquençage ADN haut-débit (génomique, ADN environnemental). J’assure également la veille technologique pour mettre en place de nouvelles méthodes de traitement des données et optimiser la reproductibilité scientifique. Outre les développements logiciels au sein de mon équipe, je collabore avec de nombreux biologistes à l’organisation et la gestion du traitement des mégadonnées issus pour la recherche. Je participe à des réseaux professionnels (Madics, RIS, jebif) et je suis membre de la Société Française de Bioinformatique. Enfin, je rédige des articles de vulgarisation en français autour de mon métier pour la communauté bioinfo-fr.
Développement logiciels
J'ai travaillé sur des projets stimulants liés au séquençage de génomes entiers, à l'appel de variants génétiques (technologie RAD-seq), à l'assemblage du génome, à l’ADN environnemental metabarcoding et et à l'analyse de données génétiques combinées avec la géographie et des descripteurs environnementaux de grandes banques de données internationales et à la production de résultats dans des délais serrés.
Reservebenefit
RESERVEBENEFIT est un projet de recherche européen financé par une ANR sur lequel je suis pleinement engagé entre 2017 et 2020. Il vise à estimer la connectivité des réserves marines en Méditerranée pour plusieurs espèces de poissons pêchés en investiguant les données génétiques et géographiques.
Pour ce projet j’ai développer, tester, déployer un workflow d'analyse des données brutes de séquençage ADN (technologie RAD-seq) sur 1200 individus parmi 3 espèces de poissons en Méditerranée.
Combinaison de scripts et de programmes codes en python, bash et C en utilisant les outil tiers STACKS et VCFtools. Les calculs sont executés sur cluster. Le workflow final a été recodé en snakemake pour permettre la reproductibilité scientifique. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/snakemake_stacks2
Assemblage de génomes
Conception du protocole et assemblage de la première séquence génomique de référence pour le rouget de roche (Mullus surmuletus), le serran (Serranus cabrilla) et le sar (Diplodus sargus). Sélection des prestataires pour le séquençage. Les librairies sont illumina paired-end et mate-pair ainsi que linked-read (technologie 10X Genomics).
Plusieurs assemblages exploitant les différentes librairies ont été réalisés avec les logiciels Platanus, Abyss, Supernova et ARCS (avec la collaboration du génopole). Les calculs ont été réalisés sur le cluster MESO@LR(ordonnanceur : SLURM). Les assemblages ont été évalués avec QUAST et les annotations avec Augustus et BLAST. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/genomic_resources_for_med_fishes
Megafauna
Comparer, adapter, tester et déployer les workflows existants de traitement des données metabarcoding d'ADN environnemental marin produits par l’expédition océanographique de MONACO. En étroite collaboration avec la société SPYGEN, évaluation des performances des workflows et conformité avec leurs résultats d'analyse. Les workflows sont un ensemble de commande bash utilisant différents outils tels que obitools, swarm, vsearch,usearch et dada2. Les workflows retenus ont été recodés en snakemake et/ou nextflow pour permettre la reproductibilité scientifique et intensifier leur exploitation en terme de volume de données à traiter. Portage sur différents système d’exploitation avec l’utilisation de conteneurs (singularity). Les calculs ont été executés sur les serveurs du laboratoire MARBEC. Le code est diffusé sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/edna
Carte marine de la diversité génétique des actinoptérygiens (poissons)
Minage et curation de plusieurs banques de données BOLD pour les séquences ADN mitochondriales géoreferencées, fishbase pour les informations relatives aux espèces de poissons, gmed, gebcoet wordclimpour les descripteurs environnementaux. La programmation est en python mais utilise le nouveau langage de programmation julia pour le calcul de la diversité génétique. Les analyses statistiques sont faites avec le langage R. Un conteneur est disponible pour permettre le portage des analyses sur d’autres systèmes sans avoir besoin d’installer les dépendances. L’ensemble des codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/reservebenefit/worldmap_fish_genetic_diversity
En complétement, l'application shiny : https://shiny.cefe.cnrs.fr/wfgd/
AKER Améliorer la compétitivité de la betterave
Le programme AKER vise à améliorer la compétitivité de la betterave en France dans un contexte international marqué par l'augmentation de la demande mondiale en sucre et la prédominance de la canne à sucre.
En collaboration avec la société Florimond Desprez, analyses du génome de la betterave (Beta vulgaris) en exploitant des données chipseq et les séquences génomiques réferences pour caractériser les régions génomiques associées à la sécheresse. La programmation est une combinaison de scripts bash, python et R. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/aker/beetgenomeenvironmentassociation
Seaconnect
Traitement de données de séquençage de génome réduit (RAD-seq) avec une faible couverture de plus de 1000 individus du rouget de roche (Mullus surmuletus). La programmation est une combinaison de python, R et bash. Portage sur différents système d’exploitation avec l’utilisation de conteneurs. Les codes sources sont diffusés sur le gitlab de l’Université de Montpellier : https://gitlab.mbb.univ-montp2.fr/seaconnect
Genbar
Développement logiciel C++ détection et assignation des individus à des populations génétiques à partir de données ADN type génotypage. Les codes sont confidentiels, ce projet est toujours en cours de développement.
Services pour l’équipe « Biogéographie des Vertébrés »
Je suis membre de l’équipe « Biogéographie des Vertebrés », j’apporte un soutien technique en informatique :
- Lien avec la plate-forme de bioinformatique du CEMEB
- Lien avec les plates-formes techniques du CEFE GEMEX
- Réalisation de conteneurs pour permettre la portabilité des programmes vers le cluster de calcul
- Atelier de formation 1 : Utilisation des workflows pour l'analyse de données metabarcoding
- Atelier de formation 2 : Utilisation de l’outil GIT et des forges logicielles
- Organisation de la mise et en forme et du stockage des données
Publications au CEFE entre 2018 et 2021
Restricted dispersal in a sea of gene flow
Laura Benestan, Katharina Fietz, Nicolas Loiseau, Pierre-Edouard Guerin, Elena Trofimenko, Siren Rhüs, Christina Schmidt, Willi Rath, Arne Biastoch, Angel Pérez-Ruzafa, Pilar Baixauli, Aitor Forcada, Esther Arcas Sen, Philippe Lenfant, Sandra Mallol, Rachel Goñi, Laure Velez, Mark Höppner, Stuart Kininmonth, David Mouillot, Oscar Puebla, Stephanie Manel
Proceedings of the Royal Society B. 2021 May 19. DOI 10.1098/rspb.2021.0458
Benchmarking bioinformatic tools for fast and accurate eDNA metabarcoding species identification
Laetitia Mathon, Alice Valentini, Pierre-Edouard Guerin, Eric Normandeau, Cyril Noel, Clément Lionnet, Emilie Boulanger, Wilfried Thuiller, Louis Bernatchez, David Mouillot, Tony Dejean, Stephanie Manel
Molecular Ecology Resources. 2021 May 18. DOI 10.1111/1755-0998.13430
Blind assessment of vertebrate taxonomic diversity across spatial scales by clustering environmental DNA metabarcoding sequences
Virginie Marques, Pierre‐Edouard Guerin, Mathieu Rocle, Alice Valentini, Stephanie Manel, David Mouillot, Tony Dejean
Ecography. 2020 Aug 04. DOI: 10.1111/ecog.05049
New genomic ressources for three exploited Mediterranean fishes
Katharina Fietz, Elena Trofimenkoa, Pierre-Edouard Guerin, Veronique Arnal, Montserrat Torres-Oliva, Stephane Lobreaux,Angel Perez-Ruzafa, Stephanie Manel, Oscar Puebla
Genomics. 2020 July 03. DOI: 10.1016/j.ygeno.2020.06.041
Global determinants of freshwater and marine fish genetic diversity
Stephanie Manel, Pierre-Edouard Guerin, David Mouillot, Simon Blanchet, Laure Velez, Camille Albouy & Loic Pellissier
Nature communications. 2020 Feb 10. DOI: 10.1038/s41467-020-14409-7
Predicting genotype environmental range from genome–environment associations
Stephanie Manel, Marco Andrello, Karine Henry, Daphne Verdelet, Aude Darracq, Pierre‐Edouard Guerin, Bruno Desprez, Pierre Devaux
Molecular Ecology. 2018 May 17. DOI: 10.1111/mec.14723
Principales disciplines / approches / systèmes d'étude :