pipelines_inmegen

Flujos de trabajos desarrollados y automatizados en el Intituto Nacional de Medicina Genómica para el procesamiento de datos genómicos y transcriptómicos.

https://github.com/inmegen/pipelines_inmegen

Keywords

bioinformatics differential-expression dockerfile genomic-data-analysis nextflow-pipeline rnaseq-analysis somatic-variants transcriptome-analysis variant-calling

Last synced: 6 months ago · JSON representation ·

Repository

Flujos de trabajos desarrollados y automatizados en el Intituto Nacional de Medicina Genómica para el procesamiento de datos genómicos y transcriptómicos.

Basic Info

Host: GitHub
Owner: INMEGEN
License: other
Language: Nextflow
Default Branch: Principal
Homepage: https://serviciosbio.inmegen.gob.mx/
Size: 7.39 MB

Statistics

Stars: 9
Watchers: 3
Forks: 0
Open Issues: 0
Releases: 1

Topics

bioinformatics differential-expression dockerfile genomic-data-analysis nextflow-pipeline rnaseq-analysis somatic-variants transcriptome-analysis variant-calling

Created over 2 years ago · Last pushed 6 months ago

Metadata Files

Readme License Citation

Pipelines Inmegen

Flujos de trabajo

Este repositorio contiene información detallada sobre los flujos de trabajo (pipelines) desarrollados y automatizados en el Instituto Nacional de Medicina Genómica, asociados a los servicios de anślisis bioinformáticos del Inmegen.

Para saber más y realizar una solicitud del servicio de análisis, visita nuestro sitio web dando clic aquí.

El principal objetivo de estos pipelines es el procesamiento de datos provenientes de secuenciación masiva (Whole Genome Sequencing [WGS]/Whole Exome Sequencing [WES], RNA sequencing [RNA-seq]) de manera reproducible y repetible, con base en el uso de herramientas confiables y avaladas por la comunidad científica.

En cada uno de los siguientes directorios de este repositorio [marcado entre corchetes] se encuentran las instrucciones necesarias para ejecutar cada flujo de trabajo:

Cuantificación y Análisis de expresión diferencial a partir de datos de RNA-seq [QDEA-RNAseq]
Identificación conjunta de variantes germinales a partir de datos WGS/WES [VC-Germline]
Identificación de variantes somáticas a partir de datos WGS/WES [VC-Somatic]
Identificación de variantes a partir de datos de RNA-seq [VC-RNAseq]
Análisis de calidad de archivos de secuenciación masiva en formato FASTQ [Fastq-QC]
Identificación conjunta de variantes germinales a partir de datos WGS/WES con bootstrapping [BT-VC-Germinal]

Los directorios que contienen pipelines de procesamiento que son requeridos por más de un flujo de trabajo

Preprocesamiento de archivos FASTQ [Data-preprocessing]
Anotación de variantes con Annovar [Annotation]

Otros directorios contienen información general:

Los procesos en los que están divididos los flujos de trabajo se encuentran en el directorio [modules]
El diagrama de flujo correspondiente a cada pipeline se encuentra en la carpeta [flowcharts]
El directorio [docker] contiene el Dockerfile para crear el repositorio pipelines_inmegen

Para ejecutar los pipelines

Como pre-requisito para ejecutar los pipelines es necesario contar con:

NextFlow (versión mayor o gual a 22.10.7)
Docker (versión mayor o gual a 23.0.5)

Además, es necesario clonar la imagen de docker de este repositorio con el comando

docker pull pipelinesinmegen/pipelines_inmegen:public

En caso de querer construir la imagen de docker con el Dockerfile que se encuentra en el directorio [docker] utiliza:

docker build -t pipelinesinmegen/pipelines_inmegen:public -f Dockerfile .

Finalmente, clonar este repositorio utilizando:

git clone https://github.com/INMEGEN/Pipelines_INMEGEN.git

NOTA: Debes asegurarte de que el directorio de docker cuente con suficiente espacio para generar la imagen (~ 8 GB).

Políticas de uso

Los flujos de este repositorio pueden ser descargados y utilizados sin restricciones para uso académico. En caso de utilizar cualquiera de estos flujos solicitamos incluir la siguiente frase en los productos académicos generados: “Agradecemos a la Subdirección de Genómica Poblacional y a la Subdirección de Bioinformática del Instituto Nacional de Medicina Genómica por proveer flujos de trabajo que han sido utilizados de forma parcial o total como parte del análisis de este trabajo (We acknowledge the Population Genomics and the Bioinformatics Departments from the National Institute of Genomic Medicine for providing workflows that were, either partially or completely, used as part of the analysis in this work )”

Si requieres el apoyo de nuestro personal para implementar alguno de estos flujos de trabajo en tus datos, este se considerará un servicio. Por lo tanto, se cobrará de acuerdo a los tabuladores existentes en la cartera de servicios INMEGEN.

NOTA: por un tiempo limitado, estos servicios estarán disponibles gratuitamente para personal interno del INMEGEN.

En ningún caso nuestros servicios incluyen interpretación de resultados o generación de resultados más allá de los descritos como parte del flujo de trabajo.

En caso de querer iniciar una colaboración académica con alguno de los miembros de este proyecto favor de contactarnos directamente.

No está permitida la utilización de estos flujos de trabajo con fines comerciales por terceros.

Equipo de desarrollo

Daniel Pérez-Calixto dperez@inmegen.gob.mx

Laura Gómez-Romero lgomez@inmegen.gob.mx

Alejandra Cervera Taboada acerverat@inmegen.gob.mx

Licencia

Contacto

Visita nuestro sitio web.

Cualquier duda o comentario escribir a nuestro correo de contacto

Owner

Name: Instituto Nacional de Medicina Genómica
Login: INMEGEN
Kind: organization
Email: lgomez@inmegen.gob.mx
Location: Mexico City

Website: http://www.inmegen.gob.mx/
Repositories: 44
Profile: https://github.com/INMEGEN

Repositorios Públicos de Proyectos de Investigación

Citation (CITATIONS.md)

# Referencias de las herramientas utilizadas en los flujos de trabajo Pipelines INMEGEN

## Pre-requisitos 

- **[Docker](https://dl.acm.org/doi/10.5555/2600239.2600241)**

Merkel, D. 2014. Docker: lightweight linux containers for consistent development and deployment. Linux Journal, 2014(239), 2. doi: 10.5555/2600239.2600241.

- **[NextFlow](https://pubmed.ncbi.nlm.nih.gov/28398311/)**

Di Tommaso P, Chatzou M, Floden EW, Barja PP, Palumbo E, Notredame C. Nextflow enables reproducible computational workflows. Nat Biotechnol. 2017 Apr 11;35(4):316-319. doi: 10.1038/nbt.3820. PubMed PMID: 28398311.

## Herramientas de los flujos de trabajo

- **[Annovar](https://pubmed.ncbi.nlm.nih.gov/20601685/)**

Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010

- **[BCFTools](https://pubmed.ncbi.nlm.nih.gov/21903627/)**

Li H: A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics. 2011 Nov 1;>

- **[BWA MEM](https://arxiv.org/abs/1303.3997v2)**

Li H: Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv 2013. doi: 10.48550/arXiv.1303.3997

- **[FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)**

Andrews, S. (2010). FastQC: A Quality Control Tool for High Throughput Sequence Data

- **[FastQ Screen](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6124377/)**

Wingett SW and Andrews S. FastQ Screen: A tool for multi-genome mapping and quality control [version 2; referees: 4 approved]. F1000Research 2018, 7:1338 (https://doi.org/10.12688/f1000research.15931.2)

- **[GATK](https://pubmed.ncbi.nlm.nih.gov/20644199/)**

McKenna A, Hanna M, Banks E, et al.: The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010 Sep;20(9):1297-303. doi: 10.1101/gr.107524.110. Epub 2010 Jul 19. PubMed PMID: 20644199; PubMed Central PMCID: PMC2928508.

- **[kallisto](https://pubmed.ncbi.nlm.nih.gov/27043002/)**

Nicolas L Bray, Harold Pimentel, Páll Melsted and Lior Pachter, Near-optimal probabilistic RNA-seq quantification, Nature Biotechnology 34, 525–527 (2016), doi:10.1038/nbt.3519

- **[Mosdepth](https://academic.oup.com/bioinformatics/article/34/5/867/4583630?login=false)**

Brent S Pedersen, Aaron R Quinlan, Mosdepth: quick coverage calculation for genomes and exomes, Bioinformatics, Volume 34, Issue 5, 01 March 2018, Pages 867–868. doi: 10.1093/bioinformatics/btx699. PubMed PMID: 29096012. PubMed Central PMCID: PMC6030888.

- **[MultiQC](https://pubmed.ncbi.nlm.nih.gov/27312411/)**

Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 2016 Oct 1;32(19):3047-8. doi: 10.1093/bioinformatics/btw354. Epub 2016 Jun 16. PubMed PMID: 27312411; PubMed Central PMCID: PMC5039924.

- **[SAMtools](https://pubmed.ncbi.nlm.nih.gov/19505943/)**

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R; 1000 Genome Project Data Processing Subgroup. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9. doi: 10.1093/bioinformatics/btp352. Epub 2009 Jun 8. PubMed PMID: 19505943; PubMed Central PMCID: PMC2723002.

- **[STAR](https://pubmed.ncbi.nlm.nih.gov/23104886/)**

Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25. PubMed PMID: 23104886; PubMed Central PMCID: PMC3530905.

- **[Tabix](https://academic.oup.com/bioinformatics/article/27/5/718/262743?login=false)**

Li H, Tabix: fast retrieval of sequence features from generic TAB-delimited files, Bioinformatics, Volume 27, Issue 5, 1 March 2011, Pages 718–719, doi: 10.1093/bioinformatics/btq671. PubMed PMID: 21208982. PubMed Central PMCID: PMC3042176.

- **[Trim Galore](https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)**

Martin, M. (2011) Cutadapt Removes Adapter Sequences from High-Throughput Sequencing Reads. EMBnet Journal, 17, 10-12. https://doi.org/10.14806/ej.17.1.200

- **[Trimmomatic](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/)**

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics, btu170.

- **[VariantQC](https://bimberlab.github.io/DISCVRSeq/toolDoc/com_github_discvrseq_walkers_variantqc_VariantQC.html)**

VariantQC: a visual quality control report for variant evaluation. Yan MY, Ferguson B, Bimber BN. Bioinformatics. 2019 Dec 15;35(24):5370-5371. PMID: 31309221

- **[VCFTools](https://pubmed.ncbi.nlm.nih.gov/21653522/)**

Danecek P, Auton A, Abecasis G, et al.: The variant call format and VCFtools. Bioinformatics. 2011 Aug 1;27(15):2156-8. doi: 10.1093/bioinformatics/btr330. Epub 2011 Jun 7. PubMed PMID: 21653522; PubMed Central PMCID: PMC3137218.

### Librerías de R

- **[R](https://www.r-project.org/)**

R Core Team (2017). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.

- [Complex Heatmap](https://bioconductor.org/packages/release/bioc/html/ComplexHeatmap.html)

Gu Z, Eils R, Schlesner M (2016). “Complex heatmaps reveal patterns and correlations in multidimensional genomic data.” Bioinformatics. doi:10.1093/bioinformatics/btw313.

- [DESeq2](https://pubmed.ncbi.nlm.nih.gov/25516281/)

Love MI, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014;15(12):550. PubMed PMID: 25516281; PubMed Central PMCID: PMC4302049.

- [Enhanced Volcano](https://bioconductor.org/packages/release/bioc/html/EnhancedVolcano.html)

Blighe K, Rana S, Lewis M (2023). EnhancedVolcano: Publication-ready volcano plots with enhanced colouring and labeling. doi:10.18129/B9.bioc.EnhancedVolcano, R package version 1.20.0, https://bioconductor.org/packages/EnhancedVolcano.

- [GeneTonic](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04461-5)

Marini F, Ludt A, Linke J, Strauch K (2021). “GeneTonic: an R/Bioconductor package for streamlining the interpretation of RNA-seq data.” BMC Bioinformatics, 22, 610. doi:10.1186/s12859-021-04461-5, https://bioconductor.org/packages/GeneTonic/.

- [ggplot2](https://cran.r-project.org/web/packages/ggplot2/index.html)

H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016.

- [optparse](https://cran.r-project.org/web/packages/optparse/index.html)

Trevor L Davis (2018). optparse: Command Line Option Parser.

- [pheatmap](https://cran.r-project.org/web/packages/pheatmap/index.html)

Raivo Kolde (2018). pheatmap: Pretty Heatmaps.

- [Tximport](https://f1000research.com/articles/4-1521)

Charlotte Soneson, Michael I. Love, Mark D. Robinson. Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences, F1000Research, 4:1521, December 2015. doi: 10.12688/f1000research.7563.1

- [SummarizedExperiment](https://bioconductor.org/packages/release/bioc/html/SummarizedExperiment.html)

Morgan M, Obenchain V, Hester J and Pagès H (2020). SummarizedExperiment: SummarizedExperiment container.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science