您最多选择25个主题 主题必须以字母或数字开头,可以包含连字符 (-),并且长度不得超过35个字符

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189
  1. ## README
  2. **Author:** Huang Yechao
  3. **E-mail:**17210700095@fudan.edu.cn
  4. **Git:** http://choppy.3steps.cn/huangyechao/wes-germline.git
  5. **Last Updates:** 16/1/2019
  6. **Description**
  7. > 本 APP 所构建的是用于二代测序全外显子组 Germline 分析流程。使用的软件是[Sentieon](http://goldenhelix.com/products/sentieon/index.html):*A fast and accurate solution to variant calling from next-generation sequence data* 。本流程构建所使用的方法是基于流程语言WDL 并将其封装为[Choppy](http://docs.3steps.cn)平台上的APP进行使用。流程图如下所示:
  8. ![wes](assets/wes.png)
  9. 1. input为二代全外显子组测序所获得的fastq文件,通常包含两个数据文件`R1`和`R2`;此外还应当包含有测序时使用的 `bed` 文件
  10. 2. Mapping:将测序所得的数据与参考基因组进行比对,找到每一条read在参考基因组上的位置,将结果信息储存在**bam**文件中,并对获得的 **bam** 文件进行质控
  11. 3. Dedup:在制备文库的过程中,由于PCR扩增过程中会存在一些偏差,有的序列会被过量扩增。在比对的时候,这些过量扩增出来的完全相同的序列就会比对到基因组的相同位置。而这些过量扩增的reads并不是基因组自身固有序列,不能作为变异检测的证据,因此,要尽量去除这些由PCR扩增所形成的duplicates,并对去除重复之后的**bam**文件进行质控
  12. 4. Realigner: 将比对到 indel 附近的 reads 进行局部重新比对,将比对的错误率降到最低
  13. 5. BQSR:对bam文件里reads的碱基质量值进行重新校正,使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率
  14. 6. Haplotyer:变异检测,主要包括 **SNP** 和 **INDEL**
  15. ## App使用指南
  16. ### 安装App
  17. ```bash
  18. # 激活choppy环境
  19. source activate choppy-latest
  20. # 安装app
  21. choppy install huangyechao/wes-germline:<version>
  22. ```
  23. ### 准备samples文件
  24. `sample.csv` 文件为提交任务时使用的输入文件,其内容是根据`input`文件中定义的信息对应生成的,也可使用 `Choppy` 的 `samples` 功能生成:
  25. ```bash
  26. choppy samples wes-germline --output samples.csv
  27. ```
  28. ```bash
  29. #### samples.csv
  30. read1,read2,regions,sample_name,cluster,disk_size,sample_id
  31. ```
  32. 其中`sample_id`对应于所分析样本的索引号,用于生成当前样本提交时的任务信息,应注意不要包含`_`,否则会出现报错。
  33. ### 提交任务
  34. ```bash
  35. choppy batch wes-germline samples.csv --project-name your_project
  36. ```
  37. ## APP 构建
  38. ### tasks
  39. `tasks`目录中分析流程中每一个步骤的 **WDL** 文件,如 `mapping.wdl` 如下所示
  40. ```bash
  41. task mapping {
  42. String fasta
  43. File ref_dir
  44. File fastq_1
  45. File fastq_2
  46. String SENTIEON_INSTALL_DIR
  47. String group
  48. String sample
  49. String pl
  50. String docker
  51. String cluster_config
  52. String disk_size
  53. command <<<
  54. set -o pipefail
  55. set -e
  56. export SENTIEON_LICENSE=192.168.0.55:8990
  57. nt=$(nproc)
  58. ${SENTIEON_INSTALL_DIR}/bin/bwa mem -M -R "@RG\tID:${group}\tSM:${sample}\tPL:${pl}" -t $nt ${ref_dir}/${fasta} ${fastq_1} ${fastq_2} | ${SENTIEON_INSTALL_DIR}/bin/sentieon util sort -o ${sample}.sorted.bam -t $nt --sam2bam -i -
  59. >>>
  60. runtime {
  61. dockerTag:docker
  62. cluster: cluster_config
  63. systemDisk: "cloud_ssd 40"
  64. dataDisk: "cloud_ssd " + disk_size + " /cromwell_root/"
  65. }
  66. output {
  67. File sorted_bam = "${sample}.sorted.bam"
  68. File sorted_bam_index = "${sample}.sorted.bam.bai"
  69. }
  70. }
  71. ```
  72. ### workflow
  73. `workflow.wdl` 是定义了每一个步骤的输入文件以及各个步骤之间的以来关系的文件:
  74. ```bash
  75. import "./tasks/mapping.wdl" as mapping
  76. import "./tasks/Metrics.wdl" as Metrics
  77. import "./tasks/Dedup.wdl" as Dedup
  78. import "./tasks/deduped_Metrics.wdl" as deduped_Metrics
  79. import "./tasks/Realigner.wdl" as Realigner
  80. import "./tasks/BQSR.wdl" as BQSR
  81. import "./tasks/Haplotyper.wdl" as Haplotyper
  82. workflow {{ project_name }} {
  83. File fastq_1
  84. File fastq_2
  85. String SENTIEON_INSTALL_DIR
  86. String sample
  87. String docker
  88. String fasta
  89. File ref_dir
  90. File dbmills_dir
  91. String db_mills
  92. File dbsnp_dir
  93. File regions
  94. String dbsnp
  95. String disk_size
  96. String cluster_config
  97. call mapping.mapping as mapping {
  98. input:
  99. SENTIEON_INSTALL_DIR=SENTIEON_INSTALL_DIR,
  100. group=sample,
  101. sample=sample,
  102. pl="ILLUMINAL",
  103. fasta=fasta,
  104. ref_dir=ref_dir,
  105. fastq_1=fastq_1,
  106. fastq_2=fastq_2,
  107. docker=docker,
  108. disk_size=disk_size,
  109. cluster_config=cluster_config
  110. }
  111. call Metrics.Metrics as Metrics {
  112. input:
  113. SENTIEON_INSTALL_DIR=SENTIEON_INSTALL_DIR,
  114. fasta=fasta,
  115. ref_dir=ref_dir,
  116. sorted_bam=mapping.sorted_bam,
  117. sorted_bam_index=mapping.sorted_bam_index,
  118. sample=sample,
  119. docker=docker,
  120. disk_size=disk_size,
  121. cluster_config=cluster_config
  122. }
  123. ......
  124. ......
  125. }
  126. ```
  127. 其中文件最上面的 `import` 代表了所要使用的task文件,中间部分`File/String xxx` 表明了任务所传递出需要定义变量及其类型,`call`部分声明了流程的各个步骤及其依赖关系。(文档的具体说明详见[WDL](https://software.broadinstitute.org/wdl/documentation/spec#alternative-heredoc-syntax))
  128. ### input
  129. `input` 文件为整个 **APP** 运行时所要输入的参数,对于可以固定的参数可以直接在`input`文件中给出,对于需要改变的参数用`{{}}`进行引用,将会使得参数在 `samples` 文件中出现;其中`project_name`为所运行的任务的名称,需要在提交任务是进行定义
  130. ```bash
  131. {
  132. "{{ project_name }}.fasta": "GRCh38.d1.vd1.fa",
  133. "{{ project_name }}.ref_dir": "oss://pgx-reference-data/GRCh38.d1.vd1/",
  134. "{{ project_name }}.dbsnp": "dbsnp_146.hg38.vcf",
  135. "{{ project_name }}.fastq_1": "{{ read1 }}",
  136. "{{ project_name }}.SENTIEON_INSTALL_DIR": "/opt/sentieon-genomics",
  137. "{{ project_name }}.dbmills_dir": "oss://pgx-reference-data/GRCh38.d1.vd1/",
  138. "{{ project_name }}.db_mills": "Mills_and_1000G_gold_standard.indels.hg38.vcf",
  139. "{{ project_name }}.cluster_config": "{{ cluster if cluster != '' else 'OnDemand ecs.sn1ne.4xlarge img-ubuntu-vpc' }}",
  140. "{{ project_name }}.docker": "localhost:5000/sentieon-genomics:v2018.08.01 oss://pgx-docker-images/dockers",
  141. "{{ project_name }}.dbsnp_dir": "oss://pgx-reference-data/GRCh38.d1.vd1/",
  142. "{{ project_name }}.sample": "{{ sample_name }}",
  143. "{{ project_name }}.disk_size": "{{ disk_size }}",
  144. "{{ project_name }}.regions": "{{ regions }}",
  145. "{{ project_name }}.fastq_2": "{{ read2 }}"
  146. }
  147. ```
  148. > `{{ cluster if cluster != '' else 'OnDemand ecs.sn1ne.4xlarge img-ubuntu-vpc' }}`表示当没有指定`cluster` 的配置信息时,则默认使用 **ecs.sn1ne.4xlarge**
  149. ## 更多使用信息
  150. 详见[Choppy使用说明](http://docs.3steps.cn))