室间质评
選択できるのは25トピックまでです。 トピックは、先頭が英数字で、英数字とダッシュ('-')を使用した35文字以内のものにしてください。

README.md 11KB

5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
5年前
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262
  1. #中华家系1号标准物质室间质评报告系统分析流程
  2. > Author: Run Luyao
  3. >
  4. > E-mail:18110700050@fudan.edu.cn
  5. >
  6. > Git: http://choppy.3steps.cn/renluyao/Quality_control.git
  7. >
  8. > Last Updates: 30/8/2019
  9. ## 安装指南
  10. ```
  11. # 激活choppy环境
  12. source activate choppy
  13. # 安装app
  14. choppy install renluyao/Quality_control
  15. ```
  16. ## App概述——中华家系1号标准物质介绍
  17. 建立高通量全基因组测序的生物计量和质量控制关键技术体系,是保障测序数据跨技术平台、跨实验室可比较、相关研究结果可重复、数据可共享的重要关键共性技术。建立国家基因组标准物质和基准数据集,突破基因组学的生物计量技术,是将测序技术转化成临床应用的重要环节与必经之路,目前国际上尚属空白。中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制了人源中华家系1号基因组标准物质(**Quartet,一套4个样本,编号分别为LCL5,LCL6,LCL7,LCL8,其中LCL5和LCL6为同卵双胞胎女儿,LCL7为父亲,LCL8为母亲**),以及相应的全基因组测序序列基准数据集(“量值”),为衡量基因序列检测准确与否提供一把“标尺”,成为保障基因测序数据可靠性的国家基准。人源中华家系1号基因组标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时家系的设计也为“量值”的确定提供了遗传学依据。
  18. 中华家系1号DNA标准物质的标称值包括高置信单核苷酸变异信息、高置信短插入缺失变异信息和77.9-78.1%的高置信参考基因组区。该系列标准物质可以用于评估基因组测序的性能,包括全基因组测序、全外显子测序、靶向测序,如基因捕获测序;还可用于评估测序过程和数据分析过程中对SNV和InDel检出的真阳性、假阳性、真阴性和假阴性水平,为基因组测序技术平台、实验室、相关产品的质量控制与性能验证提供标准物质和标准数据。
  19. 该Quality_control APP用于全基因组测序(whole-genome sequencing,WGS)数据的质量评估,包括原始数据质控、比对数据质控和突变检出数据质控。
  20. ## 流程与参数
  21. ![](./pictures/workflow.png)
  22. ###1. 原始数据质量控制
  23. #### [Fastqc](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/>) v0.11.5
  24. FastQC是一个常用的测序原始数据的质控软件,主要包括12个模块,具体请参考[Fastqc模块详情](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/>)。
  25. ```bash
  26. fastqc -t <threads> -o <output_directory> <fastq_file>
  27. ```
  28. #### [Fastq Screen](<https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/>) 0.12.0
  29. Fastq Screen是检测测序原始数据中是否引⼊入其他物种,或是接头引物等污染,⽐比如,如果测序样本
  30. 是⼈人类,我们期望99%以上的reads匹配到⼈人类基因组,10%左右的reads匹配到与⼈人类基因组同源性
  31. 较⾼高的⼩小⿏鼠上。如果有过多的reads匹配到Ecoli或者Yeast,要考虑是否在培养细胞的时候细胞系被污
  32. 染,或者建库时⽂文库被污染。
  33. ````bash
  34. fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> --threads <threads> <fastq_file>
  35. ````
  36. `--conf` conifg 文件主要输入了多个物种的fasta文件地址,可根据自己自己的需求下载其他物种的fasta文件加入分析
  37. `--top`一般不需要对整个fastq文件进行检索,取前100000行
  38. ###2. 比对后数据质量控制
  39. #### [Qualimap](<http://qualimap.bioinfo.cipf.es/>) 2.0.0
  40. Qualimap是一个比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。
  41. ```bash
  42. qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output_directory> --java-mem-size=32G
  43. ```
  44. ###3. 突变检出数据质量控制
  45. #### [Hap.py](<https://github.com/Illumina/hap.py>) v0.3.9
  46. hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中[突变表示形式的多样性](<https://genome.sph.umich.edu/wiki/Variant_Normalization>),进行了归一化。
  47. ```bash
  48. hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_filename>
  49. ```
  50. #### [Jaccard index](<https://en.wikipedia.org/wiki/Jaccard_index>) (rtg-tools 3.10.1)
  51. Jaccard index是两个集合的交集除以两个集合的并集。这个计算用的是rtg-tools的vcfeval,它将两个vcf中的突变表示格式进行了统一,即两个看似不同的SNV或者INDEL实际上是指同一个突变,这种情况经常发生在重复区域。
  52. ```bash
  53. rtg vcfeval -b <one_vcf> -c <another_vcf> -o <output_directory> -t <sdf_file>
  54. ```
  55. `-t` sdf文件是rtg-tools专用的注释文件,由fasta文件转换来
  56. #### [VCF statistics](<https://github.com/RealTimeGenomics/rtg-tools>) (rtg-tools 3.10.1)
  57. 该计算用的是rtg-tools的vcfstats,对vcf中的SNV和INDEL的数目进行了统计。
  58. ```bash
  59. rtg vcfstats <vcf_file>
  60. ```
  61. ### 4. 质控数据整合
  62. ####[MultiQC](<http://multiqc.info/>) v1.8
  63. 以上的质控软件的输出都是单个文件的质控结果,multiqc可以将这些结果进行汇总,以及网页可视化展示
  64. ```bash
  65. multiqc <input_directory>
  66. ```
  67. ## App输入变量与输入文件
  68. 在安装了APP之后,输入一下命令得到需要准备的文件
  69. ```bash
  70. choppy samples Quality_control-latest --output qcsamples
  71. ```
  72. qcsamples文件
  73. ```bash
  74. inputJIpiarsFile,inputSamplesFile,sample_id
  75. oss://pgx-result/renluyao/inputJIpiarsFileExample.tsv,oss://pgx-result/renluyao/inputSamplesFileExamples.tsv,1
  76. ```
  77. **inputJIpiarsFile**是计算Jaccard index的输入文件,按以下格式进行准备
  78. ```bash
  79. #vcf1 #vcf2 #vcf1_vcf2
  80. oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/72f269f2-91b7-4fbe-bde7-99b2e1e3091c/call-Haplotyper/Fudan_DNA_LCL7_hc.vcf oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Haplotyper/Fudan_DNA_LCL5_hc.vcf LCL7_LCL5
  81. ```
  82. `vcf1`和` vcf2`是两个需要计算一致性的vcf文件的oss地址
  83. `vcf1_vcf2`是两个vcf文件名字的简单缩写,用于之后的数据分析
  84. **inputSamplesFile**是其他质控task的输入文件,按以下格式进行准备
  85. ```bash
  86. #fastq_read1 #fastq_read2 #bam #bai #vcf #sample_mark
  87. oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R1.fastq.gz oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R2.fastq.gz oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam.bai oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Haplotyper/Fudan_DNA_LCL5_hc.vcf LCL5
  88. ```
  89. `fastq_read1`和`fastq_read2`是两个fastq文件的oss地址
  90. `bam`是bam文件的oss地址
  91. `bai`是bam文件的索引文件的oss地址
  92. `vcf`是vcf文件的地址
  93. `sample_mark`是标识测序数据的样本,可填写LCL5、LCL6、LCL7和LCL8
  94. **sample_id**是choppy app内置的识别标志,写1即可
  95. ## App输出文件
  96. 以下task的输出都只包含了单个文件的质控结果
  97. **fastq.wdl**
  98. - _fastqc.html
  99. - _fastqc.zip
  100. **fastqscreen.wdl**
  101. - _screen.png
  102. - _screen.txt
  103. - _screen.html
  104. **bamqc.wdl**
  105. - _qualimap.zip
  106. **benchmark.wdl**
  107. - .rtg.vcf.gz
  108. - .rtg.vcf.gz.tbi
  109. - .vcf.gz
  110. - .vcf.gz.tbi
  111. - .roc.all.csv.gz
  112. - .roc.Locations.INDEL.csv.gz
  113. - .roc.Locations.INDEL.PASS.csv.gz
  114. - .roc.Locations.SNP.csv.gz
  115. - .roc.Locations.SNP.PASS.csv.gz
  116. - .summary.csv
  117. - .extended.csv
  118. - .metrics.json.gz
  119. **jaccard_index.wdl**
  120. - summary.txt
  121. **vcfstat.wdl**
  122. - onestats.txt
  123. 主要查看以下三个task的结果,汇总了所有样本的结果
  124. **mergeJI.wdl**
  125. - result.txt
  126. **mergeNum.wdl**
  127. - vcfstats.txt
  128. **multiqc**
  129. - multiqc_report.html
  130. - multiqc.log
  131. - multiqc_data.json
  132. - multiqc_fastq_screen.txt
  133. - multiqc_fastqc.txt
  134. - multiqc_general_stats.txt
  135. - multiqc_happy_data.json
  136. - multiqc_sources.txt
  137. ## 结果展示与解读
  138. #### 1. result.txt
  139. ```bash
  140. #vcf1 #vcf2 #vcf1_vcf2 #True-pos-call-number #False-pos-number #False-neg-number
  141. oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/72f269f2-91b7-4fbe-bde7-99b2e1e3091c/call-Haplotyper/Fudan_DNA_LCL7_hc.vcf oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Haplotyper/Fudan_DNA_LCL5_hc.vcf LCL7_LCL5 4891550 11116 11116
  142. ```
  143. 在获得result.txt之后,jaccard index的计算公式如下
  144. $$
  145. JaccardIndex=\frac{TP}{TP+FP+FN}
  146. $$
  147. #### 2. vcfstats.txt
  148. ```bash
  149. File Failed Filters Passed Filters SNPs MNPs Insertions Deletions Indels Same as reference SNP Transitions/Transversions Total Het/Hom ratio SNP Het/Hom ratio MNP Het/Hom ratio Insertion Het/Hom ratio Deletion Het/Hom ratio Indel Het/Hom ratio Insertion/Deletion ratio Indel/SNP+MNP ratio
  150. /cromwell_inputs/choppy-cromwell-result/test-choppy/qc_test_renluyao_0831/79830609-9bd2-4e0c-9483-0c3369052a9d/call-benchmark/shard-0/Fudan_DNA_LCL5_hc.rtg.vcf.gz 0 4904087 4024591 0 421154 445839 12503 0 1.98 (3771780/1907484) 1.44 (2897278/2006809) 1.43 (2371579/1653012) - (0/0) 1.37 (243816/177338) 1.53 (269380/176459) - (12503/0) 0.94 (421154/445839) 0.22 (879496/4024591)
  151. ```
  152. #### 3. MultiQC输出的结果
  153. 下载之后将文件名glob**改成multiqc_data,即可打开multiqc_report.html查看可视化的结果,在multiqc_data中的整合结果txt文件,可以用于报告系统的输入。
  154. 对应的fastqc、fastqscreen、qualimap、hap.py的结果解释请查询对应的官网。
  155. ## CHANGELOG
  156. **Version 1.0 - Auguest 30, 2019**
  157. - 完成PGx常规质控流程的choppy APP
  158. ## FAQ
  159. **1. RNAseq和甲基化的质控流程?**
  160. 可查询multiqc支持的质控模块 <https://multiqc.info/docs/#multiqc-modules>
  161. RNAseq和甲基化的质控流程待完善
  162. **2. 如果样本没有技术重复,该APP中的inputJIpiarsFile是怎么输入的?**
  163. 在Version 1.0中暂时还没有考虑没有技术重复的问题,可输入姐妹、父母、父女、母女的配对,计算同卵双胞胎、亲属关系和陌生人之间基因突变位点的一致性。
  164. **3. 怎么对该APP的输出结果进行可视化?**
  165. 正在努力开发中
  166. **4. bam文件和vcf文件怎么获得?**
  167. 在进行质控分析前,请先用标准化流程进行测序数据分析,详情查看choppy APP [huangyechao/wgs-germline](<http://choppy.3steps.cn/huangyechao/wgs-germline>)