|
|
@@ -56,7 +56,7 @@ fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> -- |
|
|
|
|
|
|
|
#### [Qualimap](<http://qualimap.bioinfo.cipf.es/>) |
|
|
|
|
|
|
|
Qualimap是⼀一个⽐比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。 |
|
|
|
Qualimap是一个比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。 |
|
|
|
|
|
|
|
```bash |
|
|
|
qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output_directory> --java-mem-size=32G |
|
|
@@ -66,7 +66,7 @@ qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output |
|
|
|
|
|
|
|
#### [Hap.py](<https://github.com/Illumina/hap.py>) |
|
|
|
|
|
|
|
hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中突变表示形式的多样性,进行了归一化。 |
|
|
|
hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中[突变表示形式的多样性](<https://genome.sph.umich.edu/wiki/Variant_Normalization>),进行了归一化。 |
|
|
|
|
|
|
|
```bash |
|
|
|
hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_filename> |
|
|
@@ -74,28 +74,61 @@ hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_file |
|
|
|
|
|
|
|
#### [Jaccard index](<https://en.wikipedia.org/wiki/Jaccard_index>) |
|
|
|
|
|
|
|
Jaccard index是两个集合的交集除以两个集合的并集。这个计算过程用的是rtg-tools的vcfeval, |
|
|
|
Jaccard index是两个集合的交集除以两个集合的并集。这个计算用的是rtg-tools的vcfeval,它将两个vcf中的突变表示格式进行了统一,即两个看似不同的SNV或者INDEL实际上是指同一个突变,这种情况经常发生在重复区域。 |
|
|
|
|
|
|
|
```bash |
|
|
|
rtg vcfeval -b <one_vcf> -c <another_vcf> -o <output_directory> -t <sdf_file> |
|
|
|
``` |
|
|
|
|
|
|
|
`-t` sdf文件是rtg-tools专用的注释文件,由fasta文件转换来 |
|
|
|
|
|
|
|
#### [VCF statistics](<https://github.com/RealTimeGenomics/rtg-tools>) |
|
|
|
|
|
|
|
该计算用的是rtg-tools的vcfstats,对vcf中的SNV和INDEL的数目进行了统计。 |
|
|
|
|
|
|
|
```bash |
|
|
|
rtg vcfstats <vcf_file> |
|
|
|
``` |
|
|
|
|
|
|
|
## App输入变量与输入文件 |
|
|
|
准备inputSamplesFIle (tsv格式) |
|
|
|
在安装了APP之后,输入一下命令得到需要准备的文件 |
|
|
|
|
|
|
|
```bash |
|
|
|
#fastq_read1 #fastq_read2 #bam #bai #vcf #sample_mark |
|
|
|
choppy samples Quality_control-latest --output qcsamples |
|
|
|
``` |
|
|
|
|
|
|
|
qcsamples文件 |
|
|
|
|
|
|
|
```bash |
|
|
|
inputJIpiarsFile,inputSamplesFile,sample_id |
|
|
|
``` |
|
|
|
|
|
|
|
**inputJIpiarsFile**是计算Jaccard index的输入文件,按以下格式进行准备 |
|
|
|
|
|
|
|
```bash |
|
|
|
#vcf1 #vcf2 #vcf1_vcf2 |
|
|
|
oss://chinese-quartet/quartet-result-data/FDU/VCF/Quartet_DNA_BGI_SEQ2000_BGI_LCL5_1_20180518_hc.vcf |
|
|
|
oss://chinese-quartet/quartet-result-data/FDU/VCF/Quartet_DNA_BGI_SEQ2000_BGI_LCL5_2_20180530_hc.vcf |
|
|
|
BGI_SEQ2000_BGI_LCL5_1-BGI_SEQ2000_BGI_LCL5_2 |
|
|
|
``` |
|
|
|
|
|
|
|
`vcf1`和` vcf2`是两个需要计算一致性的vcf文件的oss地址 |
|
|
|
|
|
|
|
`vcf1_vcf2`是两个vcf文件名字的简单缩写,用于之后的数据分析 |
|
|
|
|
|
|
|
**inputSamplesFile**是其他质控task的输入文件,按以下格式进行准备 |
|
|
|
|
|
|
|
```bash |
|
|
|
#fastq_read1 #fastq_read2 #bam #bai #vcf #sample_mark |
|
|
|
oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R1.fastq.gz oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R2.fastq.gz oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam.bai oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Haplotyper/Fudan_DNA_LCL5_hc.vcf LCL5 |
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
**sample_id** |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## App输出文件 |
|
|
|
|
|
|
|
|