LUYAO REN пре 5 година
родитељ
комит
38dc99c4ec
1 измењених фајлова са 38 додато и 5 уклоњено
  1. +38
    -5
      README.md

+ 38
- 5
README.md Прегледај датотеку

@@ -56,7 +56,7 @@ fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> --

#### [Qualimap](<http://qualimap.bioinfo.cipf.es/>)

Qualimap是一个比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。
Qualimap是一个比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。

```bash
qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output_directory> --java-mem-size=32G
@@ -66,7 +66,7 @@ qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output

#### [Hap.py](<https://github.com/Illumina/hap.py>)

hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中突变表示形式的多样性,进行了归一化。
hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中[突变表示形式的多样性](<https://genome.sph.umich.edu/wiki/Variant_Normalization>),进行了归一化。

```bash
hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_filename>
@@ -74,28 +74,61 @@ hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_file

#### [Jaccard index](<https://en.wikipedia.org/wiki/Jaccard_index>)

Jaccard index是两个集合的交集除以两个集合的并集。这个计算过程用的是rtg-tools的vcfeval,
Jaccard index是两个集合的交集除以两个集合的并集。这个计算用的是rtg-tools的vcfeval,它将两个vcf中的突变表示格式进行了统一,即两个看似不同的SNV或者INDEL实际上是指同一个突变,这种情况经常发生在重复区域。

```bash
rtg vcfeval -b <one_vcf> -c <another_vcf> -o <output_directory> -t <sdf_file>
```

`-t` sdf文件是rtg-tools专用的注释文件,由fasta文件转换来

#### [VCF statistics](<https://github.com/RealTimeGenomics/rtg-tools>)

该计算用的是rtg-tools的vcfstats,对vcf中的SNV和INDEL的数目进行了统计。

```bash
rtg vcfstats <vcf_file>
```

## App输入变量与输入文件
准备inputSamplesFIle (tsv格式)
在安装了APP之后,输入一下命令得到需要准备的文件

```bash
#fastq_read1 #fastq_read2 #bam #bai #vcf #sample_mark
choppy samples Quality_control-latest --output qcsamples
```

qcsamples文件

```bash
inputJIpiarsFile,inputSamplesFile,sample_id
```

**inputJIpiarsFile**是计算Jaccard index的输入文件,按以下格式进行准备

```bash
#vcf1 #vcf2 #vcf1_vcf2
oss://chinese-quartet/quartet-result-data/FDU/VCF/Quartet_DNA_BGI_SEQ2000_BGI_LCL5_1_20180518_hc.vcf
oss://chinese-quartet/quartet-result-data/FDU/VCF/Quartet_DNA_BGI_SEQ2000_BGI_LCL5_2_20180530_hc.vcf
BGI_SEQ2000_BGI_LCL5_1-BGI_SEQ2000_BGI_LCL5_2
```

`vcf1`和` vcf2`是两个需要计算一致性的vcf文件的oss地址

`vcf1_vcf2`是两个vcf文件名字的简单缩写,用于之后的数据分析

**inputSamplesFile**是其他质控task的输入文件,按以下格式进行准备

```bash
#fastq_read1 #fastq_read2 #bam #bai #vcf #sample_mark
oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R1.fastq.gz oss://chinese-quartet/quartet-test-data/fastqfiles/Fudan_DNA_LCL5_R2.fastq.gz oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Dedup/Fudan_DNA_LCL5.sorted.deduped.bam.bai oss://choppy-cromwell-result/test-choppy/wgs_quartettest_renluyao_0827/7a72d0e6-302d-43ca-b6b0-daeaa0236d06/call-Haplotyper/Fudan_DNA_LCL5_hc.vcf LCL5
```



**sample_id**



## App输出文件



Loading…
Откажи
Сачувај