|
|
@@ -1,4 +1,4 @@ |
|
|
|
# WGS-germline Small Variants Quality Control Pipeline |
|
|
|
# WGS-germline Small Variants Quality Control Pipeline(Start from FASTQ files) |
|
|
|
|
|
|
|
> Author: Run Luyao |
|
|
|
> |
|
|
@@ -106,7 +106,7 @@ choppy samples WGS_germline_datapotal-latest --output samples |
|
|
|
|
|
|
|
####Samples文件的输入包括 |
|
|
|
|
|
|
|
**inputSamplesFile** |
|
|
|
**1. inputSamplesFile**,该文件的上传至阿里云,samples文件中填写该文件的阿里云地址 |
|
|
|
|
|
|
|
请查看示例 **inputSamples.Examples.txt** |
|
|
|
|
|
|
@@ -140,10 +140,12 @@ Date是指数据获得日期,格式为20200710 |
|
|
|
|
|
|
|
各个缩写规范请见 https://fudan-pgx.yuque.com/docs/share/5baa851b-da97-47b9-b6c4-78f2b60595ab?# 《数据命名规范》 |
|
|
|
|
|
|
|
**project** |
|
|
|
**2. project** |
|
|
|
|
|
|
|
这个项目的名称,可以写自己可以识别的字符串,只能写英文和数字,不可以写中文 |
|
|
|
|
|
|
|
**samples文件的示例请查看choppy_samples_example.csv** |
|
|
|
|
|
|
|
#### Quartet样本的组合问题 |
|
|
|
|
|
|
|
##### 1. 没有测LCL5和LCL6,或者没有同时测LCL5和LCL6 |
|
|
@@ -172,13 +174,19 @@ Date是指数据获得日期,格式为20200710 |
|
|
|
|
|
|
|
突变检出指控 variants.calling.qc.txt |
|
|
|
|
|
|
|
如果用户输入4个一组完整的家系样本则可以得到每个家庭单位的precision和recall的平均值,用于(1)计算综合指标和(2)报告第一页的展示: |
|
|
|
如果用户输入4个一组完整的家系样本则可以得到每个家庭单位的precision和recall的平均值,用于报告第一页的展示: |
|
|
|
|
|
|
|
precision.recall.txt |
|
|
|
reference_datasets_aver-std.txt |
|
|
|
|
|
|
|
####2. quartet_mendelian.wdl |
|
|
|
|
|
|
|
基于Quartet家系的质控 ${project}.mendelian.txt |
|
|
|
基于Quartet家系的质控 mendelian.txt |
|
|
|
|
|
|
|
Quartet家系结果的平均值和SD值,用于报告第一页的展示 |
|
|
|
|
|
|
|
quartet_indel_aver-std.txt |
|
|
|
|
|
|
|
quartet_snv_aver-std.txt |
|
|
|
|
|
|
|
#### 3. D5_D6.WDL |
|
|
|
|
|
|
@@ -194,7 +202,7 @@ ${project}.sister.txt |
|
|
|
|
|
|
|
FastQC和FastqScreen是两个常用的原始数据质量控制软件 |
|
|
|
|
|
|
|
本APP的输出文件是 **pre_alignment.txt** |
|
|
|
总结表格 **pre_alignment.txt** |
|
|
|
|
|
|
|
| 列名 | 说明 | |
|
|
|
| ------------------------- | ------------------------------------ | |
|
|
@@ -214,7 +222,7 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件 |
|
|
|
|
|
|
|
#### 2. 比对后数据质量控制 |
|
|
|
|
|
|
|
本APP的输出文件是 **post_alignment.txt** |
|
|
|
总结表格 **post_alignment.txt** |
|
|
|
|
|
|
|
| 列名 | 说明 | |
|
|
|
| --------------------- | --------------------------------------------- | |
|
|
@@ -224,6 +232,7 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件 |
|
|
|
| Mendelian Insert Size | Median insert size(bp) | |
|
|
|
| %Q20 | % bases >Q20 | |
|
|
|
| %Q30 | % bases >Q30 | |
|
|
|
| Mean Coverage | Mean deduped coverage | |
|
|
|
| Median Coverage | Median deduped coverage | |
|
|
|
| PCT_1X | Fraction of genome with at least 1x coverage | |
|
|
|
| PCT_5X | Fraction of genome with at least 5x coverage | |
|
|
@@ -232,33 +241,51 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件 |
|
|
|
|
|
|
|
####3. 突变检出数据质量控制 |
|
|
|
|
|
|
|
本APP的输出文件是 **variants.calling.qc.txt** |
|
|
|
具体信息 **variants.calling.qc.txt** |
|
|
|
|
|
|
|
| 列名 | 说明 | |
|
|
|
| --------------- | ------------------------------ | |
|
|
|
| Sample | 样本名 | |
|
|
|
| SNV number | SNV的数目 | |
|
|
|
| INDEL number | INDEL的数目 | |
|
|
|
| SNV number | 检测到SNV的数目 | |
|
|
|
| INDEL number | 检测到INDEL的数目 | |
|
|
|
| SNV query | 在高置信基因组区域中的SNV数目 | |
|
|
|
| INDEL query | 在高置信基因组区域中INDEL数目 | |
|
|
|
| SNV TP | 真阳性SNV | |
|
|
|
| INDEL TP | 真阳性INDEL | |
|
|
|
| SNV FP | 假阳性SNV | |
|
|
|
| INDEL FP | 假阳性INDEL | |
|
|
|
| SNV FN | 假阴性SNV | |
|
|
|
| INDEL FN | 假阴性INDEL | |
|
|
|
| SNV precision | SNV与标准集比较的precision | |
|
|
|
| INDEL precision | INDEL的与标准集比较的precision | |
|
|
|
| SNV recall | SNV与标准集比较的recall | |
|
|
|
| INDEL recall | INDEL的与标准集比较的recall | |
|
|
|
| SNV F1 | SNV与标准集比较的F1-score | |
|
|
|
| INDEL F1 | INDEL与标准集比较的F1-score | |
|
|
|
|
|
|
|
与标准集比较的家庭单元整合结果**precision.recall.txt** |
|
|
|
与标准集比较的家庭单元整合结果**reference_datasets_aver-std.txt** |
|
|
|
|
|
|
|
| 列名 | 说明 | |
|
|
|
| ----------------- | ------------------------------------------------------------ | |
|
|
|
| Family | project.rep.SNV/INDEL;project指的是APP输入的project字段,rep是指第几组家庭 | |
|
|
|
| Average Precision | 该组家庭的precision的平均值 | |
|
|
|
| Average Recall | 该组家庭的recall的平均值 | |
|
|
|
| Precison SD | 该组家庭的precision的SD | |
|
|
|
| Recall SD | 该组家庭的recall的SD | |
|
|
|
| | Mean | SD | |
|
|
|
| --------------- | ---- | ---- | |
|
|
|
| SNV precision | | | |
|
|
|
| INDEL precision | | | |
|
|
|
| SNV recall | | | |
|
|
|
| INDEL recall | | | |
|
|
|
| SNV F1 | | | |
|
|
|
| INDEL F1 | | | |
|
|
|
|
|
|
|
####4 Quartet家系关系评估 ${project}.mendelian.txt |
|
|
|
####4 Quartet家系关系评估 mendelian.txt |
|
|
|
|
|
|
|
| 列名 | 说明 | |
|
|
|
| ----------------------------- | ------------------------------------------------------------ | |
|
|
|
| Family | 家庭名字,我们目前的设计是4个Quartet样本,每个三个技术重复,family_1是指rep1的4个样本组成的家庭单位,以此类推。 | |
|
|
|
| Reproducibility_D5_D6 | Quartet-D5和Quartet-D6的一致性 | |
|
|
|
| Total_Variants | 四个Quartet样本一共能检测到的变异位点数目 | |
|
|
|
| Mendelian_Concordant_Variants | 符合孟德尔规律的变异位点数目 | |
|
|
|
| Mendelian_Concordance_Quartet | 符合孟德尔遗传的比例 | |
|
|
|
|
|
|
|
家系结果的整合结果**quartet_indel_aver-std.txt**和**quartet_snv_aver-std.txt** |
|
|
|
|
|
|
|
| | Mean | SD | |
|
|
|
| --------------------------- | ---- | ---- | |
|
|
|
| SNV/INDEL(根据文件名判断) | | | |
|
|
|
|