Bladeren bron

readme

tags/v0.1
LUYAO REN 4 jaren geleden
bovenliggende
commit
b0f90095c8
3 gewijzigde bestanden met toevoegingen van 50 en 22 verwijderingen
  1. +48
    -21
      README.md
  2. +2
    -0
      choppy_samples_example.csv
  3. +0
    -1
      inputs

+ 48
- 21
README.md Bestand weergeven

@@ -1,4 +1,4 @@
# WGS-germline Small Variants Quality Control Pipeline
# WGS-germline Small Variants Quality Control Pipeline(Start from FASTQ files)

> Author: Run Luyao
>
@@ -106,7 +106,7 @@ choppy samples WGS_germline_datapotal-latest --output samples

####Samples文件的输入包括

**inputSamplesFile**
**1. inputSamplesFile**,该文件的上传至阿里云,samples文件中填写该文件的阿里云地址

请查看示例 **inputSamples.Examples.txt**

@@ -140,10 +140,12 @@ Date是指数据获得日期,格式为20200710

各个缩写规范请见 https://fudan-pgx.yuque.com/docs/share/5baa851b-da97-47b9-b6c4-78f2b60595ab?# 《数据命名规范》

**project**
**2. project**

这个项目的名称,可以写自己可以识别的字符串,只能写英文和数字,不可以写中文

**samples文件的示例请查看choppy_samples_example.csv**

#### Quartet样本的组合问题

##### 1. 没有测LCL5和LCL6,或者没有同时测LCL5和LCL6
@@ -172,13 +174,19 @@ Date是指数据获得日期,格式为20200710

突变检出指控 variants.calling.qc.txt

如果用户输入4个一组完整的家系样本则可以得到每个家庭单位的precision和recall的平均值,用于(1)计算综合指标和(2)报告第一页的展示:
如果用户输入4个一组完整的家系样本则可以得到每个家庭单位的precision和recall的平均值,用于报告第一页的展示:

precision.recall.txt
reference_datasets_aver-std.txt

####2. quartet_mendelian.wdl

基于Quartet家系的质控 ${project}.mendelian.txt
基于Quartet家系的质控 mendelian.txt

Quartet家系结果的平均值和SD值,用于报告第一页的展示

quartet_indel_aver-std.txt

quartet_snv_aver-std.txt

#### 3. D5_D6.WDL

@@ -194,7 +202,7 @@ ${project}.sister.txt

FastQC和FastqScreen是两个常用的原始数据质量控制软件

本APP的输出文件是 **pre_alignment.txt**
总结表格 **pre_alignment.txt**

| 列名 | 说明 |
| ------------------------- | ------------------------------------ |
@@ -214,7 +222,7 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件

#### 2. 比对后数据质量控制

本APP的输出文件是 **post_alignment.txt**
总结表格 **post_alignment.txt**

| 列名 | 说明 |
| --------------------- | --------------------------------------------- |
@@ -224,6 +232,7 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件
| Mendelian Insert Size | Median insert size(bp) |
| %Q20 | % bases >Q20 |
| %Q30 | % bases >Q30 |
| Mean Coverage | Mean deduped coverage |
| Median Coverage | Median deduped coverage |
| PCT_1X | Fraction of genome with at least 1x coverage |
| PCT_5X | Fraction of genome with at least 5x coverage |
@@ -232,33 +241,51 @@ FastQC和FastqScreen是两个常用的原始数据质量控制软件

####3. 突变检出数据质量控制

本APP的输出文件是 **variants.calling.qc.txt**
具体信息 **variants.calling.qc.txt**

| 列名 | 说明 |
| --------------- | ------------------------------ |
| Sample | 样本名 |
| SNV number | SNV的数目 |
| INDEL number | INDEL的数目 |
| SNV number | 检测到SNV的数目 |
| INDEL number | 检测到INDEL的数目 |
| SNV query | 在高置信基因组区域中的SNV数目 |
| INDEL query | 在高置信基因组区域中INDEL数目 |
| SNV TP | 真阳性SNV |
| INDEL TP | 真阳性INDEL |
| SNV FP | 假阳性SNV |
| INDEL FP | 假阳性INDEL |
| SNV FN | 假阴性SNV |
| INDEL FN | 假阴性INDEL |
| SNV precision | SNV与标准集比较的precision |
| INDEL precision | INDEL的与标准集比较的precision |
| SNV recall | SNV与标准集比较的recall |
| INDEL recall | INDEL的与标准集比较的recall |
| SNV F1 | SNV与标准集比较的F1-score |
| INDEL F1 | INDEL与标准集比较的F1-score |

与标准集比较的家庭单元整合结果**precision.recall.txt**
与标准集比较的家庭单元整合结果**reference_datasets_aver-std.txt**

| 列名 | 说明 |
| ----------------- | ------------------------------------------------------------ |
| Family | project.rep.SNV/INDEL;project指的是APP输入的project字段,rep是指第几组家庭 |
| Average Precision | 该组家庭的precision的平均值 |
| Average Recall | 该组家庭的recall的平均值 |
| Precison SD | 该组家庭的precision的SD |
| Recall SD | 该组家庭的recall的SD |
| | Mean | SD |
| --------------- | ---- | ---- |
| SNV precision | | |
| INDEL precision | | |
| SNV recall | | |
| INDEL recall | | |
| SNV F1 | | |
| INDEL F1 | | |

####4 Quartet家系关系评估 ${project}.mendelian.txt
####4 Quartet家系关系评估 mendelian.txt

| 列名 | 说明 |
| ----------------------------- | ------------------------------------------------------------ |
| Family | 家庭名字,我们目前的设计是4个Quartet样本,每个三个技术重复,family_1是指rep1的4个样本组成的家庭单位,以此类推。 |
| Reproducibility_D5_D6 | Quartet-D5和Quartet-D6的一致性 |
| Total_Variants | 四个Quartet样本一共能检测到的变异位点数目 |
| Mendelian_Concordant_Variants | 符合孟德尔规律的变异位点数目 |
| Mendelian_Concordance_Quartet | 符合孟德尔遗传的比例 |

家系结果的整合结果**quartet_indel_aver-std.txt**和**quartet_snv_aver-std.txt**

| | Mean | SD |
| --------------------------- | ---- | ---- |
| SNV/INDEL(根据文件名判断) | | |


+ 2
- 0
choppy_samples_example.csv Bestand weergeven

@@ -0,0 +1,2 @@
sample_id,inputSamplesFile,project
1,oss://pgx-result/renluyao/dataportal.test.small.txt,Quartet_DNA_ILM_XTen_NVG_20170531

+ 0
- 1
inputs Bestand weergeven

@@ -15,7 +15,6 @@
"{{ project_name }}.dbmills_dir": "{{ dbmills_dir }}",
"{{ project_name }}.BIGcluster_config": "{{ BIGcluster_config }}",
"{{ project_name }}.fastq_screen_conf": "{{ fastq_screen_conf }}",
"{{ project_name }}.sdf": "{{ sdf }}",
"{{ project_name }}.FASTQSCREENdocker": "{{ FASTQSCREENdocker }}",
"{{ project_name }}.SENTIEONdocker": "{{ SENTIEONdocker }}",
"{{ project_name }}.QUALIMAPdocker": "{{ QUALIMAPdocker }}",

Laden…
Annuleren
Opslaan