소스 검색

20200724

master
Zhihui 4 년 전
부모
커밋
e8c07a42a2
2개의 변경된 파일283개의 추가작업 그리고 436개의 파일을 삭제
  1. +283
    -64
      README.md
  2. +0
    -372
      README_DNA.md

+ 283
- 64
README.md 파일 보기

@@ -19,90 +19,319 @@ choppy install lizhihui/RNAseq_germline_datapotal

## App概述——中华家系1号标准物质介绍

建立高通量全基因组测序的生物计量和质量控制关键技术体系,是保障测序数据跨技术平台、跨实验室可比较、相关研究结果可重复、数据可共享的重要关键共性技术。建立国家基因组标准物质和基准数据集,突破基因组学的生物计量技术,是将测序技术转化成临床应用的重要环节与必经之路,目前国际上尚属空白。中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制了人源中华家系1号基因组标准物质(**Quartet,一套4个样本,编号分别为LCL5,LCL6,LCL7,LCL8,其中LCL5和LCL6为同卵双胞胎女儿,LCL7为父亲,LCL8为母亲**),以及相应的全基因组测序序列基准数据集(“量值”),为衡量基因序列检测准确与否提供一把“标尺”,成为保障基因测序数据可靠性的国家基准。人源中华家系1号基因组标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时家系的设计也为“量值”的确定提供了遗传学依据。
​ 建立高通量转录组测序的生物计量和质量控制关键技术体系,是保障转录组测序数据跨技术平台、跨实验室可比较、相关研究结果可重复、数据可共享的重要关键共性技术。建立国家转录组标准物质和基准数据集,突破基因组学的生物计量技术,是将测序技术转化成临床应用的重要环节与必经之路,目前国际上尚属空白。中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制了人源中华家系1号基因组标准物质(**Quartet,一套4个样本,编号分别为LCL5,LCL6,LCL7,LCL8,其中LCL5和LCL6为同卵双胞胎女儿,LCL7为父亲,LCL8为母亲**),以及相应的全基因组测序序列基准数据集(“量值”),为衡量基因序列检测准确与否提供一把“标尺”,成为保障基因测序数据可靠性的国家基准。人源中华家系1号转录组标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时家系的设计也为“量值”的确定提供了遗传学依据。

​ 中华家系1号RNA标准物质通过21个批次RNA标准物质的测序,整合集成了参考数据集,从而建立了一些依赖参考的质量控制指标。

​ 在原始数据及比对数据层面,我们关注了数据量、GC含量、污染情况、比对率、比对位置分布等对测序可能会产生影响的指标,通过计算观察这些指标,我们可以一定程度上了解测序数据的质量。在测序数据表达情况层面,分别在定性和定量层面对基因检测表达水平进行了多角度的评价。通过从10个方面评估21个数据集的数据质量后我们构建了基于高置信度的已检测、未检测基因集、差异表达基因等参考数据集。通过这些指标,我们可以对新产生的测序数据进行合理的评价。

中华家系1号RNA标准物质的利用集成的参考数据集,我们对所有21个数据集进行了基准测试,以建立一些依赖参考的质量控制指标
​ 该Quality_control APP用于转录组测序(RNA Sequencing,RNA-Seq)数据的质量评估,包括原始数据及比对数据质控和基因表达数据质控

在基因检测水平上,我们基于高置信度的已检测和未检测基因集介绍了检测灵敏度和特异性。对于大多数文库,我们观察到高水平的灵敏度(〜0.97)和特异性(〜0.97),除了几个主要来自同一批次(R_ILM_L4_B1)的文库,该文库在检测重现性评估中也得分较低。 (图6A)。
## 流程与参数

![image-20200724020524943](https://tva1.sinaimg.cn/large/007S8ZIlgy1gh1g8dqs3kj30r209g40a.jpg)

### 1.原始数据质量和数据比对质量

然后,在表达水平上,建立了两个指标,以从定性和定量的角度评估歧视能力。我们使用相对表达量的一致比例作为定性估计量,该估计量的重点是从某个数据集计算出的倍数变化水平是否落在参考值的SD区间的平均值的正负2倍的范围之内和负值之内。 ,我们计算了从测试数据集得出的倍数变化与参考数据集中的倍数变化的相关性(图6B)。这两个指标具有不同范围的明确线性关系。相关得分高于0.9,而一致比率从0.68到0.98(平均0.91)变化。在21个数据集中,一个数据集(R_ILM_L5_B3)在基于参考倍数变化和DEG的度量中表现较低(图6B和6C)。批处理内质控与参考数据相比6个“低质量”数据集与15个“高质量”数据集的相似性较低的假设是,将它们从参考数据集成中排除。为了减少这种偏差,我们进行了10次交叉验证测试。简而言之,在每个回合中,仅包含15个数据集中的12个以构建参考数据集,剩下的3个被视为测试集以及6个“低质量”数据集。高配置数据集和低配置数据集的交叉验证之间的比较表明,基于参考的质量绩效与数据质量的本质更相关,而不是是否参与生成参考值,从而验证了在此进行的参考数据集的价值研究(图S7)。
#### [Fastqc](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/>) v0.11.5

结合上述所有主要质量指标(包括批内指标和依赖参考的指标),我们从10个方面报告了21个数据集的数据质量(图6D)。在poly-A和Ribo-Zero数据集之间观察到明显的质量特征,即大多数poly-A数据集在与数据可重复性相关的指标(例如1 / CV,CTR)中均获得了高分,而Ribo-Zero数据集在样品区分方面表现更好。此外,由于我们使用了多个QC指标,因此估计了各个QC指标的一致性,显示出中等程度的相关性(Spearman相关性的均值:0.61),表明这些指标的估计既一致又互补(图6E)。
FastQC是一个常用的测序原始数据的质控软件,主要包括12个模块,具体请参考[Fastqc模块详情](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/>)

表1汇总了所有QC指标,包括本研究中的批内指标和依赖参考的指标,以及它们的参考阈值。
```bash
fastqc -t <threads> -o <output_directory> <fastq_file>
```

#### [Fastq Screen](<https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/>) 0.12.0

Fastq Screen是检测测序原始数据中是否引⼊入其他物种,或是接头引物等污染,⽐比如,如果测序样本
是⼈人类,我们期望99%以上的reads匹配到⼈人类基因组,10%左右的reads匹配到与⼈人类基因组同源性
较⾼高的⼩小⿏鼠上。如果有过多的reads匹配到Ecoli或者Yeast,要考虑是否在培养细胞的时候细胞系被污染,或者建库时⽂文库被污染。

```bash
fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> --threads <threads> <fastq_file>
```

`--conf` conifg 文件主要输入了多个物种的fasta文件地址,可根据自己自己的需求下载其他物种的fasta文件加入分析

`--top`一般不需要对整个fastq文件进行检索,取前100000行

#### [Qualimap](<http://qualimap.bioinfo.cipf.es/>) 2.0.0

该Quality_control APP用于转录组测序(RNA Sequencing,RNA-Seq)数据的质量评估,包括原始数据质控、比对数据质控和基因表达数据质控
Qualimap是一个计算数据比对质量的软件,包含测序数据比对后的bam文件比对质量的结果

## 流程与参数
```bash
qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output_directory> --java-mem-size=32G
qualimap rnaseq -bam ${bam} -outformat HTML -outdir ${bamname}_RNAseq -gtf ${gtf} -pe --java-mem-size=10G
```

###2.数据表达质量

```
Rscript
```

分析采用实验室内部使用的代码,对从以下10个方面评估数据质量:

![image-20200713083634120](https://tva1.sinaimg.cn/large/007S8ZIlgy1ggp1q2qstej31330u0wol.jpg)
- Number of detected genes
- Detection Jaccard index (JI)
- Coefficient of variation (CV)
- Correlation of technical replicates (CTR)
- Sensitivity of detection
- Specificity of detection
- Consistency ratio of relative expression
- Correlation of relative log2FC
- Sensitivity of DEGs
- Specificity of DEGs
- Signal-to-noise Ratio (SNR) )

## App输入文件
inputSamplesFile

```
#read1 #read2 #sample_id #adapter_sequence #adapter_sequence_r2
#待更新
```

read1 是阿里云上fastq read1的地址

read2 是阿里云上fastq read2的地址

sample_id 是指样本的命名
参数设置:

若有修改需求,请在input文件中添加新的行

#### [fastp](https://github.com/OpenGene/fastp)

| 参数名 | 参数解释 | 默认值 |
| ------------------------- | ------------------------------------------------------- | ------------------------------------------------------------ |
| fastp_docker | fastp软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/fastp:0.19.6 |
| fastp_cluster | fastp软件使用服务器 | OnDemand bcs.b2.3xlarge img-ubuntu-vpc |
| trim_front1 | 修剪read1前面多少个碱基 | 0 |
| trim_tail1 | 修剪read1尾部有多少个碱基 | 0 |
| max_len1 | 修剪read1的尾部使其与max_len1一样长 | 0 |
| trim_front2 | 修剪read2前面多少个碱基 | 0 |
| trim_tail2 | 修整read2尾部多少个碱基 | 0 |
| max_len2 | 修剪read2的尾部,使其与max_len2一样长 | 0 |
| adapter_sequence | R1端使用接头 | AGATCGGAAGAGCACACGTCTGAACTCCAGTCA |
| adapter_sequence_r2 | R2端使用接头 | AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT |
| disable_adapter_trimming | 是否进行接头过滤(非0则不过滤) | 0 |
| length_required | 接头过滤参数:短于length_required的读取将被丢弃 | 50 |
| length_required1 | 接头过滤参数: 默认值20表示phred quality> = Q20是合格的 | 20 |
| UMI | 是否使用UMI接头(非0则使用) | 0 |
| umi_len | UMI接头参数: | 0 |
| umi_loc | UMI接头参数:接头位置 | umi_loc |
| disable_quality_filtering | 是否进行碱基质量过滤(非0则过滤) | 1 |
| qualified_quality_phred | 碱基质量过滤参数:允许不合格的百分比 | 20 |



#### [HISAT2](http://daehwankimlab.github.io/hisat2/)

| 参数名 | 参数解释 | 默认值 |
| ---------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| hisat2_docker | hisat2软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/hisat2:v2.1.0-2 |
| hisat2_cluster | hisat2软件使用服务器 | OnDemand |
| idx_prefix | 比对文件类型 | genome_snp_tran |
| idx | 比对文件地址 | oss://pgx-reference-data/reference/hisat2/grch38_snp_tran/ |
| fasta | 比对文件名称 | GRCh38.d1.vd1.fa |
| pen_cansplice | 为每对规范的剪接位点(例如GT / AG)设置惩罚 | 0 |
| pen_noncansplice | 设置每对非规范剪接位点(例如非GT / AG)的惩罚 | 3 |
| pen_intronlen | 设置长内含子的罚分,因此与较短的内含子相比,较短的内含子优先 | G,-8,1 |
| min_intronlen | 设置最小内含子长度 | 30 |
| max_intronlen | 设置最大内含子长度 | 500000 |
| maxins | 有效的配对末端比对的最大片段长度 | 500 |
| minins | 有效的配对末端比对的最小片段长度 | 0 |



####[Samtools](http://www.htslib.org/)

| 参数名 | 参数解释 | 默认值 |
| ---------------- | ---------------------- | ------------------------------------------------------------ |
| samtools_docker | samtools软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/samtools:v1.3.1 |
| samtools_cluster | samtools软件使用服务器 | OnDemand bcs.a2.large img-ubuntu-vpc, |
| insert_size | 最大插入读长 | 8000 |

adapter_sequence 是R1端需要去除的接头

adapter_sequence_r2 是R2端需要去除的接头

所有上传的文件应有规范的命名
####[StringTie](https://ccb.jhu.edu/software/stringtie/)

| 参数名 | 参数解释 | 默认值 |
| ---------------------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| stringtie_docker | stringtie软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/stringtie:v1.3.4 |
| stringtie_cluster | stringtie软件使用服务器 | OnDemand bcs.a2.large img-ubuntu-vpc, |
| gtf | 组装gtf文件地址 | oss://pgx-reference-data/reference/annotation/Homo_sapiens.GRCh38.93.gtf |
| minimum_length_allowed_for_the_predicted_transcripts | 设置预测成绩单所允许的最小长度 | 200 |
| minimum_isoform_abundance | 将预测的转录本的最小同工型丰度设置为在给定基因座处组装的最丰富的转录本的一部分 | 0.01 |
| Junctions_no_spliced_reads | 没有拼接的接头在两端至少与该数量的碱基对齐,这些接头被过滤掉 | 10 |
| maximum_fraction_of_muliplelocationmapped_reads | 设置允许在给定基因座处存在的多核苷酸位置映射的读数的最大分数 | 0.95 |



#### [FastQC](https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)

| 参数名 | 参数解释 | 默认值 |
| --------------------- | -------------------- | ------------------------------------------------------------ |
| fastqc_cluster_config | fastqc软件使用服务器 | OnDemand bcs.b2.3xlarge img-ubuntu-vpc |
| fastqc_docker | fastqc软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/fastqc:v0.11.5 |
| fastqc_disk_size | fastqc文件盘大小 | 150 |



#### [Qualimap](http://qualimap.bioinfo.cipf.es/)

| 参数名 | 参数解释 | 默认值 |
| ----------------------------- | ---------------------------- | ------------------------------------------------------------ |
| qualimapBAMqc_docker | qualimapBAMqc软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/qualimap:2.0.0 |
| qualimapBAMqc_cluster_config | qualimapBAMqc软件使用服务器 | OnDemand bcs.a2.7xlarge img-ubuntu-vpc |
| qualimapBAMqc_disk_size | qualimapBAMqc软件版本信息 | 500 |
| qualimapRNAseq_docker | qualimapRNAseq软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/qualimap:2.0.0 |
| qualimapRNAseq_cluster_config | qualimapRNAseq软件使用服务器 | OnDemand bcs.a2.7xlarge img-ubuntu-vpc |
| qualimapRNAseq_disk_size | qualimapRNAseq软件版本信息 | 500 |



#### [FastQ Screen](https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/)

| 参数名 | 参数解释 | 默认值 |
| -------------------------- | --------------------------- | ------------------------------------------------------------ |
| fastqscreen_docker | fastqscreen软件版本信息 | registry.cn-shanghai.aliyuncs.com/pgx-docker-registry/fastqscreen:0.12.0 |
| fastqscreen_cluster_config | fastqscreen软件使用服务器 | OnDemand bcs.b2.3xlarge img-ubuntu-vpc |
| screen_ref_dir | fastqscreen软件序列地址 | oss://pgx-reference-data/fastq_screen_reference/ |
| fastq_screen_conf | fastqscreen软件序列索引地址 | oss://pgx-reference-data/fastq_screen_reference/fastq_screen.conf |
| fastqscreen_disk_size | fastqscreen文件盘大小 | 200 |
| ref_dir | fastqscreen序列索引地址 | oss://chinese-quartet/quartet-storage-data/reference_data/ |



#### [MultiQC](https://multiqc.info/)

| 参数名 | 参数解释 | 默认值 |
| ---------------------- | --------------------- | ------------------------------------------------------------ |
| multiqc_cluster_config | multiqc软件版本信息 | OnDemand bcs.b2.3xlarge img-ubuntu-vpc |
| multiqc_docker | multiqc软件使用服务器 | registry-vpc.cn-shanghai.aliyuncs.com/pgx-docker-registry/multiqc:v1.8 |
| multiqc_disk_size | multiqc文件盘大小 | 100 |



## App输出文件
1.上游质控参数

| 列名 | 说明 | 范围 |
| -------------------------- | ---- | ---- |
| SampleID | | |
| #Date | | |
| #LibraryPrep | | |
| Replicate | | |
| Sample | | |
| #SequenceMachine | | |
| #SequenceSite | | |
| #SequenceTech | | |
raw reads
| Total_Reads_After_Trimming | | |
| GC_content |* | |
| Human.percentage | | |
| #ERCC.percentage | | |
| EColi.percentage | | |
| Adapter.percentage | | |
| #Vector.percentage | | |
| rRNA.percentage | | |
| Virus.percentage | | |
| Yeast.percentage | | |
| Mitoch.percentage | | |
| Phix.percentage | | |
| No.hits.percentage | | |
| GC_content_bamqc | | |
| Mapping_Ratio | * | |
| Insert_size_median | * | |
| Insert_size_peak | * | |
error rate
average length
3’5‘ gene cover
duplication
strand bias


2.下游质控参数

#### 1. results_upstream_total.csv

| library | date | sample | replicate | Total.Sequences | GC_beforemapping | total_deduplicated_percentage | Human.percentage | ERCC.percentage | EColi.percentage | Adapter.percentage | Vector.percentage | rRNA.percentage | Virus.percentage | Yeast.percentage | Mitoch.percentage | Phix.percentage | No.hits.percentage | percentage_aligned_beforemapping | error_rate | bias_53 | GC_aftermapping | percent_duplicates | sequence_length | median_insert_size | mean_coverage | ins_size_median | ins_size_peak | exonic | intronic | intergenic |
| ------- | -------- | ------ | --------- | --------------- | ---------------- | ----------------------------- | ---------------- | --------------- | ---------------- | ------------------ | ----------------- | --------------- | ---------------- | ---------------- | ----------------- | --------------- | ------------------ | -------------------------------- | ---------- | ------- | --------------- | ------------------ | --------------- | ------------------ | ------------- | --------------- | ------------- | ------ | -------- | ---------- |
| D5_1 | 20200724 | D5 | 1 | 48872858 | 52 | 45.2953551 | 94.79 | 0 | 0 | 0.01 | 0.15 | 17.01 | 1.23 | 4.54 | 0.61 | 0 | 0.9 | 98.6435612 | 0.01 | 1.01 | 58.0426004 | 54.7046449 | 150 | 263 | 15.8021 | 258 | 192 | 52.05 | 41.37 | 6.58 |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

原始数据质量和数据比对质量结果汇总(example)

### 2. One_sample.csv

| Name | Description | Group | Value | Reference_value | Conclusion |
| ------------------------ | ------------------------------------------------------------ | ----- | ---------- | --------------- | ---------- |
| Detected_gene | This metric is used to estimate the detection abundance of one sample. | D5 | 25126.6667 | (**, 58,395] | |
| | | D6 | 25858.6667 | (**, 58,395] | |
| | | F7 | 26089.6667 | (**, 58,395] | |
| | | M8 | 26618 | (**, 58,395] | |
| Jacard Index | Detection JI is the ratio of number of the genes detected in both replicates than the number of the genes detected in either of the replicates. This metric is used to estimate the repeatability of one sample detected gene from different replicates. | D5 | 0.8756 | [0.8, 1] | Pass |
| | | D6 | 0.8752 | [0.8, 1] | Pass |
| | | F7 | 0.8675 | [0.8, 1] | Pass |
| | | M8 | 0.8804 | [0.8, 1] | Pass |
| CV | CV is calculated based on the normalized expression levels in all 3 replicates of one sample for each genes. This metric is used to estimate the repeatability of one sample expression level from different replicates. | D5 | 11.4836 | | |
| | | D6 | 10.8401 | | |
| | | F7 | 12.2976 | | |
| | | M8 | 10.8662 | | |
| CTR | CTR is calculated based on the correlation of one sample expression level from different replicates. | D5 | 0.9718 | [0.95, 1] | Pass |
| | | D6 | 0.9737 | [0.95, 1] | Pass |
| | | F7 | 0.9699 | [0.95, 1] | Pass |
| | | M8 | 0.9725 | [0.95, 1] | Pass |
| Sensitivity_of_detection | Sensitivity is the proportion of true detected genes from reference dataset which can be correctly detected by the test set. | D5 | 0.9788 | [0.96, 1] | Pass |
| | | D6 | 0.9794 | [0.96, 1] | Pass |
| | | F7 | 0.9774 | [0.96, 1] | Pass |
| | | M8 | 0.9818 | [0.96, 1] | Pass |
| Specificity_of_detection | Specificity is the proportion of true non-detected genes from reference dataset which can be correctly not detected by the test set. | D5 | 0.9727 | [0.94, 1] | Pass |
| | | D6 | 0.9713 | [0.94, 1] | Pass |
| | | F7 | 0.9694 | [0.94, 1] | Pass |
| | | M8 | 0.9677 | [0.94, 1] | Pass |

一个种类样本层面数据表达质量(example)

### 3. Two_sample.csv

| Name | Description | Group | Value | Reference_value | Conclusion |
| ---------------------------------------- | ------------------------------------------------------------ | ----- | ---------- | --------------- | ---------- |
| Consistency_ratio_of_relative_expression | Proportion of genes that falls into reference range (mean +-2 fold SD) in relative ratio (log2FC). | D6/D5 | 1 | [0.82, 1] | Pass |
| | | F7/D5 | 1 | [0.82, 1] | Pass |
| | | F7/D6 | 1 | [0.82, 1] | Pass |
| | | M8/D5 | 1 | [0.82, 1] | Pass |
| | | M8/D6 | 1 | [0.82, 1] | Pass |
| | | M8/F7 | 1 | [0.82, 1] | Pass |
| Correlation_of_relative_log2FC | Pearson correlation between mean value of reference relative ratio and test site. | D6/D5 | 0.98137614 | [0.96,1] | Pass |
| | | F7/D5 | 0.9725557 | [0.96,1] | Pass |
| | | F7/D6 | 0.96789651 | [0.96,1] | Pass |
| | | M8/D5 | 0.97951286 | [0.96,1] | Pass |
| | | M8/D6 | 0.97959193 | [0.96,1] | Pass |
| | | M8/F7 | 0.97736629 | [0.96,1] | Pass |
| Sensitivity_of_DEGs | Sensitivity is the proportion of true DEGs from reference dataset which can be correctly identified as DEG by the test set. | D6/D5 | 0.8344293 | [0.80, 1] | Pass |
| | | F7/D5 | 0.84870451 | [0.80, 1] | Pass |
| | | F7/D6 | 0.84516486 | [0.80, 1] | Pass |
| | | M8/D5 | 0.86227581 | [0.80, 1] | Pass |
| | | M8/D6 | 0.86363942 | [0.80, 1] | Pass |
| | | M8/F7 | 0.85718483 | [0.80, 1] | Pass |
| Specificity_of_DEGs | Specificity is the proportion of true not DEGs from reference dataset which can be can be correctly identified as non-DEG by the test set. | D6/D5 | 0.97680659 | [0.95, 1] | Pass |
| | | F7/D5 | 0.97056775 | [0.95, 1] | Pass |
| | | F7/D6 | 0.975892 | [0.95, 1] | Pass |
| | | M8/D5 | 0.96896379 | [0.95, 1] | Pass |
| | | M8/D6 | 0.97206349 | [0.95, 1] | Pass |
| | | M8/F7 | 0.96594245 | [0.95, 1] | Pass |

两个种类样本层面数据表达质量(example)

### 4. More_sample.csv

| Name | Description | n | Value | Refenence_value | Conclusion |
| ---- | ------------------------------------------------------------ | ----- | ----- | --------------- | ---------- |
| SNR | Signal is defined as the average distance between libraries from the different samples on PCA plots and noise are those form the same samples. SNR is used to assess the ability to distinguish technical replicates from different biological samples. | 23705 | 13.64 | [5, inf) | Pass |

多个种类样本层面数据表达质量(example)



## 结果解读

### 1.原始数据质量和数据比对质量

| 质控参数 | 软件 | 定义 | 参考值 |
| -------------------------------- | ------------ | ---------------------------- | --------- |
| Total.Sequences | Fastqc | 总读段数量 | > 10 M |
| GC_beforemapping | Fastqc | 比对前GC含量 | 40% - 60% |
| total_deduplicated_percentage | Fastqc | 重复序列比例 | |
| Human.percentage | FastQ Screen | 比对到人基因组读段比例 | > 90 % |
| ERCC.percentage | FastQ Screen | 比对到ERCC基因组读段比例 | < 5% |
| EColi.percentage | FastQ Screen | 比对到大肠杆菌基因组读段比例 | < 5% |
| Adapter.percentage | FastQ Screen | 比对到接头读段比例 | < 5% |
| Vector.percentage | FastQ Screen | 比对到载体读段比例 | < 5% |
| rRNA.percentage | FastQ Screen | 比对到接头读段比例 | < 10% |
| Virus.percentage | FastQ Screen | 比对到rRNA读段比例 | < 5% |
| Yeast.percentage | FastQ Screen | 比对到真菌读段比例 | < 5% |
| Mitoch.percentage | FastQ Screen | 比对到线粒体读段比例 | < 5% |
| Phix.percentage | FastQ Screen | 比对到Phix读段比例 | < 5% |
| No.hits.percentage | FastQ Screen | 未比对到已知物种读段比例 | < 5% |
| percentage_aligned_beforemapping | Qualimap | 比对率 | > 90% |
| error_rate | Qualimap | 错误率 | < 5% |
| bias_53 | Qualimap | 5-3偏好性 | |
| GC_aftermapping | Qualimap | 比对后GC含量 | 40% - 60% |
| percent_duplicates | Qualimap | 读段比对后重复比例 | |
| sequence_length | Qualimap | 读段长度 | ~150 |
| median_insert_size | Qualimap | 插入读段长度 | 200 - 300 |
| mean_coverage | Qualimap | 覆盖率 | |
| ins_size_median | Qualimap | 插入读段长度中位数 | 200 - 300 |
| ins_size_peak | Qualimap | 插入读段长度众数 | 200 - 300 |
| exonic | Qualimap | 比对到外显子的碱基比例 | 40% - 60% |
| intronic | Qualimap | 比对到内含子的碱基比例 | 40% - 60% |
| intergenic | Qualimap | 比对到内基因间区的碱基比例 | < 10% |



###2.数据表达质量

| Quality metrics | Category | Description | Reference value |
| ----------------------------------------- | ----------- | ------------------------------------------------------------ | --------------- |
@@ -112,23 +341,13 @@ strand bias
| Correlation of technical replicates (CTR) | One group | CTR is calculated based on the correlation of one sample expression level from different replicates. | [0.95, 1] |
| Signal-to-noise Ratio (SNR) | More groups | Signal is defined as the average distance between libraries from the different samples on PCA plots and noise are those form the same samples. SNR is used to assess the ability to distinguish technical replicates from different biological samples. | [5, inf) |
| Sensitivity of detection | One group | Sensitivity is the proportion of "true" detected genes from reference dataset which can be correctly detected by the test set. | [0.96, 1] |
| /Reference dependent | | | |
| Specificity of detection | One group | Specificity is the proportion of "true" non-detected genes from reference dataset which can be correctly not detected by the test set. | [0.94, 1] |
| /Reference dependent | | | |
| Consistency ratio of relative expression | Two groups | Proportion of genes that falls into reference range (mean ± 2 fold SD) in relative ratio (log2FC). | [0.82, 1] |
| /Reference dependent | | | |
| Correlation of relative log2FC | Two groups | Pearson correlation between mean value of reference relative ratio and test site. | [0.96,1] |
| /Reference dependent | | | |
| Sensitivity of DEGs | Two groups | Sensitivity is the proportion of "true" DEGs from reference dataset which can be correctly identified as DEG by the test set. | [0.80, 1] |
| /Reference dependent | | | |
| Specificity of DEGs | Two groups | Specificity is the proportion of "true" not DEGs from reference dataset which can be can be correctly identified as non-DEG by the test set. | [0.95, 1] |
| /Reference dependent | | | |





## 结果展示与解读




+ 0
- 372
README_DNA.md 파일 보기

@@ -1,372 +0,0 @@
# WGS-germline Small Variants Quality Control Pipeline

> Author: Run Luyao
>
> E-mail:18110700050@fudan.edu.cn
>
> Git: http://choppy.3steps.cn/renluyao/WGS_germline_datapotal.git
>
> Last Updates: 2020/07/05

## 安装指南

```
# 激活choppy环境
source activate choppy
# 安装app
choppy install renluyao/WGS_germline_datapotal
```

## App概述——中华家系1号标准物质介绍

建立高通量全基因组测序的生物计量和质量控制关键技术体系,是保障测序数据跨技术平台、跨实验室可比较、相关研究结果可重复、数据可共享的重要关键共性技术。建立国家基因组标准物质和基准数据集,突破基因组学的生物计量技术,是将测序技术转化成临床应用的重要环节与必经之路,目前国际上尚属空白。中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制了人源中华家系1号基因组标准物质(**Quartet,一套4个样本,编号分别为LCL5,LCL6,LCL7,LCL8,其中LCL5和LCL6为同卵双胞胎女儿,LCL7为父亲,LCL8为母亲**),以及相应的全基因组测序序列基准数据集(“量值”),为衡量基因序列检测准确与否提供一把“标尺”,成为保障基因测序数据可靠性的国家基准。人源中华家系1号基因组标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时家系的设计也为“量值”的确定提供了遗传学依据。

中华家系1号DNA标准物质的Small Variants标称值包括高置信单核苷酸变异信息、高置信短插入缺失变异信息和高置信参考基因组区。该系列标准物质可以用于评估基因组测序的性能,包括全基因组测序、全外显子测序、靶向测序,如基因捕获测序;还可用于评估测序过程和数据分析过程中对SNV和InDel检出的真阳性、假阳性、真阴性和假阴性水平,为基因组测序技术平台、实验室、相关产品的质量控制与性能验证提供标准物质和标准数据。此外,我们还可根据中华家系1号的生物遗传关系计算同卵双胞胎检测突变的一致性和符合四口之家遗传规律的一致率估计测序错误的比例,评估数据产生和分析的质量好坏。

![Picture1](./pictures/Picture1.png)

该Quality_control APP用于全基因组测序(whole-genome sequencing,WGS)数据的质量评估,包括原始数据质控、比对数据质控和突变检出数据质控。

## 流程与参数

![workflow](./pictures/workflow.png)

### 1. 原始数据质量控制

#### [Fastqc](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/>) v0.11.5

FastQC是一个常用的测序原始数据的质控软件,主要包括12个模块,具体请参考[Fastqc模块详情](<https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/>)。

```bash
fastqc -t <threads> -o <output_directory> <fastq_file>
```

#### [Fastq Screen](<https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/>) 0.12.0

Fastq Screen是检测测序原始数据中是否引⼊入其他物种,或是接头引物等污染,⽐比如,如果测序样本
是⼈人类,我们期望99%以上的reads匹配到⼈人类基因组,10%左右的reads匹配到与⼈人类基因组同源性
较⾼高的⼩小⿏鼠上。如果有过多的reads匹配到Ecoli或者Yeast,要考虑是否在培养细胞的时候细胞系被污
染,或者建库时⽂文库被污染。

```bash
fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> --threads <threads> <fastq_file>
```

`--conf` conifg 文件主要输入了多个物种的fasta文件地址,可根据自己自己的需求下载其他物种的fasta文件加入分析

`--top`一般不需要对整个fastq文件进行检索,取前100000行

### 2. 比对后数据质量控制

#### [Qualimap](<http://qualimap.bioinfo.cipf.es/>) 2.0.0

Qualimap是一个比对指控软件,包含Picard的MarkDuplicates的结果和sentieon中metrics的质控结果。

```bash
qualimap bamqc -bam <bam_file> -outformat PDF:HTML -nt <threads> -outdir <output_directory> --java-mem-size=32G
```

### 3. 突变检出数据质量控制

突变质量控制的流程如下

![performance](./pictures/performance.png)

#### 3.1 根据标准数据集的数据质量控制

#### [Hap.py](<https://github.com/Illumina/hap.py>) v0.3.9

hap.py是将被检测vcf结果与benchmarking对比,计算precision和recall的软件,它考虑了vcf中[突变表示形式的多样性](<https://genome.sph.umich.edu/wiki/Variant_Normalization>),进行了归一化。

```bash
hap.py <truth_vcf> <query_vcf> -f <bed_file> --threads <threads> -o <output_filename>
```

#### 3.2 根据Quartet四口之家遗传规律的质量控制

#### Reproducibility (in-house python script)

标准数据集是根据我们整合多个平台方法,过滤不可重复检测、不符合孟德尔遗传规律的假阳性的突变。它可以评估数据产生和分析方法的相对好坏,但是具有一定的局限性,因为它排除掉了很多难测的基因组区域。我们可以通过比较同卵双胞胎突变检测的一致性对全基因组范围进行评估。

#### [Mendelian Concordance Ratio](https://github.com/sbg/VBT-TrioAnalysis) (vbt v1.1)

我们首先将四口之家拆分成两个三口之家进行孟德尔遗传的分析。当一个突变符合姐妹一致,且与父母符合孟德尔遗传规律,则认为是符合Quartet四口之家的孟德尔遗传规律。孟德尔符合率是指四个标准检测出的所有突变中满足孟德尔遗传规律的比例。

```bash
vbt mendelian -ref <fasta_file> -mother <family_merged_vcf> -father <family_merged_vcf> -child <family_merged_vcf> -pedigree <ped_file> -outDir <output_directory> -out-prefix <output_directory_prefix> --output-violation-regions -thread-count <threads>
```

## App输入文件

```bash
choppy samples WGS_germline_datapotal-latest --output samples
```

####Samples文件的输入包括

**inputSamplesFile**

```bash
#read1 #read2 #sample_name
```

read1 是阿里云上fastq read1的地址

read2 是阿里云上fastq read2的地址

sample_name是指样本的命名

所有上传的文件应有规范的命名

Quartet_DNA_SequenceTech_SequenceMachine_SequenceSite_Sample_Replicate_Date.R1/R2.fastq.gz

SequenceTech是指测序平台,如ILM、BGI等

SequenceMachine是指测序仪器,如XTen、Nova、Hiseq(Illumina)、SEQ500、SEQ1000(BGI)等

SequenceSite是指测序单位的英文缩写

Sample是指LCL5、LCL6、LCL7、LCL8

Replicate是指技术重复,从1开始依次增加

Date是指数据获得日期,格式为20200710

后缀一定是R1/R2.fastq.gz,不可以随意更改,R1/R2不可以写成r1/r2,fastq.gz不可以写成fq.gz

各个缩写规范请见 https://fudan-pgx.yuque.com/docs/share/5baa851b-da97-47b9-b6c4-78f2b60595ab?# 《数据命名规范》

**project**

这个项目的名称,可以写自己可以识别的字符串,只能写英文和数字,不可以写中文

#### Quartet样本的组合问题

##### 1. 没有测LCL5和LCL6,或者没有同时测LCL5和LCL6

只给出原始数据质控、比对数据质控、与标准集的比较

##### 2. 包含LCL5和LCL6同卵双胞胎的数据,但是父母的数据不全

只给出原始数据质控、比对数据质控、与标准集的比较、同卵双胞胎一致性

##### 3. 四个quartet样本都测了

给出所有结果原始数据质控、比对数据质控、与标准集的比较、同卵双胞胎一致性,符合孟德尔遗传比例

**注意**:本app假设每个批次测的技术重复都一样,如batch 1测了LCL5、LCL6、LCL7和LCL8,batch 2 和batch 3也都测了这四个样本。本app不解决特别复杂的问题,例如batch1测了LCL5,LCL6,batch2测了LCL7和LCL8,本app只能给出原始数据质控、比对数据质控、与标准集的比较,不会把多个批次的数据合并计算孟德尔符合率和姐妹一致性。

## App输出文件

本计算会产生大量的中间结果,这里说明最后整合好的结果文件,上述的三种情况得到的结果文件如下。

###1. 没有测LCL5和LCL6,或者没有同时测LCL5和LCL6

####1.1 原始数据质量控制

####1.2 比对后数据质量控制

##### 输出目录

extract_multiqc

##### 输出结果文件

qualimap.final.result.txt

####1.3 突变检出数据质量控制

#####与标准集进行比较

######输出目录

extract_multiqc

######输出结果文件

benchmark.final.result.txt

###2. 包含LCL5和LCL6同卵双胞胎的数据,但是父母的数据不全

#### 2.1 原始数据质量控制

##### 输出目录

extract_multiqc

##### 输出结果文件

fastqc.final.result.txt

fastqscreen.final.result.txt

#### 2.2 比对后数据质量控制

##### 输出目录

extract_multiqc

##### 输出结果文件

qualimap.final.result.txt

#### 2.3 突变检出数据质量控制

##### 2.3.1 与标准集进行比较

#####输出目录

extract_multiqc

#####输出结果文件

benchmark.final.result.txt

**2.3.2** **姐妹一致性**

##### 输出目录

D5_D6

##### 输出结果文件

${project}.sister.txt

### 3. 四个quartet样本都测了

#### 3.1 原始数据质量控制

##### 输出目录

extract_multiqc

##### 输出结果文件

fastqc.final.result.txt

fastqscreen.final.result.txt

#### 3.2 比对后数据质量控制

##### 输出目录

extract_multiqc

##### 输出结果文件

qualimap.final.result.txt

#### 3.3 突变检出数据质量控制

##### 3.3.1 与标准集进行比较

###### 输出目录

extract_multiqc

###### 输出结果文件

benchmark.final.result.txt

##### 3.3.2 通过Quartet家系设计

###### 输出目录

quartet_mendelian

###### 输出结果文件

${project}.mendelian.txt

## 结果展示与解读

####1. 原始数据质量控制

原始数据质量控制主要通过考察测序数据的基本特征判断数据质量的好坏,比如数据量是否达到要求、reads的重复率是否过多、碱基质量、ATGC四种碱基的分布、GC含量、接头序列含量以及是否有其他物种的污染等等。

FastQC和FastqScreen是两个常用的原始数据质量控制软件

#####1.1 fastqc.final.result.txt

| 列名 | 说明 |
| -------------------------------------------------- | ------------------------------------------------------------ |
| Sample | 样本名,R1结尾为read1,R2结尾为read2 |
| FastQC_mqc-generalstats-fastqc-percent_duplicates | % Duplicate reads |
| FastQC_mqc-generalstats-fastqc-percent_gc | Average % GC content |
| FastQC_mqc-generalstats-fastqc-avg_sequence_length | Reads长度 |
| FastQC_mqc-generalstats-fastqc-percent_fails | 12个Fastqc模块中失败的比例 |
| FastQC_mqc-generalstats-fastqc-total_sequences | Total sequences |
| per_base_sequence_quality | pass/warn/fail;Quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25,报"WARN";若任一位置的下四分位数低于5或中位数低于20,报"FAIL"。 |
| per_tile_sequence_quality | pass/warn/fail;每个tile的测序情况,横轴是测序序列第1个碱基到第101个碱基,纵轴是tail的Index编号,这个图主要是为了防止,在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低,蓝色代表测序质量很高,暖色代表测序质量不高,如果某些tail出现暖色,可以在后续分析中把该tail测序的结果全部都去除。 |
| per_sequence_quality_scores | pass/warn/fail;每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目。当出现上图的情况时,我们就会知道有一部分reads具有比较差的质量。当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。 |
| per_base_sequence_content | pass/warn/fail;对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。 |
| per_sequence_gc_content | pass/warn/fail;统计reads的平均GC含量的分布。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。 |
| per_base_n_content | pass/warn/fail;当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率:正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。 |
| sequence_length_distribution | pass/warn/fail;reads长度的分布。当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。 |
| sequence_duplication_levels | pass/warn/fail;统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。重复数目大于等于10的reads被合并统计,这也是为什么我们看到上图的最右侧略有上扬。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。 |
| overrepresented_sequences | pass/warn/fail;如果有某个序列大量出现,就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。 |
| adapter_content | pass/warn/fail;序列中两端adapter的情况;如果有adapter序列没有去除干净的情况,在后续分析的时候需要先使用cutadapt软件进行去接头,也可以用 trimmomatic来去除接头。 |
| kmer_content | pass/warn/fail;如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer。默认的k = 5,可以用-k --kmers选项来调节,范围是2-10。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。fastqc除了列出所有over-represented k-mers,还会把前6个的per base distribution画出来。当有出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer时,报”WARN“;当有出现频率在某位置上10倍于期望的k-mer时报"FAIL"。 |

#####1.2 fastqscreen.final.result.txt

| 列名 | 说明 |
| ------------------ | ------------------------------------------------------------ |
| Sample | 样本名,R1结尾为read1,R2结尾为read2 |
| Human percentage | 比对到人类基因组的比例 |
| ERCC percentage | 比对到External RNA Controls Consortium基因组的比例 |
| EColi percentage | 比对到大肠杆菌基因组的比例 |
| Adapter percentage | 比对到接头序列的比例 |
| Vector percentage | 比对到载体基因组的比例 |
| rRNA percentage | 比对到rRNA序列的比例 |
| Virus percentage | 比对到病毒基因组的比例 |
| Yeast percentage | 比对到酵母基因组的比例 |
| Mitoch percentage | 比对到线粒体序列的比例 |
| Phix percentage | 比对到Phix基因组的比例。PhiX对照品v3是一款可靠、连接接头的文库,适合用作Illumina测序运行的对照品。 |
| No hits percentage | 没有比对到以上基因组的比例 |

#### 2. 比对后数据质量控制

##### qualimap.final.result.txt

| 列名 | 说明 |
| ----------------------------------------------------- | --------------------------------------------- |
| Sample | 样本名 |
| QualiMap_mqc-generalstats-qualimap-avg_gc | Mean GC content |
| QualiMap_mqc-generalstats-qualimap-median_insert_size | Median insert size(bp) |
| QualiMap_mqc-generalstats-qualimap-1_x_pc | Fraction of genome with at least 1x coverage |
| QualiMap_mqc-generalstats-qualimap-5_x_pc | Fraction of genome with at least 5x coverage |
| QualiMap_mqc-generalstats-qualimap-10_x_pc | Fraction of genome with at least 10x coverage |
| QualiMap_mqc-generalstats-qualimap-30_x_pc | Fraction of genome with at least 30x coverage |
| QualiMap_mqc-generalstats-qualimap-50_x_pc | Fraction of genome with at least 50x coverage |
| QualiMap_mqc-generalstats-qualimap-median_coverage | Median coverage |
| QualiMap_mqc-generalstats-qualimap-percentage_aligned | % mapped reads |
| QualiMap_mqc-generalstats-qualimap-mapped_reads | Number of mapped reads |
| QualiMap_mqc-generalstats-qualimap-total_reads | Total reads |
| QualiMap_mqc-generalstats-qualimap-general_error_rate | Mapping error rate |

####3. 突变检出数据质量控制

##### 3.1 与标准集对比 benchmark.final.result.txt

| 列名 | 说明 |
| --------- | ------ |
| Sample | 样本名 |
| Precision | 查准率 |
| Recall | 查全率 |

##### 3.2 姐妹一致性 ${project}.sister.txt (样本没有没有测全,但是同时测了LCL5和LCL6)

| 列名 | 说明 |
| --------------------- | ------------------------------------------------------------ |
| Family | 家庭名字,我们目前的设计是4个Quartet样本,每个三个技术重复,family_1是指rep1的4个样本组成的家庭单位,以此类推。 |
| Reproducibility_D5_D6 | Quartet-D5和Quartet-D6的一致性 |

#####3.3 Quartet家系关系评估 ${project}.mendelian.txt

| 列名 | 说明 |
| ----------------------------- | ------------------------------------------------------------ |
| Family | 家庭名字,我们目前的设计是4个Quartet样本,每个三个技术重复,family_1是指rep1的4个样本组成的家庭单位,以此类推。 |
| Reproducibility_D5_D6 | Quartet-D5和Quartet-D6的一致性 |
| Mendelian_Concordance_Quartet | 符合孟德尔遗传的比例 |


Loading…
취소
저장