選択できるのは25トピックまでです。 トピックは、先頭が英数字で、英数字とダッシュ('-')を使用した35文字以内のものにしてください。

9.7KB

RNA Sequencing Quality Control Pipeline

Author: Li Zhihui

E-mail:18210700119@fudan.edu.cn

Git: http://choppy.3steps.cn/renluyao/RNAseq_germline_datapotal.git

Last Updates: 2020/07/13

安装指南

# 激活choppy环境
source activate choppy
# 安装app
choppy install lizhihui/RNAseq_germline_datapotal

App概述——中华家系1号标准物质介绍

建立高通量全基因组测序的生物计量和质量控制关键技术体系,是保障测序数据跨技术平台、跨实验室可比较、相关研究结果可重复、数据可共享的重要关键共性技术。建立国家基因组标准物质和基准数据集,突破基因组学的生物计量技术,是将测序技术转化成临床应用的重要环节与必经之路,目前国际上尚属空白。中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制了人源中华家系1号基因组标准物质(Quartet,一套4个样本,编号分别为LCL5,LCL6,LCL7,LCL8,其中LCL5和LCL6为同卵双胞胎女儿,LCL7为父亲,LCL8为母亲),以及相应的全基因组测序序列基准数据集(“量值”),为衡量基因序列检测准确与否提供一把“标尺”,成为保障基因测序数据可靠性的国家基准。人源中华家系1号基因组标准物质来源于泰州队列同卵双生双胞胎家庭,从遗传结构上体现了我国南北交界的人群结构特征,同时家系的设计也为“量值”的确定提供了遗传学依据。

中华家系1号RNA标准物质的利用集成的参考数据集,我们对所有21个数据集进行了基准测试,以建立一些依赖参考的质量控制指标。

在基因检测水平上,我们基于高置信度的已检测和未检测基因集介绍了检测灵敏度和特异性。对于大多数文库,我们观察到高水平的灵敏度(〜0.97)和特异性(〜0.97),除了几个主要来自同一批次(R_ILM_L4_B1)的文库,该文库在检测重现性评估中也得分较低。 (图6A)。

然后,在表达水平上,建立了两个指标,以从定性和定量的角度评估歧视能力。我们使用相对表达量的一致比例作为定性估计量,该估计量的重点是从某个数据集计算出的倍数变化水平是否落在参考值的SD区间的平均值的正负2倍的范围之内和负值之内。 ,我们计算了从测试数据集得出的倍数变化与参考数据集中的倍数变化的相关性(图6B)。这两个指标具有不同范围的明确线性关系。相关得分高于0.9,而一致比率从0.68到0.98(平均0.91)变化。在21个数据集中,一个数据集(R_ILM_L5_B3)在基于参考倍数变化和DEG的度量中表现较低(图6B和6C)。批处理内质控与参考数据相比6个“低质量”数据集与15个“高质量”数据集的相似性较低的假设是,将它们从参考数据集成中排除。为了减少这种偏差,我们进行了10次交叉验证测试。简而言之,在每个回合中,仅包含15个数据集中的12个以构建参考数据集,剩下的3个被视为测试集以及6个“低质量”数据集。高配置数据集和低配置数据集的交叉验证之间的比较表明,基于参考的质量绩效与数据质量的本质更相关,而不是是否参与生成参考值,从而验证了在此进行的参考数据集的价值研究(图S7)。

结合上述所有主要质量指标(包括批内指标和依赖参考的指标),我们从10个方面报告了21个数据集的数据质量(图6D)。在poly-A和Ribo-Zero数据集之间观察到明显的质量特征,即大多数poly-A数据集在与数据可重复性相关的指标(例如1 / CV,CTR)中均获得了高分,而Ribo-Zero数据集在样品区分方面表现更好。此外,由于我们使用了多个QC指标,因此估计了各个QC指标的一致性,显示出中等程度的相关性(Spearman相关性的均值:0.61),表明这些指标的估计既一致又互补(图6E)。

表1汇总了所有QC指标,包括本研究中的批内指标和依赖参考的指标,以及它们的参考阈值。

该Quality_control APP用于转录组测序(RNA Sequencing,RNA-Seq)数据的质量评估,包括原始数据质控、比对数据质控和基因表达数据质控。

流程与参数

image-20200713083634120

App输入文件

inputSamplesFile

#read1	#read2	#sample_id	#adapter_sequence	#adapter_sequence_r2

read1 是阿里云上fastq read1的地址

read2 是阿里云上fastq read2的地址

sample_id 是指样本的命名

adapter_sequence 是R1端需要去除的接头

adapter_sequence_r2 是R2端需要去除的接头

所有上传的文件应有规范的命名

App输出文件

1.上游质控参数

列名 说明 范围
SampleID
#Date
#LibraryPrep
Replicate
Sample
#SequenceMachine
#SequenceSite
#SequenceTech

raw reads | Total_Reads_After_Trimming | | | | GC_content |* | | | Human.percentage | | | | #ERCC.percentage | | | | EColi.percentage | | | | Adapter.percentage | | | | #Vector.percentage | | | | rRNA.percentage | | | | Virus.percentage | | | | Yeast.percentage | | | | Mitoch.percentage | | | | Phix.percentage | | | | No.hits.percentage | | | | GC_content_bamqc | | | | Mapping_Ratio | * | | | Insert_size_median | * | | | Insert_size_peak | * | | error rate average length 3’5‘ gene cover duplication strand bias

2.下游质控参数

Quality metrics Category Description Reference value
Number of detected genes One group This metric is used to estimate the detection abundance of one sample. (**, 58,395]
Detection Jaccard index (JI) One group Detection JI is the ratio of number of the genes detected in both replicates than the number of the genes detected in either of the replicates. This metric is used to estimate the repeatability of one sample detected gene from different replicates. [0.8, 1]
Coefficient of variation (CV) One group CV is calculated based on the normalized expression levels in all 3 replicates of one sample for each genes. This metric is used to estimate the repeatability of one sample expression level from different replicates. [0, 0.2]
Correlation of technical replicates (CTR) One group CTR is calculated based on the correlation of one sample expression level from different replicates. [0.95, 1]
Signal-to-noise Ratio (SNR) More groups Signal is defined as the average distance between libraries from the different samples on PCA plots and noise are those form the same samples. SNR is used to assess the ability to distinguish technical replicates from different biological samples. [5, inf)
Sensitivity of detection One group Sensitivity is the proportion of “true” detected genes from reference dataset which can be correctly detected by the test set. [0.96, 1]
/Reference dependent
Specificity of detection One group Specificity is the proportion of “true” non-detected genes from reference dataset which can be correctly not detected by the test set. [0.94, 1]
/Reference dependent
Consistency ratio of relative expression Two groups Proportion of genes that falls into reference range (mean ± 2 fold SD) in relative ratio (log2FC). [0.82, 1]
/Reference dependent
Correlation of relative log2FC Two groups Pearson correlation between mean value of reference relative ratio and test site. [0.96,1]
/Reference dependent
Sensitivity of DEGs Two groups Sensitivity is the proportion of “true” DEGs from reference dataset which can be correctly identified as DEG by the test set. [0.80, 1]
/Reference dependent
Specificity of DEGs Two groups Specificity is the proportion of “true” not DEGs from reference dataset which can be can be correctly identified as non-DEG by the test set. [0.95, 1]
/Reference dependent

结果展示与解读