室间质评
Вы не можете выбрать более 25 тем Темы должны начинаться с буквы или цифры, могут содержать дефисы(-) и должны содержать не более 35 символов.

9.3KB

基于中华家系1号的全基因组数据质量控制报告

1. 基本信息

机构名称:复旦大学

建库方法:TruSeq

测序仪器:Illumina Novaseq

Read长度:双端150bp

参考基因组:GRCh38

回收数据:

样本 Fastq Bam VCF
Fudan D5 3 3 3
Fudan D6 3 3 3
Fudan F7 3 3 3
Fudan M8 3 3 3

分析流程:

步骤 软件 版本号
Preprocessing Trimmomatic
Mapping BWA-MEM
Remove Duplicates Picard
BQSR GATK
Calling Haplotyper
Filtration VQSR

2. 原始数据质量评估

项目名称 Fudan D5 Fudan D6 Fudan F7 Fudan M8 参考值
原始数据量(Million)
Reads重复率(%)
原始数据测序深度
碱基质量
ATGC含量 (%)
GC含量分布(%)
重复序列(%)
接头序列含量(%)
污染物

3. 比对后数据质量评估

项目名称 Fudan D5 Fudan D6 Fudan F7 Fudan M8 参考值
比对率(%)
高质量Reads比对率(%)
错配率(%)
去重后测序深度
Insert size (bp)

4. 突变数据质量评估

(1)突变统计

Sample Fudan D5 Fudan D6 Fudan F7 Fudan M8
突变总数
SNVs
Insertions
Deletions
SNV Transitions/Transversions
Total Het/Hom ratio
SNV Het/Hom ratio
Insertions Het/Hom ratio
Deletions Het/Hom ratio

(2)技术重复一致性

技术重复的一致性 Fudan D5 Fudan D6 Fudan F7 Fudan M8
SNVs
Indels

(3)突变检测准确性(Presicion, recall, F1-score)

基因环境 类型 Fudan D5 Fudan D6 Fudan F7 Fudan M8
All SNV
Indel
Not in homopolymers or TRs SNV
Indel
In homopolymers or TRs SNV
Indel
GC content SNV
Indel
Tier 1 (supported by all replicates, sequencing sites, platforms and bioinformatic pipelines) SNV
Indel
Tier 2 (supported by majority of replicates, sequencing sites, platforms and bioinformatic pipelines ) SNV
Indel
Tier 3 (supported by only one platform and multiple bioinformatic pipelines) SNV
Indel
In high confidence bed SNV
Indel
Not in high confidence bed SNV
Indel
In structural variantion region SNV
Indel
Clinical relevant mutations SNV
Indel
De novo SNV
Indel

下载

SNV

  • True Positive
  • True Negative
  • False Positive
  • False Negative

INDEL

  • True Positive
  • True Negative
  • False Positive
  • False Negative

5. 附录

(1) 中华家系1号DNA标准物质介绍

​ 中华家系1号全基因组DNA标准物质由中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制。候选物来自同卵双胞胎家庭的永生化B淋巴母细胞系,志愿者选自复旦大学泰州队列,泰州地处我国南北交界,代表了中国人群典型的遗传结构特征。由于同卵双生双胞胎家庭的家系设计,可以通过孟德尔遗传定律进一步排除标称值确定过程中的可能错误。同时,中华家系1号转录组、蛋白质组和代谢物组的标准物质也在逐步研制中,通过多组学数据的整合分析可为标称值的确定提供了另一层面的生物学依据。

​ 中华家系1号DNA标准物质的标称值包括高置信单核苷酸变异信息、高置信短插入缺失变异信息和77.9-78.1%的高置信参考基因组区。该系列标准物质可以用于评估基因组测序的性能,包括全基因组测序、全外显子测序、靶向测序,如基因捕获测序;还可用于评估测序过程和数据分析过程中对SNV和InDel检出的真阳性、假阳性、真阴性和假阴性水平,为基因组测序技术平台、实验室、相关产品的质量控制与性能验证提供标准物质和标准数据。

(2) 数据分析方法与流程

​ 数据分析流程如下图所示,利用Sentieon进行数据比对、比对后校正、突变分析和过滤,利用FastQC、Qualimap、MultiQC、RTGtools、R和in-house script进行数据的质量控制和评估。采用choppy分析调度和完成报告。

6. 声明

​ 本质量检测报告,仅适用于此次实验测试数据,不代表对测序公司业务水平的评估。本质量检测报告,仅用于科学项目研究,请勿用于临床或商业。任何单位或个人因使用此检测报告结果造成的任何利益或损失(包括直接和间接损失),本单位不承担任何经济和法律责任。