|
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152 |
- # 基于中华家系1号的全基因组数据质量控制报告
-
- ###1. 基本信息
-
- **机构名称:**复旦大学
-
- **建库方法:**TruSeq
-
- **测序仪器:**Illumina Novaseq
-
- **Read长度:**双端150bp
-
- **参考基因组:**GRCh38
-
- **回收数据:**
-
- | 样本 | Fastq | Bam | VCF |
- | :------: | :---: | :--: | :--: |
- | Fudan D5 | 3 | 3 | 3 |
- | Fudan D6 | 3 | 3 | 3 |
- | Fudan F7 | 3 | 3 | 3 |
- | Fudan M8 | 3 | 3 | 3 |
-
- **分析流程:**
-
- | 步骤 | 软件 | 版本号 |
- | :---------------: | :---------: | :----: |
- | Preprocessing | Trimmomatic | |
- | Mapping | BWA-MEM | |
- | Remove Duplicates | Picard | |
- | BQSR | GATK | |
- | Calling | Haplotyper | |
- | Filtration | VQSR | |
-
- ###2. 原始数据质量评估
-
- | 项目名称 | Fudan D5 | Fudan D6 | Fudan F7 | Fudan M8 | ... | 参考值 |
- | :-------------------: | :------: | :------: | :------: | :------: | :--: | ------ |
- | 原始数据量(Million) | | | | | | |
- | Reads重复率(%) | | | | | | |
- | 原始数据测序深度 | | | | | | |
- | 碱基质量 | | | | | | |
- | ATGC含量 (%) | | | | | | |
- | GC含量分布(%) | | | | | | |
- | 重复序列(%) | | | | | | |
- | 接头序列含量(%) | | | | | | |
- | 污染物 | | | | | | |
-
- ###3. 比对后数据质量评估
-
- | 项目名称 | Fudan D5 | Fudan D6 | Fudan F7 | Fudan M8 | ... | 参考值 |
- | :--------------------: | :------: | :------: | -------- | -------- | :--: | ------ |
- | 比对率(%) | | | | | | |
- | 高质量Reads比对率(%) | | | | | | |
- | 错配率(%) | | | | | | |
- | 去重后测序深度 | | | | | | |
- | Insert size (bp) | | | | | | |
-
- ###4. 突变数据质量评估
-
- ####(1)突变统计
-
- | Sample | Fudan D5 | Fudan D6 | Fudan F7 | Fudan M8 | ... |
- | :---------------------------: | :------: | :------: | :------: | :------: | :--: |
- | 突变总数 | | | | | |
- | SNVs | | | | | |
- | Insertions | | | | | |
- | Deletions | | | | | |
- | SNV Transitions/Transversions | | | | | |
- | Total Het/Hom ratio | | | | | |
- | SNV Het/Hom ratio | | | | | |
- | Insertions Het/Hom ratio | | | | | |
- | Deletions Het/Hom ratio | | | | | |
-
- ####(2)技术重复一致性
-
- | 技术重复的一致性 | Fudan D5 | Fudan D6 | Fudan F7 | Fudan M8 | ... |
- | ---------------- | -------- | -------- | -------- | -------- | ---- |
- | SNVs | | | | | |
- | Indels | | | | | |
-
- 
-
- ####(3)突变检测准确性(Presicion, recall, F1-score)
-
- | 基因环境 | 类型 | Fudan D5 | Fudan D6 | Fudan F7 | Fudan M8 |
- | ------------------------------------------------------------ | ----- | -------- | -------- | -------- | -------- |
- | All | SNV | | | | |
- | | Indel | | | | |
- | Not in homopolymers or TRs | SNV | | | | |
- | | Indel | | | | |
- | In homopolymers or TRs | SNV | | | | |
- | | Indel | | | | |
- | GC content | SNV | | | | |
- | | Indel | | | | |
- | Tier 1 (supported by all replicates, sequencing sites, platforms and bioinformatic pipelines) | SNV | | | | |
- | | Indel | | | | |
- | Tier 2 (supported by majority of replicates, sequencing sites, platforms and bioinformatic pipelines ) | SNV | | | | |
- | | Indel | | | | |
- | Tier 3 (supported by only one platform and multiple bioinformatic pipelines) | SNV | | | | |
- | | Indel | | | | |
- | In high confidence bed | SNV | | | | |
- | | Indel | | | | |
- | Not in high confidence bed | SNV | | | | |
- | | Indel | | | | |
- | In structural variantion region | SNV | | | | |
- | | Indel | | | | |
- | Clinical relevant mutations | SNV | | | | |
- | | Indel | | | | |
- | De novo | SNV | | | | |
- | | Indel | | | | |
-
- 
-
- #### 下载
-
- **SNV**
-
- - True Positive
- - True Negative
- - False Positive
- - False Negative
-
- **INDEL**
-
- - True Positive
- - True Negative
- - False Positive
- - False Negative
-
- ### 5. 附录
-
- **(1) 中华家系1号DNA标准物质介绍**
-
- 中华家系1号全基因组DNA标准物质由中国计量科学研究院与复旦大学、复旦大学泰州健康科学研究院共同研制。候选物来自同卵双胞胎家庭的永生化B淋巴母细胞系,志愿者选自复旦大学泰州队列,泰州地处我国南北交界,代表了中国人群典型的遗传结构特征。由于同卵双生双胞胎家庭的家系设计,可以通过孟德尔遗传定律进一步排除标称值确定过程中的可能错误。同时,中华家系1号转录组、蛋白质组和代谢物组的标准物质也在逐步研制中,通过多组学数据的整合分析可为标称值的确定提供了另一层面的生物学依据。
-
- 中华家系1号DNA标准物质的标称值包括高置信单核苷酸变异信息、高置信短插入缺失变异信息和77.9-78.1%的高置信参考基因组区。该系列标准物质可以用于评估基因组测序的性能,包括全基因组测序、全外显子测序、靶向测序,如基因捕获测序;还可用于评估测序过程和数据分析过程中对SNV和InDel检出的真阳性、假阳性、真阴性和假阴性水平,为基因组测序技术平台、实验室、相关产品的质量控制与性能验证提供标准物质和标准数据。
-
- 
-
- **(2) 数据分析方法与流程**
-
- 数据分析流程如下图所示,利用Sentieon进行数据比对、比对后校正、突变分析和过滤,利用FastQC、Qualimap、MultiQC、RTGtools、R和in-house script进行数据的质量控制和评估。采用choppy分析调度和完成报告。
-
- 
-
-
-
- ###6. 声明
-
- 本质量检测报告,仅适用于此次实验测试数据,不代表对测序公司业务水平的评估。本质量检测报告,仅用于科学项目研究,请勿用于临床或商业。任何单位或个人因使用此检测报告结果造成的任何利益或损失(包括直接和间接损失),本单位不承担任何经济和法律责任。
-
|