|
3 年前 | |
---|---|---|
tasks | 3 年前 | |
README.md | 3 年前 | |
defaults | 3 年前 | |
inputs | 3 年前 | |
workflow.wdl | 3 年前 |
Author:Liuruimei
E-mail: 20110700157@fudan.edu.cn
# 激活choppy环境
open-choppy-env
# 安装app
choppy install liuruimei/fastqc_fastqscreen
This is for basic QC including fastqc and fastqscreen.
FastQC是一个常用的测序原始数据的质控软件,主要包括12个模块,具体请参考Fastqc模块详情。
fastqc -t <threads> -o <output_directory> <fastq_file>
Fastq Screen是检测测序原始数据中是否引⼊入其他物种,或是接头引物等污染,⽐比如,如果测序样本 是⼈人类,我们期望99%以上的reads匹配到⼈人类基因组,10%左右的reads匹配到与⼈人类基因组同源性 较⾼高的⼩小⿏鼠上。如果有过多的reads匹配到Ecoli或者Yeast,要考虑是否在培养细胞的时候细胞系被污 染,或者建库时⽂文库被污染。
fastq_screen --aligner <aligner> --conf <config_file> --top <number_of_reads> --threads <threads> <fastq_file>
--conf
conifg 文件主要输入了多个物种的fasta文件地址,可根据自己自己的需求下载其他物种的fasta文件加入分析
--top
一般不需要对整个fastq文件进行检索,取前100000行
原始数据质量控制主要通过考察测序数据的基本特征判断数据质量的好坏,比如数据量是否达到要求、reads的重复率是否过多、碱基质量、ATGC四种碱基的分布、GC含量、接头序列含量以及是否有其他物种的污染等等。
FastQC和FastqScreen是两个常用的原始数据质量控制软件
总结表格 pre_alignment.txt
列名 | 说明 |
---|---|
Sample | 样本名,R1结尾为read1,R2结尾为read2 |
%Dup | % Duplicate reads |
%GC | Average % GC content |
Total Sequences (million) | Total sequences |
%Human | 比对到人类基因组的比例 |
%EColi | 比对到大肠杆菌基因组的比例 |
%Adapter | 比对到接头序列的比例 |
%Vector | 比对到载体基因组的比例 |
%rRNA | 比对到rRNA序列的比例 |
%Virus | 比对到病毒基因组的比例 |
%Yeast | 比对到酵母基因组的比例 |
%Mitoch | 比对到线粒体序列的比例 |
%No hits | 没有比对到以上基因组的比例 |