|
5 years ago | |
---|---|---|
assets | 6 years ago | |
tasks | 6 years ago | |
README.md | 6 years ago | |
ReadStats.wdl | 6 years ago | |
inputs | 6 years ago | |
workflow.wdl | 5 years ago |
# 激活choppy环境
source activate choppy
# 安装app
choppy install chenziyin/miRNAseq
新建项目文件夹
准备样本描述文件:samples.csv
注意:
使用excel制作csv文件时,请不要将保存的csv文件直接作为输入,易导致异常错误。
推荐使用文本编辑器(如记事本,notepad++等)打开csv文件,确认:
(1)每2个值之间使用逗号分隔,行末没有逗号
(2)逗号前后没有多余的空格(非常重要!!!)
(3)每行前后没有多余的逗号,且没有多余的仅由逗号组成的行
如果在服务器上运行choppy,推荐使用
vim samples.csv
命令新建samples.csv文件,并将表格以逗号分隔的纯文本形式粘贴至其中,并按esc
+ZZ
退出
- 批量提交任务
choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name>
参数说明:
<File::samples.csv>
:此处填写在上一步之做的samples.csv所在路径<String::project_name>
:自定义项目名称,app的运行结果将自动存储在以该名称命名的文件夹下注意:
1) 左右尖角括号(<>)代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号
2)
--project-name
为必须参数,是用户自定义的项目名称。但需注意:a. project_name中不得包含空格,短横线,否则会导致运行异常 b. project_name中可以包含阿拉伯数字,但不得以数字开头,否则会导致运行异常 c. 项目名称不得与已有的项目名称(包含 oss://choppy-cromwell-result/test-choppy/ 目录下的文件夹名称和test-choppy服务器目录下的文件夹名称)相同 d. 推荐的[项目命名格式]<http://choppy.3steps.cn/go-choppy/choppy-docs/issues/1>为:Project_computecontent_data_people,如:```ANY180412MAQC_rnaseq_190609_lizhihui```
用于app测试的文件位于 oss://choppy-app-example-data/miRNAseq/ 目录下
Test_10k_NEXTflex.fastq.gz 中包含了NEXTflex small RNA kit v3所建文库的测序结果中的前10000条read
test_10k_QIAseq.fastq.gz 中包含了QIAseq miRNA kit所建文库的测序结果中的前10000条read
samples.csv是app测试时所需提交的samples.csv文件
运行APP后,
每个sample对应一个文件夹,内部结构如下:
/call-Quantification/<sample_ID>.matureMiR.readCount
测序质量检测:call-Fastqc/*._fasqtc.html
片段类型统计:/call-ReadStats/<sample_id>.readStats
文库中插入片段长度分布: call-TrimAdapt/trimAdapt.lengthDistribute
miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。
本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,仅使用R1作为数据源
本APP仅用于Human miRNA-seq文库数据分析。
目前尚不支持UMI分析
下载自 miRBase v22.1 ( http://www.mirbase.org )mature.fa 并进行以下编辑:
(1)仅提取出其中人miRNA序列
(2)将U碱基转化为T碱基
(3)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp
下载自 miRBase v22.1 ( http://www.mirbase.org )hairpin.fa 并进行以下编辑
(1)仅提取出其中人miRNA序列
(2)将U碱基转化为T碱基
下载自 piRBase ([http://www.regulatoryrna.org/database/piRNA/download.html]) Human piRNA sequence v2.0
下载自 UCSC Table Browser([http://genome.ucsc.edu/cgi-bin/hgTables] )
- Genome: Human, Assembly: Dec.2013(GRCh38/hg38)
- group: all tracks, track: tRNA Genes, table: tRNA
- region: genome,
- output format: sequence
全人转录组参考序列下载自 NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_rna.fna.gz
并根据序列ID中的最后一栏对序列进行分类
全人参考基因组序列下载自NCBI:[ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/ GCF_000001405.38_GRCh38.p12_genomic.fna.gz]
切除接头:根据adapter_sequence
序列进行切除,切除时使用fastp默认参数
质量过滤:
1)一条read中,质量不满足qualified_quality_phred(default:20)
的碱基在read占比超过unqualified_percent_limit(default:20)
%时,该read将被过滤
2) read中,N碱基数目超过n_base_limit (default: 2)
的read将被过滤
长度过滤:去接头后长度小于length_required(default:16)
的read将被过滤
miRNA识别
使用bowtie(end-to-end模式)进行匹配
匹配时最多允许max_mismatch_allowed (default: 1)
个错配
建库试剂盒 | adapter_seq | randomBase_in_adapter | 参考资料 |
---|---|---|---|
Truseq smallRNA library prep kit (Illumina) | TGGAATTCTCGGGTGCCAAGG | 0 | [1] |
QIAseq miRNA Library Kit (QIAGEN) | AACTGTAGGCACCATCAAT | 0 | [2 |
NEBNext Multiplex Small RNA Library Prep Set for Illumina (NEB) | AAGATCGGAAGAGCACACGTCT | 0 | [3] |
NEXTflex small RNA Kit | TGGAATTCTCGGGTGCCAAGG | 4 | [4] |
[1] Illumina Adapter Sequences (1000000002 v07) From http://support.illumina.com.cn/downloads/illumina-customer-sequence-letter.html
[2] https://www.qiagen.com/us/resources/faq?id=f12b85b4-df4f-43b5-9e82-a4fd0ddbdc&lang=en
[3] NEBNext Multiplex Small RNA Library Prep Set for Illumina manual
[4] NEXTflex® Small RNA-Seq Kit v3 Automation Guide
**Q1 结果中没有检测到miRNA / miRNA检出率过低 **
A1.
首先需要确认是否切接头成功。
adapter_seq
)是否正确。randomBase_in_adapter
一列是否填写正确之后打开~/call-ReadStats/.readStats文件查看文库中片段组成:
(1)adapter dimer(>20%)较高提示建库过程中连接效率低,文库产物被大量的引物二聚体所占据
(2)low quality较高(>10%)提示此次测序质量较差,可以用于比对的片段占比较低,可以结合fastqc.html结果查看原因
(3)too short:较高提示文库中存在大量短(16bp一下)片段,可能是抽提/建库过程存在问题或者样本质量较差,具体可结合 .trimAdapt.lengthDistribute 查看序列分布情况
(4)Not from human genome较高(>30%)时,建议手动查看原始序列,并将序列去接头后使用NCBI Blast判断可能的片段来源