|
|
@@ -18,9 +18,10 @@ choppy install chenziyin/miRNAseq |
|
|
|
- 文件需为csv格式(以逗号分隔的文本) |
|
|
|
- 文件中必须包含的列为: |
|
|
|
- sample_id:样本名称,该名称将自动作为生成结果文件的前缀名 |
|
|
|
- raw_fastq:原始FASTQ测试数据所在OSS路径 |
|
|
|
- raw_fastq:原始FASTQ测试数据所在OSS路径(仅R1) |
|
|
|
- adapter_seq:建库时所使用3’ 接头序列(详见附录A. 常用建库方法接头序列) |
|
|
|
- randomBase_in_adapter:接头末端的随机碱基个数(详见附录A. 常用建库方法接头序列) |
|
|
|
- sequencing_length: 测序长度,如使用PE150测序时填写150 |
|
|
|
|
|
|
|
> 注意: |
|
|
|
> |
|
|
@@ -42,6 +43,7 @@ choppy install chenziyin/miRNAseq |
|
|
|
choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name> |
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
参数说明: |
|
|
|
|
|
|
|
- ```<File::samples.csv>```:此处填写在上一步之做的***samples.csv***所在路径 |
|
|
@@ -51,9 +53,11 @@ choppy install chenziyin/miRNAseq |
|
|
|
> |
|
|
|
> 1) 左右尖角括号(<>)代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号 |
|
|
|
> |
|
|
|
> 2)```--project-name```为必须参数,是用户自定义的项目名称。可以任意命名,但需遵从一下原则: |
|
|
|
> 2)```--project-name```为必须参数,是用户自定义的项目名称。但需注意: |
|
|
|
> a. project_name中不得包含空格,短横线,否则会导致运行异常 |
|
|
|
> b. project_name中可以包含阿拉伯数字,但不得以数字开头,否则会导致运行异常 |
|
|
|
> c. 项目名称不得与已有的项目名称(包含 oss://choppy-cromwell-result/test-choppy/ 目录下的文件夹名称和test-choppy服务器目录下的文件夹名称)相同 |
|
|
|
> d. 推荐的[项目命名格式]<http://choppy.3steps.cn/go-choppy/choppy-docs/issues/1>为:Project_computecontent_data_people,如:```ANY180412MAQC_rnaseq_190609_lizhihui``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@@ -71,97 +75,165 @@ choppy install chenziyin/miRNAseq |
|
|
|
|
|
|
|
### 输出文件说明 |
|
|
|
|
|
|
|
运行APP后, |
|
|
|
|
|
|
|
每个sample对应一个文件夹,文件夹下结构如下: |
|
|
|
|
|
|
|
— call-Align2Mature |
|
|
|
|
|
|
|
— <sample_ID>.align2mature.log |
|
|
|
|
|
|
|
— <sample_ID>.align2mature.sam |
|
|
|
|
|
|
|
— <sample_ID>.matureUnaligned.fastq |
|
|
|
|
|
|
|
— call-LengthStats |
|
|
|
|
|
|
|
— **<sample_ID>.trimAdapt.lengthDistribute** |
|
|
|
运行APP后, |
|
|
|
|
|
|
|
每个sample对应一个文件夹,内部结构如下: |
|
|
|
- call-Fastqc |
|
|
|
- \*._fasqtc.html |
|
|
|
- \*._fastqc.zip |
|
|
|
- call-TrimAdapt |
|
|
|
- <sample_id>.trimAdapt.fastq.gz |
|
|
|
- <sample_id>.trimAdapt.log |
|
|
|
- <sample_id>.trimAdapt.lengthDistribute |
|
|
|
— call-ReadFilter |
|
|
|
— <sample_id>.trimAdapt.filter.fastq.gz |
|
|
|
— <sample_id>.filter.log |
|
|
|
— call-Align2miRNA |
|
|
|
— <sample_id>.align2miRNA.log |
|
|
|
— <sample_id>.align2miRNA.sam |
|
|
|
— <sample_id>.miRNAUnaligned.fastq.gz |
|
|
|
— call-Align2PreMiRNA |
|
|
|
— <sample_id>.align2PreMiRNA.log |
|
|
|
— <sample_id>.align2PreMiRNA.sam |
|
|
|
— <sample_id>.PreMiRNAUnaligned.fastq.gz |
|
|
|
- call-Align2piRNA |
|
|
|
- <sample_id>.align2piRNA.log |
|
|
|
- <sample_id>.align2piRNA.sam |
|
|
|
- <sample_id>.piRNAUnaligned.fastq.gz |
|
|
|
- call-Align2tRNA |
|
|
|
- <sample_id>.align2tRNA.log |
|
|
|
- <sample_id>.align2tRNA.sam |
|
|
|
- <sample_id>.tRNAUnaligned.fastq.gz |
|
|
|
- call-Align2RNA |
|
|
|
- <sample_id>.align2RNA.log |
|
|
|
- <sample_id>.align2RNA.sam |
|
|
|
- <sample_id>.RNAUnaligned.fastq.gz |
|
|
|
- call-Align2Hg38 |
|
|
|
- <sample_id>.align2Hg38.log |
|
|
|
- <sample_id>.align2Hg38.sam |
|
|
|
- <sample_id>.Hg38Unaligned.fastq.gz |
|
|
|
- call-Quantification |
|
|
|
- <sample_id>.matureMiR.readCount |
|
|
|
- call-ReadStats |
|
|
|
- <sample_id>.readStats |
|
|
|
- <sample_id>.trimAdapt.filter.align2RNA.grouped.readCount |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 主要结果说明 |
|
|
|
|
|
|
|
##### 定量结果 |
|
|
|
1. miRNA定量表达谱: ```/call-Quantification/<sample_ID>.matureMiR.readCount``` |
|
|
|
- 包含两列: |
|
|
|
- ID.miRNA |
|
|
|
- ReadCount:定位到相应miRNA的read数(即Raw Count) |
|
|
|
|
|
|
|
##### 质控结果 |
|
|
|
1. 测序质量检测:```call-Fastqc/*._fasqtc.html``` |
|
|
|
- 网页格式,下载后使用浏览器打开 |
|
|
|
- 重点关注以下内容: |
|
|
|
- 单碱基测序质量(Per base sequence quality):横轴长度在75bp前的部分,单碱基质量值应不低于28(绿色部分) |
|
|
|
- N碱基个数(Per base N count):红线应紧贴X轴 |
|
|
|
- 测序片段长度(Sequence Length Distribution):曲线呈单峰分布(三角形),且峰值与预期测序长度相一致 |
|
|
|
|
|
|
|
2. 片段类型统计:```/call-ReadStats/<sample_id>.readStats``` |
|
|
|
- 可能的片段类型包括: |
|
|
|
- adapter not found:因无法识别接头而被丢弃的片段数 |
|
|
|
> 原因:片段3'接头部分存在插入缺失突变(多数),片段中无3'接头序列(少数) |
|
|
|
- adapter dimer:引物二聚体片段数 |
|
|
|
- too short:因插入片段长度过短而被丢弃的片段数 |
|
|
|
- low sequencing quality: 由于质量不满足要求丢弃的read数(包括单碱基质量过低,或N碱基数目过多) |
|
|
|
- mature miRNA:比对到miRNA成熟体参考序列的片段数 |
|
|
|
- hairpin miRNA: 比对到miRNA剪切前体参考序列(pre-miRNA)的片段数 |
|
|
|
- piRNA: 比对到piRNA参考序列的片段数 |
|
|
|
- tRNA: 比对到tRNA参考序列的片段数 |
|
|
|
- mRNA: 比对到mRNA参考序列的片段数 |
|
|
|
- lncRNA: 比对到lncRNA参考序列的片段数 |
|
|
|
- rRNA: 比对到rRNA参考序列的片段数 |
|
|
|
- YRNA: 比对到YRNA参考序列的片段数 |
|
|
|
- other small RNA: 比对到 misc_RNA, guide_RNA, vault_RNA, small nuclear RNA, small cytoplasmic RNA 或 small nucleolar RNA 参考序列的片段数 |
|
|
|
- other from transcriptome: 比对到人转录组,但比对结果不属于以上mature miRNA等9个类别的片段数 |
|
|
|
- other from human genome: 能比对到人类参考基因组,但不能比对到转录组上的片段数 |
|
|
|
- not from human genome:不能比对到人类曹考基因组的片段数 |
|
|
|
|
|
|
|
3. 文库中插入片段长度分布: ```call-TrimAdapt/trimAdapt.lengthDistribute``` |
|
|
|
- 包含两列,记录不同长度(第一列)的插入片段数目(第二列) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
— <sample_ID>.trimAdapt.filter.fastq.gz |
|
|
|
|
|
|
|
— <sample_ID>.filter.log |
|
|
|
|
|
|
|
— call-ReadStats |
|
|
|
|
|
|
|
|
|
|
|
—**<sample_ID>.readStats** |
|
|
|
|
|
|
|
— Call-TrimAdapt/ |
|
|
|
### APP概述 |
|
|
|
|
|
|
|
— <sample_ID>.trimAdapt.fastq.gz |
|
|
|
miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。 |
|
|
|
|
|
|
|
— <sample_ID>.trimAdapt.log |
|
|
|
#### 适用范围: |
|
|
|
|
|
|
|
1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,仅使用R1作为数据源 |
|
|
|
|
|
|
|
2. 本APP仅用于Human miRNA-seq文库数据分析。 |
|
|
|
|
|
|
|
- **<sample_ID>.matureMiR.readCount**:定位到每个miRNA的原始read数 |
|
|
|
3. 目前尚不支持UMI分析 |
|
|
|
|
|
|
|
- 质量控制文件 |
|
|
|
|
|
|
|
- 1)**<sample_ID>.readStats**:文库中read去向 |
|
|
|
- Total Input:测序得到的总read数 |
|
|
|
- Adapter dimer:引物二聚体read数 |
|
|
|
- Low quality:由于质量不符合要求损失的read数(包括单碱基质量过低,或N碱基数目过多) |
|
|
|
- Too short:由于插入片段长度过短损失的read数 |
|
|
|
- For align: 所有通过质量过滤,进入序列比对环节的的片段数 |
|
|
|
- Mature miRNA:成熟miRNA片段数 |
|
|
|
|
|
|
|
- 2)**<sample_ID>.trimAdapt.lengthDistribute**:文库中插入片段长度分布 |
|
|
|
### 流程与参数 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### APP概述 |
|
|
|
#### 使用的软件及版本 |
|
|
|
- fastqc: 0.11.5 |
|
|
|
- fastp:0.19.6 |
|
|
|
- bowtie: 1.2.2 |
|
|
|
|
|
|
|
miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。 |
|
|
|
|
|
|
|
#### 适用范围: |
|
|
|
|
|
|
|
1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,请提供R1 FASTQ和3‘接头序列作为数据源 |
|
|
|
### 流程示意 |
|
|
|
|
|
|
|
2. 本APP默认用于Human miRNA定量。如用于其他物种,请通过 ```dir_index_mature```和```prefix_index_mature```参数制定相应物种的参考miRNA序列组 |
|
|
|
|
|
|
|
3. 目前尚不支持UMI分析 |
|
|
|
|
|
|
|
#### 参考基因组 |
|
|
|
|
|
|
|
##### mature miRNA |
|
|
|
|
|
|
|
### 流程与参数 |
|
|
|
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行以下编辑: |
|
|
|
|
|
|
|
(1)仅提取出其中人miRNA序列 |
|
|
|
|
|
|
|
(2)将U碱基转化为T碱基 |
|
|
|
|
|
|
|
#### 适用的软件及版本 |
|
|
|
(3)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp |
|
|
|
|
|
|
|
- Fastp:0.19.6 |
|
|
|
- Bowtie: 1.2.2 |
|
|
|
|
|
|
|
##### pre-miRNA |
|
|
|
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )hairpin.fa 并进行以下编辑 |
|
|
|
|
|
|
|
(1)仅提取出其中人miRNA序列 |
|
|
|
|
|
|
|
### 流程示意 |
|
|
|
(2)将U碱基转化为T碱基 |
|
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
#### 参考基因组 |
|
|
|
##### piRNA |
|
|
|
下载自 piRBase ([http://www.regulatoryrna.org/database/piRNA/download.html]) Human piRNA sequence v2.0 |
|
|
|
|
|
|
|
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行一下编辑: |
|
|
|
##### tRNA |
|
|
|
下载自 UCSC Table Browser([http://genome.ucsc.edu/cgi-bin/hgTables] ) |
|
|
|
- Genome: Human, Assembly: Dec.2013(GRCh38/hg38) |
|
|
|
- group: all tracks, track: tRNA Genes, table: tRNA |
|
|
|
- region: genome, |
|
|
|
- output format: sequence |
|
|
|
|
|
|
|
(1)仅提取出其中人miRNA序列 |
|
|
|
##### 转录组 |
|
|
|
|
|
|
|
(2)将U碱基转化为T碱基 |
|
|
|
全人转录组参考序列下载自 NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_rna.fna.gz |
|
|
|
|
|
|
|
(3)合并序列相同的 miRNA ID |
|
|
|
并根据序列ID中的最后一栏对序列进行分类 |
|
|
|
|
|
|
|
(4)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp |
|
|
|
##### 全参考基因组 |
|
|
|
全人参考基因组序列下载自NCBI:[ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/ |
|
|
|
GCF_000001405.38_GRCh38.p12_genomic.fna.gz] |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@@ -173,7 +245,7 @@ miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测 |
|
|
|
|
|
|
|
1)一条read中,质量不满足```qualified_quality_phred(default:20)``` 的碱基在read占比超过```unqualified_percent_limit(default:20)```%时,该read将被过滤 |
|
|
|
|
|
|
|
2) read中,N碱基数目超过```n_base_limit (default: 5)```的read将被过滤 |
|
|
|
2) read中,N碱基数目超过```n_base_limit (default: 2)```的read将被过滤 |
|
|
|
|
|
|
|
3. 长度过滤:去接头后长度小于```length_required(default:16)```的read将被过滤 |
|
|
|
|
|
|
@@ -181,9 +253,7 @@ miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测 |
|
|
|
|
|
|
|
- 使用bowtie(end-to-end模式)进行匹配 |
|
|
|
|
|
|
|
- 配对后,错配碱基的质量和小于```sum_unmatch_quality_limit (default:40)```即被认定匹配成功 |
|
|
|
- 即错配碱基测序置信度较高(Q-value>30)时,最多允许1个错配。 |
|
|
|
- 随着错配碱基测序置信度(Q-value)的降低,允许的错配数增多 |
|
|
|
- 匹配时最多允许```max_mismatch_allowed (default: 1)```个错配 |
|
|
|
|
|
|
|
|
|
|
|
|