瀏覽代碼

同步至HPC-v20190527版

master
chenziyin 6 年之前
父節點
當前提交
85081eb936
共有 1 個檔案被更改,包括 128 行新增58 行删除
  1. +128
    -58
      README.md

+ 128
- 58
README.md 查看文件

- 文件需为csv格式(以逗号分隔的文本) - 文件需为csv格式(以逗号分隔的文本)
- 文件中必须包含的列为: - 文件中必须包含的列为:
- sample_id:样本名称,该名称将自动作为生成结果文件的前缀名 - sample_id:样本名称,该名称将自动作为生成结果文件的前缀名
- raw_fastq:原始FASTQ测试数据所在OSS路径
- raw_fastq:原始FASTQ测试数据所在OSS路径(仅R1)
- adapter_seq:建库时所使用3’ 接头序列(详见附录A. 常用建库方法接头序列) - adapter_seq:建库时所使用3’ 接头序列(详见附录A. 常用建库方法接头序列)
- randomBase_in_adapter:接头末端的随机碱基个数(详见附录A. 常用建库方法接头序列) - randomBase_in_adapter:接头末端的随机碱基个数(详见附录A. 常用建库方法接头序列)
- sequencing_length: 测序长度,如使用PE150测序时填写150


> 注意: > 注意:
> >
choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name> choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name>
``` ```


参数说明: 参数说明:


- ```<File::samples.csv>```:此处填写在上一步之做的***samples.csv***所在路径 - ```<File::samples.csv>```:此处填写在上一步之做的***samples.csv***所在路径
> >
> 1) 左右尖角括号(<>)代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号 > 1) 左右尖角括号(<>)代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号
> >
> 2)```--project-name```为必须参数,是用户自定义的项目名称。可以任意命名,但需遵从一下原则
> 2)```--project-name```为必须参数,是用户自定义的项目名称。但需注意
> a. project_name中不得包含空格,短横线,否则会导致运行异常 > a. project_name中不得包含空格,短横线,否则会导致运行异常
> b. project_name中可以包含阿拉伯数字,但不得以数字开头,否则会导致运行异常 > b. project_name中可以包含阿拉伯数字,但不得以数字开头,否则会导致运行异常
> c. 项目名称不得与已有的项目名称(包含 oss://choppy-cromwell-result/test-choppy/ 目录下的文件夹名称和test-choppy服务器目录下的文件夹名称)相同
> d. 推荐的[项目命名格式]<http://choppy.3steps.cn/go-choppy/choppy-docs/issues/1>为:Project_computecontent_data_people,如:```ANY180412MAQC_rnaseq_190609_lizhihui```








### 输出文件说明 ### 输出文件说明


运行APP后,

每个sample对应一个文件夹,文件夹下结构如下:

— call-Align2Mature

​ — <sample_ID>.align2mature.log


​ — <sample_ID>.align2mature.sam

​ — <sample_ID>.matureUnaligned.fastq

— call-LengthStats

​ — **<sample_ID>.trimAdapt.lengthDistribute**
运行APP后,


每个sample对应一个文件夹,内部结构如下:
- call-Fastqc
- \*._fasqtc.html
- \*._fastqc.zip
- call-TrimAdapt
- <sample_id>.trimAdapt.fastq.gz
- <sample_id>.trimAdapt.log
- <sample_id>.trimAdapt.lengthDistribute
— call-ReadFilter — call-ReadFilter
— <sample_id>.trimAdapt.filter.fastq.gz
— <sample_id>.filter.log
— call-Align2miRNA
— <sample_id>.align2miRNA.log
— <sample_id>.align2miRNA.sam
— <sample_id>.miRNAUnaligned.fastq.gz
— call-Align2PreMiRNA
— <sample_id>.align2PreMiRNA.log
— <sample_id>.align2PreMiRNA.sam
— <sample_id>.PreMiRNAUnaligned.fastq.gz
- call-Align2piRNA
- <sample_id>.align2piRNA.log
- <sample_id>.align2piRNA.sam
- <sample_id>.piRNAUnaligned.fastq.gz
- call-Align2tRNA
- <sample_id>.align2tRNA.log
- <sample_id>.align2tRNA.sam
- <sample_id>.tRNAUnaligned.fastq.gz
- call-Align2RNA
- <sample_id>.align2RNA.log
- <sample_id>.align2RNA.sam
- <sample_id>.RNAUnaligned.fastq.gz
- call-Align2Hg38
- <sample_id>.align2Hg38.log
- <sample_id>.align2Hg38.sam
- <sample_id>.Hg38Unaligned.fastq.gz
- call-Quantification
- <sample_id>.matureMiR.readCount
- call-ReadStats
- <sample_id>.readStats
- <sample_id>.trimAdapt.filter.align2RNA.grouped.readCount



#### 主要结果说明

##### 定量结果
1. miRNA定量表达谱: ```/call-Quantification/<sample_ID>.matureMiR.readCount```
- 包含两列:
- ID.miRNA
- ReadCount:定位到相应miRNA的read数(即Raw Count)

##### 质控结果
1. 测序质量检测:```call-Fastqc/*._fasqtc.html```
- 网页格式,下载后使用浏览器打开
- 重点关注以下内容:
- 单碱基测序质量(Per base sequence quality):横轴长度在75bp前的部分,单碱基质量值应不低于28(绿色部分)
- N碱基个数(Per base N count):红线应紧贴X轴
- 测序片段长度(Sequence Length Distribution):曲线呈单峰分布(三角形),且峰值与预期测序长度相一致

2. 片段类型统计:```/call-ReadStats/<sample_id>.readStats```
- 可能的片段类型包括:
- adapter not found:因无法识别接头而被丢弃的片段数
> 原因:片段3'接头部分存在插入缺失突变(多数),片段中无3'接头序列(少数)
- adapter dimer:引物二聚体片段数
- too short:因插入片段长度过短而被丢弃的片段数
- low sequencing quality: 由于质量不满足要求丢弃的read数(包括单碱基质量过低,或N碱基数目过多)
- mature miRNA:比对到miRNA成熟体参考序列的片段数
- hairpin miRNA: 比对到miRNA剪切前体参考序列(pre-miRNA)的片段数
- piRNA: 比对到piRNA参考序列的片段数
- tRNA: 比对到tRNA参考序列的片段数
- mRNA: 比对到mRNA参考序列的片段数
- lncRNA: 比对到lncRNA参考序列的片段数
- rRNA: 比对到rRNA参考序列的片段数
- YRNA: 比对到YRNA参考序列的片段数
- other small RNA: 比对到 misc_RNA, guide_RNA, vault_RNA, small nuclear RNA, small cytoplasmic RNA 或 small nucleolar RNA 参考序列的片段数
- other from transcriptome: 比对到人转录组,但比对结果不属于以上mature miRNA等9个类别的片段数
- other from human genome: 能比对到人类参考基因组,但不能比对到转录组上的片段数
- not from human genome:不能比对到人类曹考基因组的片段数
3. 文库中插入片段长度分布: ```call-TrimAdapt/trimAdapt.lengthDistribute```
- 包含两列,记录不同长度(第一列)的插入片段数目(第二列)


​ — <sample_ID>.trimAdapt.filter.fastq.gz

​ — <sample_ID>.filter.log

— call-ReadStats


​ —**<sample_ID>.readStats**


— Call-TrimAdapt/
### APP概述


​ — <sample_ID>.trimAdapt.fastq.gz
miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。


​ — <sample_ID>.trimAdapt.log
#### 适用范围:


1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,仅使用R1作为数据源


2. 本APP仅用于Human miRNA-seq文库数据分析。


- **<sample_ID>.matureMiR.readCount**:定位到每个miRNA的原始read数
3. 目前尚不支持UMI分析


- 质量控制文件


- 1)**<sample_ID>.readStats**:文库中read去向
- Total Input:测序得到的总read数
- Adapter dimer:引物二聚体read数
- Low quality:由于质量不符合要求损失的read数(包括单碱基质量过低,或N碱基数目过多)
- Too short:由于插入片段长度过短损失的read数
- For align: 所有通过质量过滤,进入序列比对环节的的片段数
- Mature miRNA:成熟miRNA片段数


- 2)**<sample_ID>.trimAdapt.lengthDistribute**:文库中插入片段长度分布
### 流程与参数






### APP概述
#### 使用的软件及版本
- fastqc: 0.11.5
- fastp:0.19.6
- bowtie: 1.2.2


miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。


#### 适用范围:


1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,请提供R1 FASTQ和3‘接头序列作为数据源
### 流程示意


2. 本APP默认用于Human miRNA定量。如用于其他物种,请通过 ```dir_index_mature```和```prefix_index_mature```参数制定相应物种的参考miRNA序列组


3. 目前尚不支持UMI分析


#### 参考基因组


##### mature miRNA


### 流程与参数
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行以下编辑:


(1)仅提取出其中人miRNA序列


(2)将U碱基转化为T碱基


#### 适用的软件及版本
(3)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp


- Fastp:0.19.6
- Bowtie: 1.2.2


##### pre-miRNA
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )hairpin.fa 并进行以下编辑


(1)仅提取出其中人miRNA序列


### 流程示意
(2)将U碱基转化为T碱基


![smallRNA analysis pipeline_ForChoppy](./assets/smallRNA analysis pipeline_ForChoppy.jpg)


#### 参考基因组
##### piRNA
下载自 piRBase ([http://www.regulatoryrna.org/database/piRNA/download.html]) Human piRNA sequence v2.0


下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行一下编辑:
##### tRNA
下载自 UCSC Table Browser([http://genome.ucsc.edu/cgi-bin/hgTables] )
- Genome: Human, Assembly: Dec.2013(GRCh38/hg38)
- group: all tracks, track: tRNA Genes, table: tRNA
- region: genome,
- output format: sequence


(1)仅提取出其中人miRNA序列
##### 转录组


(2)将U碱基转化为T碱基
全人转录组参考序列下载自 NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_rna.fna.gz


(3)合并序列相同的 miRNA ID
根据序列ID中的最后一栏对序列进行分类


(4)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp
##### 全参考基因组
全人参考基因组序列下载自NCBI:[ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/
GCF_000001405.38_GRCh38.p12_genomic.fna.gz]








1)一条read中,质量不满足```qualified_quality_phred(default:20)``` 的碱基在read占比超过```unqualified_percent_limit(default:20)```%时,该read将被过滤 1)一条read中,质量不满足```qualified_quality_phred(default:20)``` 的碱基在read占比超过```unqualified_percent_limit(default:20)```%时,该read将被过滤


2) read中,N碱基数目超过```n_base_limit (default: 5)```的read将被过滤
2) read中,N碱基数目超过```n_base_limit (default: 2)```的read将被过滤


3. 长度过滤:去接头后长度小于```length_required(default:16)```的read将被过滤 3. 长度过滤:去接头后长度小于```length_required(default:16)```的read将被过滤




- 使用bowtie(end-to-end模式)进行匹配 - 使用bowtie(end-to-end模式)进行匹配


- 配对后,错配碱基的质量和小于```sum_unmatch_quality_limit (default:40)```即被认定匹配成功
- 即错配碱基测序置信度较高(Q-value>30)时,最多允许1个错配。
- 随着错配碱基测序置信度(Q-value)的降低,允许的错配数增多
- 匹配时最多允许```max_mismatch_allowed (default: 1)```个错配







Loading…
取消
儲存