소스 검색

同步至HPC-v20190527版

master
chenziyin 6 년 전
부모
커밋
85081eb936
1개의 변경된 파일128개의 추가작업 그리고 58개의 파일을 삭제
  1. +128
    -58
      README.md

+ 128
- 58
README.md 파일 보기

@@ -18,9 +18,10 @@ choppy install chenziyin/miRNAseq
- 文件需为csv格式(以逗号分隔的文本)
- 文件中必须包含的列为:
- sample_id:样本名称,该名称将自动作为生成结果文件的前缀名
- raw_fastq:原始FASTQ测试数据所在OSS路径
- raw_fastq:原始FASTQ测试数据所在OSS路径(仅R1)
- adapter_seq:建库时所使用3’ 接头序列(详见附录A. 常用建库方法接头序列)
- randomBase_in_adapter:接头末端的随机碱基个数(详见附录A. 常用建库方法接头序列)
- sequencing_length: 测序长度,如使用PE150测序时填写150

> 注意:
>
@@ -42,6 +43,7 @@ choppy install chenziyin/miRNAseq
choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name>
```

参数说明:

- ```<File::samples.csv>```:此处填写在上一步之做的***samples.csv***所在路径
@@ -51,9 +53,11 @@ choppy install chenziyin/miRNAseq
>
> 1) 左右尖角括号(<>)代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号
>
> 2)```--project-name```为必须参数,是用户自定义的项目名称。可以任意命名,但需遵从一下原则
> 2)```--project-name```为必须参数,是用户自定义的项目名称。但需注意
> a. project_name中不得包含空格,短横线,否则会导致运行异常
> b. project_name中可以包含阿拉伯数字,但不得以数字开头,否则会导致运行异常
> c. 项目名称不得与已有的项目名称(包含 oss://choppy-cromwell-result/test-choppy/ 目录下的文件夹名称和test-choppy服务器目录下的文件夹名称)相同
> d. 推荐的[项目命名格式]<http://choppy.3steps.cn/go-choppy/choppy-docs/issues/1>为:Project_computecontent_data_people,如:```ANY180412MAQC_rnaseq_190609_lizhihui```



@@ -71,97 +75,165 @@ choppy install chenziyin/miRNAseq

### 输出文件说明

运行APP后,

每个sample对应一个文件夹,文件夹下结构如下:

— call-Align2Mature

​ — <sample_ID>.align2mature.log

​ — <sample_ID>.align2mature.sam

​ — <sample_ID>.matureUnaligned.fastq

— call-LengthStats

​ — **<sample_ID>.trimAdapt.lengthDistribute**
运行APP后,

每个sample对应一个文件夹,内部结构如下:
- call-Fastqc
- \*._fasqtc.html
- \*._fastqc.zip
- call-TrimAdapt
- <sample_id>.trimAdapt.fastq.gz
- <sample_id>.trimAdapt.log
- <sample_id>.trimAdapt.lengthDistribute
— call-ReadFilter
— <sample_id>.trimAdapt.filter.fastq.gz
— <sample_id>.filter.log
— call-Align2miRNA
— <sample_id>.align2miRNA.log
— <sample_id>.align2miRNA.sam
— <sample_id>.miRNAUnaligned.fastq.gz
— call-Align2PreMiRNA
— <sample_id>.align2PreMiRNA.log
— <sample_id>.align2PreMiRNA.sam
— <sample_id>.PreMiRNAUnaligned.fastq.gz
- call-Align2piRNA
- <sample_id>.align2piRNA.log
- <sample_id>.align2piRNA.sam
- <sample_id>.piRNAUnaligned.fastq.gz
- call-Align2tRNA
- <sample_id>.align2tRNA.log
- <sample_id>.align2tRNA.sam
- <sample_id>.tRNAUnaligned.fastq.gz
- call-Align2RNA
- <sample_id>.align2RNA.log
- <sample_id>.align2RNA.sam
- <sample_id>.RNAUnaligned.fastq.gz
- call-Align2Hg38
- <sample_id>.align2Hg38.log
- <sample_id>.align2Hg38.sam
- <sample_id>.Hg38Unaligned.fastq.gz
- call-Quantification
- <sample_id>.matureMiR.readCount
- call-ReadStats
- <sample_id>.readStats
- <sample_id>.trimAdapt.filter.align2RNA.grouped.readCount



#### 主要结果说明

##### 定量结果
1. miRNA定量表达谱: ```/call-Quantification/<sample_ID>.matureMiR.readCount```
- 包含两列:
- ID.miRNA
- ReadCount:定位到相应miRNA的read数(即Raw Count)

##### 质控结果
1. 测序质量检测:```call-Fastqc/*._fasqtc.html```
- 网页格式,下载后使用浏览器打开
- 重点关注以下内容:
- 单碱基测序质量(Per base sequence quality):横轴长度在75bp前的部分,单碱基质量值应不低于28(绿色部分)
- N碱基个数(Per base N count):红线应紧贴X轴
- 测序片段长度(Sequence Length Distribution):曲线呈单峰分布(三角形),且峰值与预期测序长度相一致

2. 片段类型统计:```/call-ReadStats/<sample_id>.readStats```
- 可能的片段类型包括:
- adapter not found:因无法识别接头而被丢弃的片段数
> 原因:片段3'接头部分存在插入缺失突变(多数),片段中无3'接头序列(少数)
- adapter dimer:引物二聚体片段数
- too short:因插入片段长度过短而被丢弃的片段数
- low sequencing quality: 由于质量不满足要求丢弃的read数(包括单碱基质量过低,或N碱基数目过多)
- mature miRNA:比对到miRNA成熟体参考序列的片段数
- hairpin miRNA: 比对到miRNA剪切前体参考序列(pre-miRNA)的片段数
- piRNA: 比对到piRNA参考序列的片段数
- tRNA: 比对到tRNA参考序列的片段数
- mRNA: 比对到mRNA参考序列的片段数
- lncRNA: 比对到lncRNA参考序列的片段数
- rRNA: 比对到rRNA参考序列的片段数
- YRNA: 比对到YRNA参考序列的片段数
- other small RNA: 比对到 misc_RNA, guide_RNA, vault_RNA, small nuclear RNA, small cytoplasmic RNA 或 small nucleolar RNA 参考序列的片段数
- other from transcriptome: 比对到人转录组,但比对结果不属于以上mature miRNA等9个类别的片段数
- other from human genome: 能比对到人类参考基因组,但不能比对到转录组上的片段数
- not from human genome:不能比对到人类曹考基因组的片段数
3. 文库中插入片段长度分布: ```call-TrimAdapt/trimAdapt.lengthDistribute```
- 包含两列,记录不同长度(第一列)的插入片段数目(第二列)

​ — <sample_ID>.trimAdapt.filter.fastq.gz

​ — <sample_ID>.filter.log

— call-ReadStats

​ —**<sample_ID>.readStats**

— Call-TrimAdapt/
### APP概述

​ — <sample_ID>.trimAdapt.fastq.gz
miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。

​ — <sample_ID>.trimAdapt.log
#### 适用范围:

1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,仅使用R1作为数据源

2. 本APP仅用于Human miRNA-seq文库数据分析。

- **<sample_ID>.matureMiR.readCount**:定位到每个miRNA的原始read数
3. 目前尚不支持UMI分析

- 质量控制文件

- 1)**<sample_ID>.readStats**:文库中read去向
- Total Input:测序得到的总read数
- Adapter dimer:引物二聚体read数
- Low quality:由于质量不符合要求损失的read数(包括单碱基质量过低,或N碱基数目过多)
- Too short:由于插入片段长度过短损失的read数
- For align: 所有通过质量过滤,进入序列比对环节的的片段数
- Mature miRNA:成熟miRNA片段数

- 2)**<sample_ID>.trimAdapt.lengthDistribute**:文库中插入片段长度分布
### 流程与参数



### APP概述
#### 使用的软件及版本
- fastqc: 0.11.5
- fastp:0.19.6
- bowtie: 1.2.2

miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。

#### 适用范围:

1. 本APP适用于ILLUMINA系列测序仪(HiSeq, NextSeq, NovaSeq等)产生的SE50/SE75二代测序数据。对于PE数据,请提供R1 FASTQ和3‘接头序列作为数据源
### 流程示意

2. 本APP默认用于Human miRNA定量。如用于其他物种,请通过 ```dir_index_mature```和```prefix_index_mature```参数制定相应物种的参考miRNA序列组

3. 目前尚不支持UMI分析

#### 参考基因组

##### mature miRNA

### 流程与参数
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行以下编辑:

(1)仅提取出其中人miRNA序列

(2)将U碱基转化为T碱基

#### 适用的软件及版本
(3)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp

- Fastp:0.19.6
- Bowtie: 1.2.2

##### pre-miRNA
下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )hairpin.fa 并进行以下编辑

(1)仅提取出其中人miRNA序列

### 流程示意
(2)将U碱基转化为T碱基

![smallRNA analysis pipeline_ForChoppy](./assets/smallRNA analysis pipeline_ForChoppy.jpg)

#### 参考基因组
##### piRNA
下载自 piRBase ([http://www.regulatoryrna.org/database/piRNA/download.html]) Human piRNA sequence v2.0

下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) )mature.fa 并进行一下编辑:
##### tRNA
下载自 UCSC Table Browser([http://genome.ucsc.edu/cgi-bin/hgTables] )
- Genome: Human, Assembly: Dec.2013(GRCh38/hg38)
- group: all tracks, track: tRNA Genes, table: tRNA
- region: genome,
- output format: sequence

(1)仅提取出其中人miRNA序列
##### 转录组

(2)将U碱基转化为T碱基
全人转录组参考序列下载自 NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_rna.fna.gz

(3)合并序列相同的 miRNA ID
根据序列ID中的最后一栏对序列进行分类

(4)根据成熟体所对应的剪切前体(pre-miRNA),将成熟体序列两端各延伸5bp
##### 全参考基因组
全人参考基因组序列下载自NCBI:[ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/
GCF_000001405.38_GRCh38.p12_genomic.fna.gz]



@@ -173,7 +245,7 @@ miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测

1)一条read中,质量不满足```qualified_quality_phred(default:20)``` 的碱基在read占比超过```unqualified_percent_limit(default:20)```%时,该read将被过滤

2) read中,N碱基数目超过```n_base_limit (default: 5)```的read将被过滤
2) read中,N碱基数目超过```n_base_limit (default: 2)```的read将被过滤

3. 长度过滤:去接头后长度小于```length_required(default:16)```的read将被过滤

@@ -181,9 +253,7 @@ miRNAseq analysis pipeline 是一个全自动app,用于对miRNA-seq二代测

- 使用bowtie(end-to-end模式)进行匹配

- 配对后,错配碱基的质量和小于```sum_unmatch_quality_limit (default:40)```即被认定匹配成功
- 即错配碱基测序置信度较高(Q-value>30)时,最多允许1个错配。
- 随着错配碱基测序置信度(Q-value)的降低,允许的错配数增多
- 匹配时最多允许```max_mismatch_allowed (default: 1)```个错配




Loading…
취소
저장