6年前 · 85081eb936
--- a/README.md
+++ b/README.md
@@ -18,9 +18,10 @@ choppy install chenziyin/miRNAseq
   - 文件需为csv格式（以逗号分隔的文本）
   - 文件中必须包含的列为：
     - sample_id：样本名称，该名称将自动作为生成结果文件的前缀名
     - raw_fastq：原始FASTQ测试数据所在OSS路径
     - raw_fastq：原始FASTQ测试数据所在OSS路径（仅R1）
     - adapter_seq：建库时所使用3’ 接头序列（详见附录A. 常用建库方法接头序列）
     - randomBase_in_adapter：接头末端的随机碱基个数（详见附录A. 常用建库方法接头序列）
     - sequencing_length: 测序长度，如使用PE150测序时填写150

   > 注意：
   >
@@ -42,6 +43,7 @@ choppy install chenziyin/miRNAseq
   choppy batch miRNAseq-latest <File::samples.csv> --project-name <String::project_name>
   ```

  
   参数说明：

   - ```<File::samples.csv>```：此处填写在上一步之做的***samples.csv***所在路径 
@@ -51,9 +53,11 @@ choppy install chenziyin/miRNAseq
   >
   > 1） 左右尖角括号（<>）代表此处的值需要由用户根据实际情况键入相应的值。替换入具体值后左右不需要保留尖叫括号
   >
   > 2）```--project-name```为必须参数，是用户自定义的项目名称。可以任意命名，但需遵从一下原则：
   > 2）```--project-name```为必须参数，是用户自定义的项目名称。但需注意：
   >       a. project_name中不得包含空格，短横线，否则会导致运行异常
   >       b. project_name中可以包含阿拉伯数字，但不得以数字开头，否则会导致运行异常
   >       c. 项目名称不得与已有的项目名称（包含 oss://choppy-cromwell-result/test-choppy/ 目录下的文件夹名称和test-choppy服务器目录下的文件夹名称）相同
   >       d. 推荐的[项目命名格式]<http://choppy.3steps.cn/go-choppy/choppy-docs/issues/1>为：Project_computecontent_data_people，如:```ANY180412MAQC_rnaseq_190609_lizhihui```



@@ -71,97 +75,165 @@ choppy install chenziyin/miRNAseq

 ### 输出文件说明

 运行APP后，

 每个sample对应一个文件夹，文件夹下结构如下：

 — call-Align2Mature

 		— <sample_ID>.align2mature.log

 		— <sample_ID>.align2mature.sam

 		— <sample_ID>.matureUnaligned.fastq

 — call-LengthStats

 		— **<sample_ID>.trimAdapt.lengthDistribute**
 运行APP后，

 每个sample对应一个文件夹，内部结构如下：
 - call-Fastqc
    - \*._fasqtc.html
    - \*._fastqc.zip
 - call-TrimAdapt
    - <sample_id>.trimAdapt.fastq.gz
    - <sample_id>.trimAdapt.log
    - <sample_id>.trimAdapt.lengthDistribute
 — call-ReadFilter
    — <sample_id>.trimAdapt.filter.fastq.gz
    — <sample_id>.filter.log
 — call-Align2miRNA
    — <sample_id>.align2miRNA.log
    — <sample_id>.align2miRNA.sam
    — <sample_id>.miRNAUnaligned.fastq.gz
 — call-Align2PreMiRNA
    — <sample_id>.align2PreMiRNA.log
    — <sample_id>.align2PreMiRNA.sam
    — <sample_id>.PreMiRNAUnaligned.fastq.gz
 - call-Align2piRNA
    - <sample_id>.align2piRNA.log
    - <sample_id>.align2piRNA.sam
    - <sample_id>.piRNAUnaligned.fastq.gz
 - call-Align2tRNA 
    - <sample_id>.align2tRNA.log
    - <sample_id>.align2tRNA.sam
    - <sample_id>.tRNAUnaligned.fastq.gz
 - call-Align2RNA 
    - <sample_id>.align2RNA.log
    - <sample_id>.align2RNA.sam
    - <sample_id>.RNAUnaligned.fastq.gz
 - call-Align2Hg38 
    - <sample_id>.align2Hg38.log
    - <sample_id>.align2Hg38.sam
    - <sample_id>.Hg38Unaligned.fastq.gz
 - call-Quantification
    - <sample_id>.matureMiR.readCount
 - call-ReadStats
    - <sample_id>.readStats
    - <sample_id>.trimAdapt.filter.align2RNA.grouped.readCount



 #### 主要结果说明

 ##### 定量结果
 1. miRNA定量表达谱： ```/call-Quantification/<sample_ID>.matureMiR.readCount```
    - 包含两列：
        - ID.miRNA
        - ReadCount：定位到相应miRNA的read数（即Raw Count）

 ##### 质控结果
 1. 测序质量检测：```call-Fastqc/*._fasqtc.html```
    - 网页格式，下载后使用浏览器打开
    - 重点关注以下内容：
        - 单碱基测序质量（Per base sequence quality）：横轴长度在75bp前的部分，单碱基质量值应不低于28（绿色部分）
        - N碱基个数（Per base N count）：红线应紧贴X轴
        - 测序片段长度（Sequence Length Distribution）：曲线呈单峰分布（三角形），且峰值与预期测序长度相一致

 2. 片段类型统计：```/call-ReadStats/<sample_id>.readStats```
    - 可能的片段类型包括：
        - adapter not found：因无法识别接头而被丢弃的片段数
            > 原因：片段3'接头部分存在插入缺失突变（多数），片段中无3'接头序列（少数）
        - adapter dimer：引物二聚体片段数
        - too short：因插入片段长度过短而被丢弃的片段数
        - low sequencing quality： 由于质量不满足要求丢弃的read数（包括单碱基质量过低，或N碱基数目过多）
        - mature miRNA：比对到miRNA成熟体参考序列的片段数
        - hairpin miRNA: 比对到miRNA剪切前体参考序列（pre-miRNA）的片段数
        - piRNA： 比对到piRNA参考序列的片段数
        - tRNA： 比对到tRNA参考序列的片段数
        - mRNA： 比对到mRNA参考序列的片段数
        - lncRNA： 比对到lncRNA参考序列的片段数
        - rRNA： 比对到rRNA参考序列的片段数
        - YRNA： 比对到YRNA参考序列的片段数
        - other small RNA： 比对到 misc_RNA, guide_RNA, vault_RNA, small nuclear RNA, small cytoplasmic RNA 或 small nucleolar RNA 参考序列的片段数
        - other from transcriptome: 比对到人转录组，但比对结果不属于以上mature miRNA等9个类别的片段数
        - other from human genome: 能比对到人类参考基因组，但不能比对到转录组上的片段数
        - not from human genome：不能比对到人类曹考基因组的片段数
    
 3. 文库中插入片段长度分布： ```call-TrimAdapt/trimAdapt.lengthDistribute```
    - 包含两列，记录不同长度（第一列）的插入片段数目（第二列）
       
  

 		—  <sample_ID>.trimAdapt.filter.fastq.gz

 		— <sample_ID>.filter.log

 — call-ReadStats
    

 		—**<sample_ID>.readStats**

 — Call-TrimAdapt/
 ### APP概述

 		— <sample_ID>.trimAdapt.fastq.gz
 miRNAseq analysis pipeline 是一个全自动app，用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。

 		— <sample_ID>.trimAdapt.log
 #### 适用范围：

 1. 本APP适用于ILLUMINA系列测序仪（HiSeq, NextSeq, NovaSeq等）产生的SE50/SE75二代测序数据。对于PE数据，仅使用R1作为数据源

 2. 本APP仅用于Human miRNA-seq文库数据分析。

 -  **<sample_ID>.matureMiR.readCount**：定位到每个miRNA的原始read数
 3. 目前尚不支持UMI分析

 - 质量控制文件

  - 1）**<sample_ID>.readStats**：文库中read去向
    - Total Input：测序得到的总read数
    - Adapter dimer：引物二聚体read数
    - Low quality：由于质量不符合要求损失的read数（包括单碱基质量过低，或N碱基数目过多）
    - Too short：由于插入片段长度过短损失的read数
    - For align： 所有通过质量过滤，进入序列比对环节的的片段数
    - Mature miRNA：成熟miRNA片段数

  - 2）**<sample_ID>.trimAdapt.lengthDistribute**：文库中插入片段长度分布
 ### 流程与参数

    


 ### APP概述
 #### 使用的软件及版本
 - fastqc: 0.11.5
 - fastp：0.19.6
 - bowtie: 1.2.2

 miRNAseq analysis pipeline 是一个全自动app，用于对miRNA-seq二代测序FASTQ结果中的human miRNA片段定量。

 #### 适用范围：

 1. 本APP适用于ILLUMINA系列测序仪（HiSeq, NextSeq, NovaSeq等）产生的SE50/SE75二代测序数据。对于PE数据，请提供R1 FASTQ和3‘接头序列作为数据源
 ### 流程示意

 2. 本APP默认用于Human miRNA定量。如用于其他物种，请通过 ```dir_index_mature```和```prefix_index_mature```参数制定相应物种的参考miRNA序列组

 3. 目前尚不支持UMI分析

 #### 参考基因组

 ##### mature miRNA

 ### 流程与参数
 下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) ）mature.fa 并进行以下编辑：

 （1）仅提取出其中人miRNA序列

 （2）将U碱基转化为T碱基

 #### 适用的软件及版本
 （3）根据成熟体所对应的剪切前体（pre-miRNA），将成熟体序列两端各延伸5bp

 - Fastp：0.19.6
 - Bowtie: 1.2.2

 ##### pre-miRNA
 下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) ）hairpin.fa 并进行以下编辑

 （1）仅提取出其中人miRNA序列

 ### 流程示意
 （2）将U碱基转化为T碱基

 ![smallRNA analysis pipeline_ForChoppy](./assets/smallRNA analysis pipeline_ForChoppy.jpg)

 #### 参考基因组
 ##### piRNA
 下载自 piRBase ([http://www.regulatoryrna.org/database/piRNA/download.html]) Human piRNA sequence v2.0

 下载自 *miRBase v22.1* ( [http://www.mirbase.org](http://www.mirbase.org/) ）mature.fa 并进行一下编辑：
 ##### tRNA
 下载自 UCSC Table Browser（[http://genome.ucsc.edu/cgi-bin/hgTables] ）
    - Genome: Human, Assembly: Dec.2013(GRCh38/hg38)
    - group: all tracks, track: tRNA Genes, table: tRNA
    - region: genome, 
    - output format: sequence 

 （1）仅提取出其中人miRNA序列
 ##### 转录组

 （2）将U碱基转化为T碱基
 全人转录组参考序列下载自 NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_rna.fna.gz

 （3）合并序列相同的 miRNA ID
 并根据序列ID中的最后一栏对序列进行分类

 （4）根据成熟体所对应的剪切前体（pre-miRNA），将成熟体序列两端各延伸5bp
 ##### 全参考基因组
 全人参考基因组序列下载自NCBI：[ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.38_GRCh38.p12/
 GCF_000001405.38_GRCh38.p12_genomic.fna.gz]



@@ -173,7 +245,7 @@ miRNAseq analysis pipeline 是一个全自动app，用于对miRNA-seq二代测

   1）一条read中，质量不满足```qualified_quality_phred（default:20）``` 的碱基在read占比超过```unqualified_percent_limit(default:20)```%时，该read将被过滤

   2） read中，N碱基数目超过```n_base_limit (default: 5)```的read将被过滤
   2） read中，N碱基数目超过```n_base_limit (default: 2)```的read将被过滤

 3. 长度过滤：去接头后长度小于```length_required（default：16）```的read将被过滤

@@ -181,9 +253,7 @@ miRNAseq analysis pipeline 是一个全自动app，用于对miRNA-seq二代测

   - 使用bowtie（end-to-end模式）进行匹配

   - 配对后，错配碱基的质量和小于```sum_unmatch_quality_limit (default:40)```即被认定匹配成功
     - 即错配碱基测序置信度较高（Q-value>30）时，最多允许1个错配。
     - 随着错配碱基测序置信度（Q-value）的降低，允许的错配数增多
   - 匹配时最多允许```max_mismatch_allowed (default: 1)```个错配