5 år sedan · 7773d568cd
--- a/readme.md
+++ b/readme.md
@@ -2,15 +2,14 @@
 >
 > E-mail：[18210700119@fudan.edu.cn](mailto:18210700119@fudan.edu.cn)
 >
 > Git: <http://choppy.3steps.cn/lizhihui/rna-seq-fastp.git>
 >
 > Last Updates: 28/08/2019
 > Last Updates: 24/02/2020

 ## 简介
 HISAT+StringTie+Ballgown转录组分析流程主要根据2016年发表在Nature Protocols上的一篇名为Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown的文章撰写的，主要用到以下三个软件：[HISAT] (http://ccb.jhu.edu/software/hisat/index.shtml)利用大量FM索引，以覆盖整个基因组，能够将RNA-Seq的读取与基因组进行快速比对，相较于STAR、Tophat，该软件比对速度快，占用内存少；
 [StringTie](http://ccb.jhu.edu/software/stringtie/)能够应用流神经网络算法和可选的de novo组装进行转录本组装并预计表达水平。与Cufflinks等程序相比，StringTie实现了更完整、更准确的基因重建，并更好地预测了表达水平；[Ballgown] (https://github.com/alyssafrazee/ballgown)是R语言中基因差异表达分析的工具，能利用RNA-Seq实验的数据(StringTie, RSEM, Cufflinks)的结果预测基因、转录本的差异表达。`rnaseq`是用于 [Choppy-pipe](http://choppy.3steps.cn/) 系统使用的 APP。本APP能生成表达谱所需的Ballgown文件夹。

 此版本较[rna-seq之前版本](http://choppy.3steps.cn/lizhihui/rna-seq.git)更新较多，故新建版本。较之前版本主要更新内容如下：

 1.添加了生物信息学软件fastp作为数据预处理的工具，fastp可以快速的去掉接头，且速度较快，同时可以进行简单的质控分析
 2.hisat软件会输出unmap的序列文件
 3.samtools软件会输出ins_size的信息
@@ -29,11 +28,11 @@ HISAT+StringTie+Ballgown转录组分析流程主要根据2016年发表在Nature
 ```bash
 1.安装
 $ source activate choppy-py3
 $ choppy install lizhihui/rna-seq-fastp
 $ choppy install lizhihui/rnaseq_fastp
 $ choppy apps
 2.使用
 $ choppy samples rna-seq-latest --out Projectname_rnaseq_date_people.csv
 $ choppy batch rna-seq-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people
 $ choppy samples rnaseq_fastp-latest --out Projectname_rnaseq_date_people.csv
 $ choppy batch rnaseq_fastp-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people
 ```

 ## 使用方法
@@ -53,12 +52,16 @@ $ choppy samples rna-seq-latest --out Projectname_rnaseq_date_people.csv
  - sample_id：样本名称，该名称将自动作为生成结果文件的前缀名
  - read1：原始FASTQ文件所在的OSS路径（仅R1）
  - read2：原始FASTQ文件所在的OSS路径（仅R2）
  - adapter_sequence：R1端需要去除的接头，根据实验室常使用的接头，不填则默认为AGATCGGAAGAGCACACGTCTGAACTCCAGTCA
  - adapter_sequence_r2：R2端需要去除的接头，根据实验室常使用的接头，不填则默认为AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT

 ```bash
 read1,read2,sample_id
 read1,read2,sample_id,adapter_sequence,adapter_sequence_r2
 # read1  		双端测序数据的R1端在阿里云上的路径信息
 # read2  		双端测序数据的R2端在阿里云上的路径信息
 # sample_id		每个样本任务的识别码。注意：同一个samples文件中，不同样本的ID应该不同
 #adapter_sequence		R1端需要去除的接头，以"AGATC"的形式填写，可以不填，不填则为默认参数
 #adapter_sequence_r2	R2端需要去除的接头，以"AGATC"的形式填写，可以不填，不填则为默认参数
 ```

 ### 任务提交
@@ -66,7 +69,7 @@ read1,read2,sample_id
 在配置好`samples.csv` 文件后，使用以下命令可以提交计算任务：

 ```bash
 $ choppy batch rna-seq-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people
 $ choppy batch rnaseq_fastp-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people
 ```

 提交成功后，即可在工作目录下找到生成的目录名为Projectname_rnaseq_date_people，里面包含了本次提交任务的所有样本信息。
@@ -146,6 +149,7 @@ $ choppy batch rna-seq-latest Projectname_rnaseq_date_people.csv --project-name
 ## 参考文献

 [1]Pertea M , Kim D , Pertea G M , et al. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown[J]. Nature Protocols, 2016, 11(9):1650-1667.
 [2]Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages i884–i890, https://doi.org/10.1093/bioinformatics/bty560