選択できるのは25トピックまでです。 トピックは、先頭が英数字で、英数字とダッシュ('-')を使用した35文字以内のものにしてください。
lizhihui 870b5225aa 上传文件至 '' 5年前
tasks 上传文件至 'tasks' 5年前
hisat2.wdl 上传文件至 '' 5年前
inputs 上传文件至 '' 5年前
readme.md 更新 'readme.md' 5年前
samtools.wdl 上传文件至 '' 5年前
stringtie.wdl 上传文件至 '' 5年前
workflow.wdl 上传文件至 '' 5年前

readme.md

Author : Zhihui Li

E-mail:18210700119@fudan.edu.cn

Git: http://choppy.3steps.cn/lizhihui/rna-seq.git

Last Updates: 28/08/2019

简介

HISAT+StringTie+Ballgown转录组分析流程主要根据2016年发表在Nature Protocols上的一篇名为Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown的文章撰写的,主要用到以下三个软件:HISAT利用大量FM索引,以覆盖整个基因组,能够将RNA-Seq的读取与基因组进行快速比对,相较于STAR、Tophat,该软件比对速度快,占用内存少; StringTie能够应用流神经网络算法和可选的de novo组装进行转录本组装并预计表达水平。与Cufflinks等程序相比,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平;Ballgown是R语言中基因差异表达分析的工具,能利用RNA-Seq实验的数据(StringTie, RSEM, Cufflinks)的结果预测基因、转录本的差异表达。rnaseq是用于 Choppy-pipe 系统使用的 APP。本APP能生成表达谱所需的Ballgown文件夹。

快速安装及使用

Requirements

在终端中输入以下命令即可快速安装本APP。

1.安装
$ source activate choppy-py3
$ choppy install lizhihui/rna-seq
$ choppy apps
2.使用
$ choppy samples rna-seq-latest --out Projectname_rnaseq_date_people.csv
$ choppy batch rna-seq-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people

使用方法

任务的准备

按照上述步骤安装成功之后,可以通过下面简单的命令即可使用APP:

# Generate samples file
$ choppy samples rna-seq-latest --out Projectname_rnaseq_date_people.csv

Projectname_fastqc_date_people.csv 包含以下几个需要填写的参数:

  • 文件中必须包含的列为:
    • sample_id:样本名称,该名称将自动作为生成结果文件的前缀名
    • read1:原始FASTQ文件所在的OSS路径(仅R1)
    • read2:原始FASTQ文件所在的OSS路径(仅R2)
read1,read2,sample_id
# read1  		双端测序数据的R1端在阿里云上的路径信息
# read2  		双端测序数据的R2端在阿里云上的路径信息
# sample_id		每个样本任务的识别码。注意:同一个samples文件中,不同样本的ID应该不同

任务提交

在配置好samples.csv 文件后,使用以下命令可以提交计算任务:

$ choppy batch rna-seq-latest Projectname_rnaseq_date_people.csv --project-name Projectname_rnaseq_date_people

提交成功后,即可在工作目录下找到生成的目录名为Projectname_rnaseq_date_people,里面包含了本次提交任务的所有样本信息。

任务输出

任务成功结束后,便可以在阿里云相应的OSS端生成相应的结果文件。包括数据产生的中间结果bam文件以及下游分析所需要的表达谱文件。

APP流程概述

流程示意图

image-20190828105109404

​ 我们利用 HiSat2将高质量序列比对到人的参考基因组上,然后利用 Qualimap进行对比对质量评估。最后我们利用StringTie进行转录本重构和定量。使用Ballgown进行基因表达水平质量评估。

输出文件说明

运行APP后,

每个sample对应一个文件夹,内部结构如下:

  • call-hisat2

    • .sam
  • call-samtools

    • .sorted.bam 用来存储reads到参考序列二进制格式的比对信息,可以用来进行比对质量分析(使用qualimap APP分析)
    • .sorted.bam.bai
  • call-stringtie

    • .cov.ref.gtf
    • ballgown 下载后可以用R进行转录组下游分析

    • .gene.abundance.txt 下载后可以用R进行转录组下游分析

软件版本及参数

软件版本

  1. hisat2 :v2.1.0-2
  2. samtools:v1.3.1
  3. stringtie:v1.3.4

使用参数

  1. hisat2.cluster: OnDemand bcs.a2.3xlarge img-ubuntu-vpc
  2. samtools.cluster: OnDemand bcs.a2.large img-ubuntu-vpc
  3. stringtie.cluster: OnDemand bcs.a2.large img-ubuntu-vpc
  4. gtf:Homo_sapiens.GRCh38.93.gtf (oss://pgx-reference-data/reference/annotation/Homo_sapiens.GRCh38.93.gtf)
  5. Index:hg38 (oss://pgx-reference-data/reference/hisat2/grch38_snp_tran/)

参考文献

[1]Pertea M , Kim D , Pertea G M , et al. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown[J]. Nature Protocols, 2016, 11(9):1650-1667.