You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
lzpmonster eff92a1101 fixup 9 months ago
picture 错误 11 months ago
tasks fixup 9 months ago
README.md 修改脚本错误更新README.md 1 year ago
inputs fix 9 months ago
workflow.wdl fix 9 months ago

README.md

全基因组甲基化测序(WGBS)分析APP

安装指南


#激活choppy环境

source activate choppy-latest

#安装app

choppy install XXXX 

APP介绍

甲基化原理简述

全基因组亚硫酸氢盐测序用于研究基因粒度的DNA甲基化模式。 亚硫酸氢盐处理将胞嘧啶转化为尿嘧啶,但甲基化胞嘧啶不变。

比对软件(如Bismark)将基因组序列转化之后进行比对。

APP功能简述

为了更好的分析全基因组甲基化数据,我们选用了目前最好的比对软件Bismark,构建了分析pipeline。用来提取全基因组的CpG,CHH,CHG甲基化模式信息。

流程和参数

WGBS分析流程

参数说明


--clip_R1 <int> 从序列一的5'末端删除一段序列

--clip_R2 <int> 从序列二的5'末端删除一段序列

--three_prime_clip_R2 <int>从序列一的3'末端删除一段序列

--three_prime_clip_R2 <int>从序列二的3'末端删除一段序列

--paired pair-end序列

--bowtie2 使用bowtie2的算法

-p 多线程

输入和输出

输入

需要两个文件和一个样本名

参考基因组及其索引文件,序列1和2,一个样本名字

输出

主要文件

在甲基化分析中最重要的就是CpG,CHH,CHG三种甲基化模式的测定。

所以在输出中最重要的就是以下三个表明三种甲基化状态的文件。

CpG_context_test_data_bismark_bt2.txt,CHG_context_test_data_bismark_bt2.txt,CHH_context_test_data_bismark_bt2.txt

以CpG_context_test_data_bismark_bt2.txt为例

Bismark methylation extractor version v0.19.0
SRR15024317_length=86   -       1       57798691        z
SRR15024319_length=86    +       2       10166600        Z
SRR15024331_length=86  +       11      77736289        Z
SRR15024338_length=86  +       3       197272186       Z

第一行为Bismark的版本信息

其余的,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。

不同字母表明不同的甲基化状态:

X 代表CHG中甲基化的C
x  代笔CHG中非甲基化的C
H 代表CHH中甲基化的C
h  代表CHH中非甲基化的C
Z  代表CpG中甲基化的C
z  代表CpG中非甲基化的C
U 代表其他情况的甲基化C(CN或者CHN)
u  代表其他情况的非甲基化C (CN或者CHN)

补充文件

上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行bismark_methylation_extractor时,除了生成上述文件之外,还会有下列3个文件:

test_data_bismark_bt2_splitting_report.txt test_data_bismark_bt2.M-bias.txt test_data_bismark_bt2.M-bias_R1.png

test_data_bismark_bt2_splitting_report.txt

记录了该样本甲基化的汇总信息

Final Cytosine Methylation Report
Total number of C’s analysed:    40348
Total methylated C’s in CpG context:    1365
Total methylated C’s in CHG context:    21
Total methylated C’s in CHH context:    103
Total C to T conversions in CpG context:    678
Total C to T conversions in CHG context:    10076
Total C to T conversions in CHH context:    28105
C methylated in CpG context:    66.8%
C methylated in CHG context:    0.2%
C methylated in CHH context:    0.4%
test_data_bismark_bt2.M-bias.txt

定义了每一个甲基化位点的详细信息,%methylation就是我们定量常用的beta 值 部分文件内容如下

CpG context
position        count methylated        count unmethylated      % methylation   coverage
1                     42                         13               76.36         55
2                     31                          9               77.50         40