|
|
@@ -0,0 +1,162 @@ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# 全基因组甲基化测序(WGBS)分析APP |
|
|
|
|
|
|
|
## 安装指南 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
#激活choppy环境 |
|
|
|
|
|
|
|
source activate choppy-latest |
|
|
|
|
|
|
|
#安装app |
|
|
|
|
|
|
|
choppy install XXXX |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
## APP介绍 |
|
|
|
|
|
|
|
### 甲基化原理简述 |
|
|
|
|
|
|
|
全基因组亚硫酸氢盐测序用于研究基因粒度的DNA甲基化模式。 亚硫酸氢盐处理将胞嘧啶转化为尿嘧啶,但甲基化胞嘧啶不变。 |
|
|
|
|
|
|
|
比对软件(如Bismark)将基因组序列转化之后进行比对。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
### APP功能简述 |
|
|
|
|
|
|
|
为了更好的分析全基因组甲基化数据,我们选用了目前最好的比对软件Bismark,构建了分析pipeline。用来提取全基因组的CpG,CHH,CHG甲基化模式信息。 |
|
|
|
|
|
|
|
## 流程和参数 |
|
|
|
|
|
|
|
### WGBS分析流程 |
|
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
### 参数说明 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
--clip_R1 <int> 从序列一的5'末端删除一段序列 |
|
|
|
|
|
|
|
--clip_R2 <int> 从序列二的5'末端删除一段序列 |
|
|
|
|
|
|
|
--three_prime_clip_R2 <int>从序列一的3'末端删除一段序列 |
|
|
|
|
|
|
|
--three_prime_clip_R2 <int>从序列二的3'末端删除一段序列 |
|
|
|
|
|
|
|
--paired pair-end序列 |
|
|
|
|
|
|
|
--bowtie2 使用bowtie2的算法 |
|
|
|
|
|
|
|
-p 多线程 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 输入和输出 |
|
|
|
|
|
|
|
### 输入 |
|
|
|
|
|
|
|
需要两个文件和一个样本名 |
|
|
|
|
|
|
|
参考基因组及其索引文件,序列1和2,一个样本名字 |
|
|
|
|
|
|
|
### 输出 |
|
|
|
|
|
|
|
#### 主要文件 |
|
|
|
|
|
|
|
在甲基化分析中最重要的就是CpG,CHH,CHG三种甲基化模式的测定。 |
|
|
|
|
|
|
|
所以在输出中最重要的就是以下三个表明三种甲基化状态的文件。 |
|
|
|
|
|
|
|
CpG_context_test_data_bismark_bt2.txt,CHG_context_test_data_bismark_bt2.txt,CHH_context_test_data_bismark_bt2.txt |
|
|
|
|
|
|
|
以CpG_context_test_data_bismark_bt2.txt为例 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
Bismark methylation extractor version v0.19.0 |
|
|
|
SRR15024317_length=86 - 1 57798691 z |
|
|
|
SRR15024319_length=86 + 2 10166600 Z |
|
|
|
SRR15024331_length=86 + 11 77736289 Z |
|
|
|
SRR15024338_length=86 + 3 197272186 Z |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
第一行为Bismark的版本信息 |
|
|
|
|
|
|
|
其余的,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。 |
|
|
|
|
|
|
|
不同字母表明不同的甲基化状态: |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
X 代表CHG中甲基化的C |
|
|
|
x 代笔CHG中非甲基化的C |
|
|
|
H 代表CHH中甲基化的C |
|
|
|
h 代表CHH中非甲基化的C |
|
|
|
Z 代表CpG中甲基化的C |
|
|
|
z 代表CpG中非甲基化的C |
|
|
|
U 代表其他情况的甲基化C(CN或者CHN) |
|
|
|
u 代表其他情况的非甲基化C (CN或者CHN) |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
#### 补充文件 |
|
|
|
|
|
|
|
上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行bismark_methylation_extractor时,除了生成上述文件之外,还会有下列3个文件: |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
test_data_bismark_bt2_splitting_report.txt |
|
|
|
test_data_bismark_bt2.M-bias.txt |
|
|
|
test_data_bismark_bt2.M-bias_R1.png |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
##### test_data_bismark_bt2_splitting_report.txt |
|
|
|
|
|
|
|
记录了该样本甲基化的汇总信息 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
Final Cytosine Methylation Report |
|
|
|
Total number of C’s analysed: 40348 |
|
|
|
Total methylated C’s in CpG context: 1365 |
|
|
|
Total methylated C’s in CHG context: 21 |
|
|
|
Total methylated C’s in CHH context: 103 |
|
|
|
Total C to T conversions in CpG context: 678 |
|
|
|
Total C to T conversions in CHG context: 10076 |
|
|
|
Total C to T conversions in CHH context: 28105 |
|
|
|
C methylated in CpG context: 66.8% |
|
|
|
C methylated in CHG context: 0.2% |
|
|
|
C methylated in CHH context: 0.4% |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
##### test_data_bismark_bt2.M-bias.txt |
|
|
|
|
|
|
|
定义了每一个甲基化位点的详细信息,`%methylation`就是我们定量常用的beta 值 |
|
|
|
部分文件内容如下 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
CpG context |
|
|
|
position count methylated count unmethylated % methylation coverage |
|
|
|
1 42 13 76.36 55 |
|
|
|
2 31 9 77.50 40 |
|
|
|
|
|
|
|
``` |
|
|
|
|
|
|
|
|
|
|
|
|