You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

README.md 4.1KB

6 anni fa
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162
  1. # 全基因组甲基化测序(WGBS)分析APP
  2. ## 安装指南
  3. ```
  4. #激活choppy环境
  5. source activate choppy-latest
  6. #安装app
  7. choppy install XXXX
  8. ```
  9. ## APP介绍
  10. ### 甲基化原理简述
  11. 全基因组亚硫酸氢盐测序用于研究基因粒度的DNA甲基化模式。 亚硫酸氢盐处理将胞嘧啶转化为尿嘧啶,但甲基化胞嘧啶不变。
  12. 比对软件(如Bismark)将基因组序列转化之后进行比对。
  13. ![img](file:///C:/Users/monster/Documents/My Knowledge/temp/bbfd4716-e9eb-4735-9f7c-948838adbb62/128/index_files/004e3e03-4e75-487f-8be6-fa7509f07930.png)
  14. ### APP功能简述
  15. 为了更好的分析全基因组甲基化数据,我们选用了目前最好的比对软件Bismark,构建了分析pipeline。用来提取全基因组的CpG,CHH,CHG甲基化模式信息。
  16. ## 流程和参数
  17. ### WGBS分析流程
  18. ![img](file:///C:/Users/monster/Documents/My Knowledge/temp/bbfd4716-e9eb-4735-9f7c-948838adbb62/128/index_files/c5901b21-4df4-46c4-a68a-11cb11476af7.png)
  19. ### 参数说明
  20. ```
  21. --clip_R1 <int> 从序列一的5'末端删除一段序列
  22. --clip_R2 <int> 从序列二的5'末端删除一段序列
  23. --three_prime_clip_R2 <int>从序列一的3'末端删除一段序列
  24. --three_prime_clip_R2 <int>从序列二的3'末端删除一段序列
  25. --paired pair-end序列
  26. --bowtie2 使用bowtie2的算法
  27. -p 多线程
  28. ## 输入和输出
  29. ### 输入
  30. 需要两个文件和一个样本名
  31. 参考基因组及其索引文件,序列1和2,一个样本名字
  32. ### 输出
  33. #### 主要文件
  34. 在甲基化分析中最重要的就是CpG,CHH,CHG三种甲基化模式的测定。
  35. 所以在输出中最重要的就是以下三个表明三种甲基化状态的文件。
  36. CpG_context_test_data_bismark_bt2.txt,CHG_context_test_data_bismark_bt2.txt,CHH_context_test_data_bismark_bt2.txt
  37. 以CpG_context_test_data_bismark_bt2.txt为例
  38. ```
  39. Bismark methylation extractor version v0.19.0
  40. SRR15024317_length=86 - 1 57798691 z
  41. SRR15024319_length=86 + 2 10166600 Z
  42. SRR15024331_length=86 + 11 77736289 Z
  43. SRR15024338_length=86 + 3 197272186 Z
  44. ```
  45. 第一行为Bismark的版本信息
  46. 其余的,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。
  47. 不同字母表明不同的甲基化状态:
  48. ```
  49. X 代表CHG中甲基化的C
  50. x 代笔CHG中非甲基化的C
  51. H 代表CHH中甲基化的C
  52. h 代表CHH中非甲基化的C
  53. Z 代表CpG中甲基化的C
  54. z 代表CpG中非甲基化的C
  55. U 代表其他情况的甲基化C(CN或者CHN)
  56. u 代表其他情况的非甲基化C (CN或者CHN)
  57. ```
  58. #### 补充文件
  59. 上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行bismark_methylation_extractor时,除了生成上述文件之外,还会有下列3个文件:
  60. ```
  61. test_data_bismark_bt2_splitting_report.txt
  62. test_data_bismark_bt2.M-bias.txt
  63. test_data_bismark_bt2.M-bias_R1.png
  64. ```
  65. ##### test_data_bismark_bt2_splitting_report.txt
  66. 记录了该样本甲基化的汇总信息
  67. ```
  68. Final Cytosine Methylation Report
  69. Total number of C’s analysed: 40348
  70. Total methylated C’s in CpG context: 1365
  71. Total methylated C’s in CHG context: 21
  72. Total methylated C’s in CHH context: 103
  73. Total C to T conversions in CpG context: 678
  74. Total C to T conversions in CHG context: 10076
  75. Total C to T conversions in CHH context: 28105
  76. C methylated in CpG context: 66.8%
  77. C methylated in CHG context: 0.2%
  78. C methylated in CHH context: 0.4%
  79. ```
  80. ##### test_data_bismark_bt2.M-bias.txt
  81. 定义了每一个甲基化位点的详细信息,`%methylation`就是我们定量常用的beta 值
  82. 部分文件内容如下
  83. ```
  84. CpG context
  85. position count methylated count unmethylated % methylation coverage
  86. 1 42 13 76.36 55
  87. 2 31 9 77.50 40
  88. ```