Du kan inte välja fler än 25 ämnen Ämnen måste starta med en bokstav eller siffra, kan innehålla bindestreck ('-') och vara max 35 tecken långa.

README.md 3.8KB

6 år sedan
6 år sedan
6 år sedan
6 år sedan
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150
  1. # 全基因组甲基化测序(WGBS)分析APP
  2. ## 安装指南
  3. ```
  4. #激活choppy环境
  5. source activate choppy-latest
  6. #安装app
  7. choppy install XXXX
  8. ```
  9. ## APP介绍
  10. ### 甲基化原理简述
  11. ![](.\picture\BS原理.png)
  12. 全基因组亚硫酸氢盐测序用于研究基因粒度的DNA甲基化模式。 亚硫酸氢盐处理将胞嘧啶转化为尿嘧啶,但甲基化胞嘧啶不变。
  13. 比对软件(如Bismark)将基因组序列转化之后进行比对。
  14. ### APP功能简述
  15. 为了更好的分析全基因组甲基化数据,我们选用了目前最好的比对软件Bismark,构建了分析pipeline。用来提取全基因组的CpG,CHH,CHG甲基化模式信息。
  16. ## 流程和参数
  17. ### WGBS分析流程
  18. ![](.\picture\WGBS流程.png)
  19. ### 参数说明
  20. ```
  21. --clip_R1 <int> 从序列一的5'末端删除一段序列
  22. --clip_R2 <int> 从序列二的5'末端删除一段序列
  23. --three_prime_clip_R2 <int>从序列一的3'末端删除一段序列
  24. --three_prime_clip_R2 <int>从序列二的3'末端删除一段序列
  25. --paired pair-end序列
  26. --bowtie2 使用bowtie2的算法
  27. -p 多线程
  28. ```
  29. ## 输入和输出
  30. ### 输入
  31. 需要两个文件和一个样本名
  32. 参考基因组及其索引文件,序列1和2,一个样本名字
  33. ### 输出
  34. #### 主要文件
  35. 在甲基化分析中最重要的就是CpG,CHH,CHG三种甲基化模式的测定。
  36. 所以在输出中最重要的就是以下三个表明三种甲基化状态的文件。
  37. CpG_context_test_data_bismark_bt2.txt,CHG_context_test_data_bismark_bt2.txt,CHH_context_test_data_bismark_bt2.txt
  38. 以CpG_context_test_data_bismark_bt2.txt为例
  39. ```
  40. Bismark methylation extractor version v0.19.0
  41. SRR15024317_length=86 - 1 57798691 z
  42. SRR15024319_length=86 + 2 10166600 Z
  43. SRR15024331_length=86 + 11 77736289 Z
  44. SRR15024338_length=86 + 3 197272186 Z
  45. ```
  46. 第一行为Bismark的版本信息
  47. 其余的,第一列为比对上的序列ID,第二列为基因组的正负链信息,第三列为染色体编号,第四列染色体上的位置,第5列为甲基化的C的状态。
  48. 不同字母表明不同的甲基化状态:
  49. ```
  50. X 代表CHG中甲基化的C
  51. x 代笔CHG中非甲基化的C
  52. H 代表CHH中甲基化的C
  53. h 代表CHH中非甲基化的C
  54. Z 代表CpG中甲基化的C
  55. z 代表CpG中非甲基化的C
  56. U 代表其他情况的甲基化C(CN或者CHN)
  57. u 代表其他情况的非甲基化C (CN或者CHN)
  58. ```
  59. #### 补充文件
  60. 上面的文件是methylation calling 最直接的证据,但是对于甲基化水平的定量来说,缺少了相关信息。运行bismark_methylation_extractor时,除了生成上述文件之外,还会有下列3个文件:
  61. test_data_bismark_bt2_splitting_report.txt
  62. test_data_bismark_bt2.M-bias.txt
  63. test_data_bismark_bt2.M-bias_R1.png
  64. ##### test_data_bismark_bt2_splitting_report.txt
  65. 记录了该样本甲基化的汇总信息
  66. ```
  67. Final Cytosine Methylation Report
  68. Total number of C’s analysed: 40348
  69. Total methylated C’s in CpG context: 1365
  70. Total methylated C’s in CHG context: 21
  71. Total methylated C’s in CHH context: 103
  72. Total C to T conversions in CpG context: 678
  73. Total C to T conversions in CHG context: 10076
  74. Total C to T conversions in CHH context: 28105
  75. C methylated in CpG context: 66.8%
  76. C methylated in CHG context: 0.2%
  77. C methylated in CHH context: 0.4%
  78. ```
  79. ##### test_data_bismark_bt2.M-bias.txt
  80. 定义了每一个甲基化位点的详细信息,`%methylation`就是我们定量常用的beta 值
  81. 部分文件内容如下
  82. ```
  83. CpG context
  84. position count methylated count unmethylated % methylation coverage
  85. 1 42 13 76.36 55
  86. 2 31 9 77.50 40
  87. ```