You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

6 年之前
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112
  1. > Author: Huang Yechao
  2. >
  3. > E-mail:1721070009@fudan.edu.cn
  4. >
  5. > Git: http://choppy.3steps.cn/huangyechao/target-germline.git
  6. >
  7. > Last Updates: 16/1/2019
  8. ## 安装指南
  9. ```
  10. # 激活choppy环境
  11. source activate choppy-latest
  12. # 安装app
  13. choppy install LiXiangNan/hrd_score
  14. ```
  15. ## App概述
  16. 描述App解决了什么问题,适用范围与局限性。
  17. 示例:
  18. ![](http://kancloud.nordata.cn/2019-01-24-Screen%20Shot%202019-01-24%20at%2014.57.49.png)
  19. ![](http://kancloud.nordata.cn/2019-01-24-Screen%20Shot%202019-01-24%20at%2014.58.56.png)
  20. ## 流程与参数
  21. 此模块详细描述App包含的流程与参数,请参考[流程描述参考示例](https://software.broadinstitute.org/gatk/best-practices/workflow?id=11145)
  22. 参数指封装的软件所用到的参数,参数罗列可参考:
  23. ![](http://kancloud.nordata.cn/2019-01-24-Screen%20Shot%202019-01-24%20at%2015.05.21.png)
  24. ## 软件解决问题的思路
  25. 自研软件需要增加此模块内容,用于描述解决问题的思路。
  26. ## App输入变量与输入文件
  27. 自定义文件格式的务必给出文件格式的详细说明,如下链接所示:[文件格式描述参考示例](http://cole-trapnell-lab.github.io/cufflinks/file_formats/index.html)
  28. 输入变量是指定义在App中允许用户修改的值,可通过以下命令输出:
  29. ```
  30. choppy samples <app_name>
  31. ```
  32. 此外,choppy支持定义默认值,App用户可通过以下命令修改defaults文件中定义的值。
  33. ```
  34. choppy config --app-name <app_name> --key <key> --value <value>
  35. ```
  36. App开发者定义在App中的变量,可同时在App的defaults文件中预设默认值。defaults文件是一个json文件,如下所示:
  37. ```
  38. {
  39. "var_1": "value_1"
  40. }
  41. ```
  42. ## App输出文件
  43. 输出文件务必给出文件格式的详细说明以及示例,如下链接所示:[文件格式描述参考示例](http://cole-trapnell-lab.github.io/cufflinks/file_formats/index.html)
  44. ## 结果展示与解读
  45. GSEA结果解读示例:
  46. > ### 1. Enrichment score(ES)
  47. >
  48. > ES是GSEA最初的结果,反应全部杂交data排序后,在此序列top或bottom富集的程度。
  49. > ES原理:扫描排序序列,当出现一个功能集中的gene时,增加ES值,反之减少ES值,所以ES是个动态值。最终ES的确定是讲杂交数据排序序列所在位置定义为0,ES值定义为距离排序序列的最大偏差.
  50. > - ES为正,表示某一功能gene集富集在排序序列前方
  51. > - ES为负,表示某一功能gene集富集在排序序列后方。
  52. > 图中的最高点为此通路的ES值,中间表示杂交数据的排序序列。竖线表示此通路中出现的芯片数据集中的gene。
  53. >
  54. > ### 2. NES
  55. >
  56. > 由于ES是根据分析的数据集中的gene是否在一个功能gene set中出现来计算的,但各个功能gene set中包含的gene数目不同,且不同功能gene set与data之间的相关性也不同,因此,比较data set在不同功能gene set中的富集程度要对ES进行标准化处理,也就是NES
  57. > NES=某一功能gene set的ES/数据集所有随机组合得到的ES平均值
  58. > NES是主要的统计量。
  59. >
  60. > ### 3. FDR
  61. >
  62. > NES确定后,判断其中可能包含的错误阳性发现率。FDR=25%意味着对此NES的确定,4次可能错 1次。GSEA结果中,高亮显示FDR<25%的富集set。因为从这些功能gene中最可能产生有意义的假设,促进进一步研究。大多数情况下,选FDR<25%是合适的,但是,假如分析的芯片data set较少,选择的是探针随机组合而不是表型组合,若p不严格,那么应该选FDR<5%。一般而言,NES绝对值越大,FDR值就越小,说明富集程度高,结果可靠。
  63. >
  64. > ### 4. 名义p值 nominal p-value
  65. >
  66. > 描述的是针对某一功能gene子集得到的富集得分的统计显著性,显然,p越小,富集性越好。
  67. >
  68. > **以上4个参数中,只有FDR进行了功能gene子集大小和多重假设检验矫正,而p值没有,因此,如果结果中有一个高度富集的功能gene子集,而其有很小的名义p-value和大的FDR意味着富集并不显著。**
  69. >
  70. > 我的一个具体结果解读:
  71. >
  72. > > 92/681 gene sets are upregulated in PH
  73. > > 0 gene sets are significantly enriched at FDR<25%
  74. > > 1 gene sets are significantly enriched at n p-value <1%
  75. > > 1 gene sets are significantly enriched at n p-value <5%
  76. >
  77. > 在选择的BP中,有681个gene sets,92个PH中上调,其中75%的正确率支持0条子集上调,1个BP的gene表达上调名义p值<0.01。总体结果并不理想。
  78. >
  79. > ### 5. 备注
  80. >
  81. > #### GSEA富集结果太少说明:
  82. >
  83. > 无gene set被富集。可能是因为分析的样本太少,关注的生物信息太微弱,或正在分析的功能集不能很好代表你所关心的生物过程,但仍然可以看下top ranked gene sets,这些信息可能会为你的假说提供微弱的证据。当然也可以尝试考虑分析其他gene sets,或增加samples
  84. >
  85. > #### GSEA富集结果太多说明:
  86. >
  87. > 太多的功能子集被富集了。可能是因为很多的gene sets代表同一生物信号,这可以在gene sets中查看leading edge sbusets来查看。或者也可以查看具体区别进行加工,比如samples来自不同labs,操作者不一样等。
  88. ## CHANGELOG
  89. CHANGELOG参考示例:
  90. ![](http://kancloud.nordata.cn/2019-01-24-Screen%20Shot%202019-01-24%20at%2015.08.35.png)
  91. ## FAQ
  92. FAQ参考示例:
  93. ![](http://kancloud.nordata.cn/2019-01-24-Screen%20Shot%202019-01-24%20at%2015.06.39.png)