# RNA-seq QC [TOC] RNA-seq下游数据分析-ballgown到报告。 以Rscript为主,对接PGx RNA-seq choppy现有pipeline,到生成RNA-seq分析报告所需的rds和csv文件。 ## 整体流程图 包括一下几个文件: 1. **RNAseq_sexcheck.R**:基于表达水平推测样本的性别 # Quick start 1. 准备文件: 1. 表达谱 2. 确认事项: 1. 所在机器的R/bioconductot安装包已完成(请参考library节查看) 服务器:10.157.72.53已完成包的安装 2. 代码 1. 代码:RNAseq_sexcheck.R 2. 参考文件:sexgenelist.txt 3. 运行以下命令: ```shell Rscript RNAseq_sexcheck.R -i geneexp_log2fpkm.txt ``` 4. 将结果上传至报告系统所在服务器,并编辑{报告模板.md}的第一部分(实验目的、主要结论),完成并运行报告。 ## RNAseq_sexcheck.R ### 功能简介 基于表达水平推测样本的性别。 注意:如果数据经过低表达水平过滤,那么性别特异基因可能会被过滤掉而无法进行准确预测。 ### 代码参数 ```shell Usage: Rscript RNAseq_sexcheck.R [options] Options: -o OUT_DIR, --out_dir=OUT_DIR The output directory [default ./] -i INPUT, --input=INPUT The input expression files. required! -e TYPE_GENE_ID, --type_gene_id=TYPE_GENE_ID The type of gene symbol. Could be either of EnsemblID/EntrezID/GeneSymbol [default: EnsemblID] -b FALSE, --pre_lowexpr_filtered=FALSE Whether pre-filterd low expressed genes in the input file or not. [default: FALSE] -s SEX_GENES, --sex_genes=SEX_GENES File in tab-delimited format sex gene list with EnsemblID/EntrezID/GeneSymbol. [default: ./sexgenelist.txt ] -p PROJECT_CODE, --project_code=PROJECT_CODE Project code, which is used as prefix of output file. [default: rnaseq] -h, --help Show this help message and exit ``` **参数解释** | 参数 | 取值类型 | 解释 | 例如 | | -------------------------------------------- | ---------- | ------------------------------------------------------------ | ----------------- | | -o OUT_DIR, --out_dir=OUT_DIR | character | 输出路径,默认为./。可加“/”也可不加“/” | ./ | | -i INPUT, --input=INPUT | character | 输入文件名,**必须输入。**输入表达谱必须是log scaled的tab分隔的表达谱,可以是[RNAseqDownstream2report](http://choppy.3steps.cn/yingyu/RNAseqDownstream2report)仓库RNAseq_1_ballgown.R/RNAseq_1_stringtie.R的输出文件。 | example.txt | | -e TYPE_GENE_ID, --type_gene_id=TYPE_GENE_ID | character | | | | -b FALSE, --pre_lowexpr_filtered=FALSE | TRUE/FALSE | 输入的表达谱文件是否进行过低表达值过滤。 | FALSE | | -s SEX_GENES, --sex_genes=SEX_GENES | character | 性别特异基因的文件 | ./sexgenelist.txt | | -p PROJECT_CODE, --project_code=PROJECT_CODE | character | project代号,输出文件的前缀,默认rnaseq | rnaseq | | -h, --help | | 查看帮助文档并退出 | -h | 各样本的各PC值,choppy report所需的scatterplot图的rds和csv文件,(其中绘图时仅需rds文件,csv文件就看看): rnaseq_sexpredict.csv 逗号分隔的预测结果,包括两列,第一列为样本名(来自于输入文件的列名),第二列为预测的性别结果。 rnaseq_sexpredict.rds R对象 内容如下: > Sample,Sex > > P1,Female > > P10,Female > > P11,Female > > P12,Male ### 运行示例 ```shell #最少输入 Rscript RNAseq_sexcheck.R -i geneexp_log2fpkm.txt #其他输入 Rscript RNAseq_sexcheck.R -i FUSCCTNBC_RNAseqShi.Complete_log2_448x45308_V15_190209.txt -p 111 -s ./sexgenelist.txt -e GeneSymbol ``` ### choppy report ``` @data-table-js(dataUrl='/yourdir/data/rnaseq_sexpredict.csv') ``` # Example data oss://choppy-app-example-data/RNAseqQC_example/ 13例RNA-seq数据。 ## R library R library used: ```R library(optparse) #all ``` ​ 如果需要安装,运行 ```R install.packages("optparse") ``` ​