立马搞定6分+肿瘤纯生信文章
家好,今年刷新了榜单纪录——CVPR从去年的第五名跃升至第四名,我是Jerry,五年来首次超越The Lancet(345),今天给家复现一篇STEAP蛋白家族在胶质母细胞瘤的纯生信分析文章,仅次于Science。h5的中位数(583)高于今年的Science(564)。ICLR、NeurIPS和ICML在总榜单中的排名都有所提升,其发表于Journal of Cellular Physiology上,ECCV的排名从去年的第58位升至27位。排名上超过ICCV。去年ACL和AAAI首次进入总榜单后,最新IF为6.38分,今年的排名继续幅上升。(7733328),由此可见该篇文章的借鉴价值是比较高的。
文章题目
Comprehensive landscape of STEAP family functions and prognostic prediction value in glioblastoma.
数据来源
本篇文章的多形性胶质母细胞瘤数据来源于TCGA和CGGA数据库,数据类型为FPKM,其中TCGA数据作为训练集使用,而CGGA队列作为验证集使用。
注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,家也不要奇怪,有可能就是版本不同导致的。家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载。
〇、期刊简介
一、使用工具
1.仙桃学术工具
3.TIMER 数据库(https://cistrome.shinyapps.io/timer/)
二、复现任务
▲Fig.1利用TCGA-GBM数据识别出差异表达的STEAP家族蛋白;
▲Table 1利用TCGA-GBM数据进行STEAP蛋白家族的cox分析;
▲Fig.2利用TCGA-GBM数据进行STEAP2和STEAP3基因的GSEA之GO富集;
▲Fig.3利用TCGA-GBM数据进行STEAP2和STEAP3基因表达水平与免疫浸润之间的相关性分析;
▲Fig.5风险评分在TCGA-GBM样本中的预后分析;
▲Fig.6分析危险评分与GBM病理分型和免疫浸润丰度之间的相关性;
▲Fig.7风险评分构建的列线图和在TCGA和CGCA队列中进行预后评价的校准图;
▲Table 2TCGA和CGCA数据集中GBM患者的临床特征;
▲Table 3危险评分和临床特征在TCGA和CGGA队列中的Cox回归分析;
四、复现步骤
▲Fig.1利用TCGA-GBM数据识别出差异表达的STEAP家族蛋白
仙桃工具复现
1
Fig.1(a)复现
2
Fig.1(b)复现
当前仙桃工具尚不支持TCGA表达谱的直接热图绘制,需要自行下载相应数据集的TPM数据,以进行热图绘制。GBM-TPM格式数据下载的位置:Fig.1 (a)复现的结果分下拉至底的即可看到“数据下载”(见下述截图),从百度云链接中找到GBM表达谱并下载,进而按照下述第二、三张截图的热图数据准备格式进行数据准备,最后上传至“复杂热图”选项中进行热图绘制。
示例数据格式:
3
此处利用上述的示例数据绘制类似Fig.1b的差异基因热图结果,数据准备仅需提供如下截图一的三种数据,即:热图(四种基因的TPM表达谱)、上注释(sle的分组信息)和颜色_上注释(各分组对应的颜色),对应于以下截图2、3、4;
热图:
上注释:
颜色_上注释:
4
按照下述截图中的顺序,依次点击、上传整理的表达谱,并将数据信息、聚类方式和方法按照截图中的信息进行设置,即可得到类似于Fig.1(b)的热图结果。
5
Fig.1的复现结果如下
▲Table 1利用TCGA-GBM数据进行STEAP蛋白家族的cox分析
仙桃工具复现
1
按照下述截图中的顺序,对Table1中的四个STEAP家族蛋白进行单因素和多因素Cox分析,为贴近Table1中的结果,在数据信息模块的方法分选择“去除重复样本”,从而获得比较理想的Cox结果。在第二张截图中选择word三线表下载。
2
复现结果展示
此处的结果复现与Table.1有所区别,其原因可归咎于不同时期下载的TCGA数据存在一定差异以及使用不同的数据格式(本文复现数据均为TPM格式,原文使用的数据格式为FPKM)。
▲Fig.2利用TCGA-GBM数据进行STEAP2和STEAP3基因的GSEA之GO富集
LinkedOmics数据库复现
1
2
按照下述截图中的顺序,依次选择肿瘤队列—TCGA-GBM、检索数据库—RNAseq数据库、选择检索数据库特征—目标基因(STEAP2、STEAP3)、选择目标数据库—TCGA-GBM、选择统计方法—Pearson相关性检验,点击提交。
3
提交之后获得如下截图结果,分别点击各结果均可出现下述Linkinterpreter模块,进而选择GSEA富集功能进行GO分析,其余参数默认,点击提交。
4
即可通过点击Bar plot中的每个条目,获得相对应的富集曲线图像;
▲Fig.3利用TCGA-GBM数据进行STEAP2和STEAP3基因表达水平与免疫浸润之间的相关性分析
Fig. 3a图复现-Timer数据库(https://cistrome.shinyapps.io/timer/)
1
按照下述截图所示,选择gene模块进行STEAP2、STEAP3与免疫细胞浸润的相关性分析,细胞类型为数据库默认的6种免疫细胞,点击提交,即可获得Fig.3a的图片。
2
Fig.3a的复现结果展示
Fig.3b图的复现-仙桃工具复现
1
按照下述截图中的顺序,先后键入STEAP2和STEAP3分子,利用算法参数里的Estimate算法分别进行与ImmuneScore、StromalScore和EstimateScore的相关性分析,从而得到Fig.3b的图像。
2
复现结果展示
▲Fig.5风险评分在TCGA-GBM样本中的预后分析
仙桃工具复现
1
作者将STEAP2和STEAP3表达量按照特定的公式进行预后模型构建,但仙桃工具目前只能进行单基因的预后模型构建,此处仅以单基因-STEAP2进行演示。按照如下截图的标注进行K-M曲线绘制,结果如第二张截图所示。
2
进一步绘制STEAP2的ROC曲线图像,在预测年限中可以自行决定,点击确认进行曲线绘制。
3
得到的最终复现结果如下
▲Fig.6分析危险评分与GBM病理分型和免疫浸润丰度之间的相关性
仙桃工具复现
1
仙桃工具的TCGA-GBM中没有GBM亚型分类的数据,无法复现Fig. 6 a-b;Fig. 6c的复现按照如下截图中的标注进行单基因-STEAP2表达含量的区别,第二张截图即为类似于Fig.6c结果的复现。
2
Fig.6e的结果复现
此处仍以STEAP2代表风险评分进行结果展示,按照如下截图分别进行Stromalscore、ImmuneScore和EstimateScore与STEAP2高、低表达的箱式图绘制。第二张图像即为复现的Fig.6e结果。
▲Fig.7风险评分构建的列线图和在TCGA和CGCA队列中进行预后评价的校准图
仙桃工具复现
1
此处的风险评分仍以STEAP2进行代替,由于目前数据库中缺乏Chemotherapy和radiotherapy的信息,此处复现只包含age、gender、IDH statue和STEAP2表达量。按照如下截图的标准进行列线图的绘制。
2
Fig.7a列线图复现结果如下
3
Fig.7b校准图复现
按照如下截图进行相应的参数设置,即可进行单基因的calibration图绘制。
4
选择calibration可视化选项,选中calibration分析结果,在预测年限中分别选中1年、2年和3年的校准图绘制,从而得到Fig.7b的复现结果。
▲Table 2TCGA和CGCA数据集中GBM患者的临床特征;
仙桃工具复现
1
此处仍以STEAP2代替危险评分进行临床特征表格的绘制。按照如下截图的标识进行STEAP2表达高、低与临床指标之间的相关性分析分析。
2
点击结果分的“word三线表下载”选项,从而得到Table 2的结果。
▲Table 3危险评分和临床特征在TCGA和CGGA队列中的Cox回归分析
仙桃工具复现
1
此处仍以STEAP2代替危险评分作为分析数据,按照如下截图的标注进行单、多因素cox回归分析。
2
点击结果的“word三线表”下载,从而得到类似于Table3的结果。
—END—
撰文丨Jerry
排版丨四金兄
主编丨小雪球
欢迎家关注解螺旋生信频道-挑圈联靠公号~