久久科技网

2021年最新纯生信SCI,复现的时候没想到这么简单!

久久科技网 1

立马搞定6分+肿瘤纯生信文章

家好,今年刷新了榜单纪录——CVPR从去年的第五名跃升至第四名,我是Jerry,五年来首次超越The Lancet(345),今天给家复现一篇STEAP蛋白家族在胶质母细胞瘤的纯生信分析文章,仅次于Science。h5的中位数(583)高于今年的Science(564)。ICLR、NeurIPS和ICML在总榜单中的排名都有所提升,其发表于Journal of Cellular Physiology上,ECCV的排名从去年的第58位升至27位。排名上超过ICCV。去年ACL和AAAI首次进入总榜单后,最新IF为6.38分,今年的排名继续幅上升。(7733328),由此可见该篇文章的借鉴价值是比较高的。

文章题目

Comprehensive landscape of STEAP family functions and prognostic prediction value in glioblastoma.

数据来源

本篇文章的多形性胶质母细胞瘤数据来源于TCGA和CGGA数据库,数据类型为FPKM,其中TCGA数据作为训练集使用,而CGGA队列作为验证集使用。

注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,家也不要奇怪,有可能就是版本不同导致的。家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载。

〇、期刊简介

一、使用工具

1.仙桃学术工具

3.TIMER 数据库https://cistrome.shinyapps.io/timer/

二、复现任务

Fig.1利用TCGA-GBM数据识别出差异表达的STEAP家族蛋白;

Table 1利用TCGA-GBM数据进行STEAP蛋白家族的cox分析;

Fig.2利用TCGA-GBM数据进行STEAP2和STEAP3基因的GSEA之GO富集;

Fig.3利用TCGA-GBM数据进行STEAP2和STEAP3基因表达水平与免疫浸润之间的相关性分析;

Fig.5风险评分在TCGA-GBM样本中的预后分析;

Fig.6分析危险评分与GBM病理分型和免疫浸润丰度之间的相关性;

Fig.7风险评分构建的列线图和在TCGA和CGCA队列中进行预后评价的校准图;

Table 2TCGA和CGCA数据集中GBM患者的临床特征;

Table 3危险评分和临床特征在TCGA和CGGA队列中的Cox回归分析;

四、复现步骤

Fig.1利用TCGA-GBM数据识别出差异表达的STEAP家族蛋白

仙桃工具复现

1

Fig.1(a)复现

2

Fig.1(b)复现

当前仙桃工具尚不支持TCGA表达谱的直接热图绘制,需要自行下载相应数据集的TPM数据,以进行热图绘制。GBM-TPM格式数据下载的位置:Fig.1 (a)复现的结果分下拉至底的即可看到“数据下载”(见下述截图),从百度云链接中找到GBM表达谱并下载,进而按照下述第二、三张截图的热图数据准备格式进行数据准备,最后上传至“复杂热图”选项中进行热图绘制。

示例数据格式:

3

此处利用上述的示例数据绘制类似Fig.1b的差异基因热图结果,数据准备仅需提供如下截图一的三种数据,即:热图(四种基因的TPM表达谱)、上注释(sle的分组信息)和颜色_上注释(各分组对应的颜色),对应于以下截图2、3、4;

热图:

上注释:

颜色_上注释:

4

按照下述截图中的顺序,依次点击、上传整理的表达谱,并将数据信息、聚类方式和方法按照截图中的信息进行设置,即可得到类似于Fig.1(b)的热图结果。

5

Fig.1的复现结果如下

Table 1利用TCGA-GBM数据进行STEAP蛋白家族的cox分析

仙桃工具复现

1

按照下述截图中的顺序,对Table1中的四个STEAP家族蛋白进行单因素和多因素Cox分析,为贴近Table1中的结果,在数据信息模块的方法分选择“去除重复样本”,从而获得比较理想的Cox结果。在第二张截图中选择word三线表下载。

2

复现结果展示

此处的结果复现与Table.1有所区别,其原因可归咎于不同时期下载的TCGA数据存在一定差异以及使用不同的数据格式(本文复现数据均为TPM格式,原文使用的数据格式为FPKM)。

Fig.2利用TCGA-GBM数据进行STEAP2和STEAP3基因的GSEA之GO富集

LinkedOmics数据库复现

1

2

按照下述截图中的顺序,依次选择肿瘤队列—TCGA-GBM、检索数据库—RNAseq数据库、选择检索数据库特征—目标基因(STEAP2、STEAP3)、选择目标数据库—TCGA-GBM、选择统计方法—Pearson相关性检验,点击提交。

3

提交之后获得如下截图结果,分别点击各结果均可出现下述Linkinterpreter模块,进而选择GSEA富集功能进行GO分析,其余参数默认,点击提交。

4

即可通过点击Bar plot中的每个条目,获得相对应的富集曲线图像;

Fig.3利用TCGA-GBM数据进行STEAP2和STEAP3基因表达水平与免疫浸润之间的相关性分析

Fig. 3a图复现-Timer数据库(https://cistrome.shinyapps.io/timer/)

1

按照下述截图所示,选择gene模块进行STEAP2、STEAP3与免疫细胞浸润的相关性分析,细胞类型为数据库默认的6种免疫细胞,点击提交,即可获得Fig.3a的图片。

2

Fig.3a的复现结果展示

Fig.3b图的复现-仙桃工具复现

1

按照下述截图中的顺序,先后键入STEAP2和STEAP3分子,利用算法参数里的Estimate算法分别进行与ImmuneScore、StromalScore和EstimateScore的相关性分析,从而得到Fig.3b的图像。

2

复现结果展示

Fig.5风险评分在TCGA-GBM样本中的预后分析

仙桃工具复现

1

作者将STEAP2和STEAP3表达量按照特定的公式进行预后模型构建,但仙桃工具目前只能进行单基因的预后模型构建,此处仅以单基因-STEAP2进行演示。按照如下截图的标注进行K-M曲线绘制,结果如第二张截图所示。

2

进一步绘制STEAP2的ROC曲线图像,在预测年限中可以自行决定,点击确认进行曲线绘制。

3

得到的最终复现结果如下

Fig.6分析危险评分与GBM病理分型和免疫浸润丰度之间的相关性

仙桃工具复现

1

仙桃工具的TCGA-GBM中没有GBM亚型分类的数据,无法复现Fig. 6 a-b;Fig. 6c的复现按照如下截图中的标注进行单基因-STEAP2表达含量的区别,第二张截图即为类似于Fig.6c结果的复现。

2

Fig.6e的结果复现

此处仍以STEAP2代表风险评分进行结果展示,按照如下截图分别进行Stromalscore、ImmuneScore和EstimateScore与STEAP2高、低表达的箱式图绘制。第二张图像即为复现的Fig.6e结果。

Fig.7风险评分构建的列线图和在TCGA和CGCA队列中进行预后评价的校准图

仙桃工具复现

1

此处的风险评分仍以STEAP2进行代替,由于目前数据库中缺乏Chemotherapy和radiotherapy的信息,此处复现只包含age、gender、IDH statue和STEAP2表达量。按照如下截图的标准进行列线图的绘制。

2

Fig.7a列线图复现结果如下

3

Fig.7b校准图复现

按照如下截图进行相应的参数设置,即可进行单基因的calibration图绘制。

4

选择calibration可视化选项,选中calibration分析结果,在预测年限中分别选中1年、2年和3年的校准图绘制,从而得到Fig.7b的复现结果。

Table 2TCGA和CGCA数据集中GBM患者的临床特征;

仙桃工具复现

1

此处仍以STEAP2代替危险评分进行临床特征表格的绘制。按照如下截图的标识进行STEAP2表达高、低与临床指标之间的相关性分析分析。

2

点击结果分的“word三线表下载”选项,从而得到Table 2的结果。

Table 3危险评分和临床特征在TCGA和CGGA队列中的Cox回归分析

仙桃工具复现

1

此处仍以STEAP2代替危险评分作为分析数据,按照如下截图的标注进行单、多因素cox回归分析。

2

点击结果的“word三线表”下载,从而得到类似于Table3的结果。

—END—

撰文丨Jerry

排版丨四金兄

主编丨小雪球

欢迎家关注解螺旋生信频道-挑圈联靠公号~

富士相机复古经典款怎么样

松下相机定焦头怎么手动变焦

笔记本怎么换到 hdmi

怎么闹大唐麻将

乒乓球胶皮一般灌什么油

星座排序有什么区别呢

属马取微博名怎么取的

路由器域名数字是什么符号

东莞快速seo优化服务

标签:生信 ste 数据库 仙桃市