尔云间 一个专门做科研的团队
关注我们
做了生信分析,拿到一堆数据,看不懂图怎么办?
火山图、热图、散点图、箱线图、瀑布图···这么多类型的图都咋看?
风险模型预后评估图、GO-KEGG富集分析图、GSEA富集分析图···这些图又代表了什么结果?
小云新栏目【小云解读生信图】上线以后,讲了火山图、热图、相关性散点图、GSEA图、箱线图···,阅读反馈都还不错
感谢粉丝朋友们的关注,小云的新栏目可以继续更新
应粉丝朋友的要求,这次讲讲ROC曲线图
ROC曲线图可是评价预后/诊断模型的预测性能的必备分析,经常跟K-M生存曲线图手拉手出现,基本上只要构建模型就会用到ROC曲线分析,生信文章中出现频率相当高,赶紧学起来吧!
话不多说,先看图,这应该是大家最常见到的ROC曲线图
1. 什么是ROC曲线图?
ROC曲线全称为Receiver Operating Characteristic Curve,受试者工作特征曲线。由于可以反映模型在选取相同阈值或不同阈值时候的模型敏感性和准确性的走向,也将该曲线称为感受性曲线(sensitivity curve)。
2. ROC曲线图怎么用?
1)评价某个或多个指标(比如建立的模型或多个关键基因)对两类测试者(如患者和正常人)分类及诊断的效果。通过绘制某个指标或多个指标的ROC曲线并计算各自的AUC,就可以知道哪个指标的分类/诊断效果更好;(小云划重点:这是ROC曲线在目前生信文章里最主要的作用,也是用的最多的功能哦)
2)寻找最佳的指标阈值(也就是cutoff值)使得分类效果最佳。
3. ROC曲线图怎么看?
1) 先介绍几个小概念:
真阳性率(TPR):所有实际为阳性的样本被正确地判断为阳性的个数与所有实际为阳性的样本个数之比(也就是真的是真的),TPR又称为Sensitivity(灵敏度);假阳性概率(FPR):所有实际为阴性的样本被错误地判断为阳性的个数与所有实际为阴性的样本个数之比(即假的误认为是真的,被误报了),FPR等于1-Specificity(特异度);Specificity(特异度):所有实际为阴性的样本被正确地判断为阴性的个数与所有实际为阴性的样本个数之比(也就是假的是假的),Specificity又称为真阴性率(TNR);约登指数(Youden Index):也称正确指数,其反映了区分真正的患者与非患者的总能力。Youden index = Sensitivity + Specificity − 1=TRP-FRP,范围取值介于0-1之间,约登指数越大,表示分类模型性能越好。约登指数最大值也就对应着该方法的最佳诊断临界值,即cutoff值;AUC (Area under Curve):ROC 曲线下的面积,介于 0.1 和 1 之间,作为数值可以直观的评价模型的预测准确性,AUC值越大预测准确率越高。
2) 坐标轴:
横坐标1-Specificity(FPR)是特异性,即假阳性率(False Positive Rate, FPR)纵坐标Sentivity(TPR) 是敏感性,即真阳性率(True Positive Rate, TPR)ROC曲线图是反映敏感性与特异性之间关系的曲线,X轴越接近零准确率越高,Y轴越大代表准确率越好。
3)AUC判断预测性能:
1) 理论上来说如果AUC值越接近于1,说明曲线下方面积越大,表明预测模型的准确率越高,反之则说明预测模型的准确率较低。如果曲线越接近左上角,即横坐标越小,纵坐标越大,表明预测预测模型的准确率越高。
4)结果示例
下图中表示预测模型的1、3、5年的ROC曲线,AUC值均大于/等于0.8,表示预测准确性良好,其中第3和5年准确率最高。
ROC曲线图的解读有没有让生信小白们豁然开朗呀?还有问题的话欢迎给小云留言哦
小云有话说
如果时间和精力有限或者缺乏相关经验,对生信分析和思路设计有兴趣,云生信为您提供免费思路评估等,欢迎咨询!