评论

基于可解释性机器学习,中国学者开发出我国糖尿病患者心血管疾病风险预测模型

详情请点击右方:医院与科室的团体培训课程:“真实世界研究与预测模型”,欢迎洽谈

引言

今天为大家分享的是一篇二区的文章,作者以为期十年的回顾性队列数据,利用机器学习(ML)方法建立中国2型糖尿病(T2DM)患者初级保健管理的10年心血管疾病(CVD)风险预测模型。
先来看看本文的研究设计吧:
1.10年队列数据收集与处理:使用机器学习的缺失数据插补方法GAIN
2.开发10年心血管疾病风险预测模型
机器学习构建预测模型:用机器学习的方法,筛选预测因子、构建风险预测模型。
COX回归构建预测模型
3.预测模型验证
在队列水平、亚组水平和个体水平上分别进行;
区分度采用Harrell’s C统计量评价,校准度采用HL检验及校准曲线评估
4.建立风险预测工具
选择性能最好的风险预测模型,构建基于网络的计算中国T2DM患者10年心血管疾病发生概率(风险)的计算器。

2型糖尿病(T2DM)是一个全球性的重大公共卫生问题。多个国际糖尿病临床实践指南,均建议使用预测模型计算糖尿病患者的10年心血管风险

但证据表明,在西方人群中开发的模型,用于预测中国2型糖尿病患者在初级保健中所观察到的CVD事件方面是不准确的。研究者之前的系统综述显示,仍然缺乏针对中国2型糖尿病患者的10年心血管疾病风险预测模型。

近期,中国学者在期刊《Diabetes Obesity & Metabolism》(二区,IF=5.4)发表了一篇题为:“Development and validation of 10-year risk prediction models of cardiovascular disease in Chinese type 2 diabetes mellitus patients in primary care using interpretable machine learning-based methods”的研究论文,旨在填补研究空白,利用机器学习(ML)方法,为中国2型糖尿病(T2DM)患者建立初级保健管理的10年心血管疾病(CVD)风险预测模型。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

10年队列数据收集与处理

在这项为期10年的以人群为基础的回顾性队列研究中,纳入了2008年在公立初级保健诊所就诊、无心血管疾病或终末期肾脏疾病史的141416名年龄在18岁及以上中国T2DM患者,并随访至2017年12月。在9.75年的中位随访期间,32445名患者(22.9%)发展为心血管疾病。

本研究使用了在初级保健中常规可获得的潜在预测因子。除腰围(65.66%)、腰宽比(63.63%)和尿ACR(51.01%)外,所有预测指标的完成率均>80%。

对于缺失数据,研究者采用了一种新颖的基于机器学习的缺失数据插补方法GAIN(Generative Adversarial Imputation Nets ),在大数据临床研究中GAIN比链式方程多重插补(MICE)和missForest(一种基于随机森林的插补方法)更准确高效,最重要的是可以容忍高达50%的高缺失率

替换缺失值后,两种性别的开发和验证样本之间没有显著差异。

开发10年心血管疾病风险预测模型

由于女性和男性受试者的风险因素和这些因素的影响存在差异,因此针对两性分别开发了预测模型。在替换缺失值后,将研究数据按2:1的比例随机拆分为开发样本和验证样本两部分,以开发和验证性别风险预测模型。

1.机器学习构建预测模型

对于每个结果,使用极端梯度增强(XGB)建立了性别特异性风险预测模型。使用Shapley加性解释(SHAP)来评估ML模型中预测因子的重要性。并采用Boruta法选择显著性预测因子。

图1 基于机器学习建模的特征(预测器)重要性排序和特征选择

通过Boruta方法选择的所有显著预测因子都包含在初始ML模型1中。研究者绘制了每个重要预测因子与结果之间的关系,以可视化预测因子的影响。

由具有初级糖尿病医护经验的临床科学家,审查了所选预测因子的非线性和交互效应的临床相关性,以确保其临床意义。

图2 通过机器学习模型研究女性患者心血管疾病(CVD)的预测因子与相对风险之间的关系。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

图3 通过机器学习建模研究男性患者心血管疾病(CVD)预测因子与相对风险之间的关系

图4 通过机器学习建模对心血管疾病(CVD)风险的配对预测因子的交互作用

排除具有可疑或不确定非线性影响的预测因子,建立第二个模型(ML模型2),分别用于男性和女性患者。

2.cox回归构建预测模型

女性和男性CVD患者的Cox风险预测模型中每个模型显示了显著变量的系数。

表1 女性患者10年心血管疾病的Cox风险预测模型(仅展示女性)

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

预测因素:

对于两性而言,具有统计学意义的预测因素是年龄、吸烟状况、T2DM病程、收缩压、收缩压变异性、舒张压、BMI、TC / HDL-C比值、HbA1c变异性、尿ACR和eGFR。

在模型2中,

  • 腰围和HDL-C是女性患者的额外显著预测因子;
  • WHR和HbA1c是男性患者的额外显著预测因子;
  • 几个预测因子的二次项(如BMI²)和交互项(如年龄* SBP SD)显示出显著性。

模型3中的其他预测因子,包括胰岛素、降脂药物的使用和降压药物的使用,在两性中都是CVD的有统计学意义的预测因子。

预测模型验证

模型的验证在队列水平、亚组水平和个体水平上独立进行。

1.风险预测模型在队列水平的验证

将风险预测模型应用于整个验证样本,以检验其性能。使用Harrell’s C统计量测量的区分度,并绘制女性和男性患者的风险预测模型校准图。

√区分度

  • 在两性ML模型中,由于ML模型2更简单且在临床上更具相关性,因此选择ML模型2作为最终ML模型。
  • Cox模型中,无论男女,模型2和模型3的Harrell’s C统计量均显著高于模型1。模型2与模型3的Harrell’s C统计量在两性间的差异均不显著。因此,选择Cox模型2作为两者的最终Cox模型

表2 验证样本中风险预测模型的Harrell’s C统计量

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

总体而言,ML模型和Cox模型的判别性明显优于其他现有模型,ML模型的判别性优于Cox模型。

√校准度

而无论男性还是女性,ML模型的校准曲线最接近完美拟合线,显示出最佳的校准能力。

图5 对女性验证样本的CVD预测的机器学习(ML)模型、Cox模型和现有模型进行校准

2.风险预测模型在亚组水平的验证

随后,在年龄(<50岁、50 - 64岁、65-74岁、≥75岁)、合并症高血压和特征聚类(使用无监督ML方法识别)的亚组中对风险预测模型进行验证。

  • 在年龄亚组中,ML模型和Cox模型有相似的能力辨别能力和校准效果
  • 在有和无高血压亚组中,Cox和ML模型均具有良好的判别性和良好的校正性。不过Cox模型对无高血压亚组CVD风险的估计略高,而ML模型的校正曲线更接近理想拟合线,校正效果较好。
  • 使用聚类算法将验证样本中的患者分为7个稳定和可繁殖的亚组,分别为女性和男性患者。总体而言,ML模型在所有亚组中表现出比Cox模型更好的辨别能力。

3.风险预测模型在个体水平的验证

将模型应用于具有代表性的个体患者(原型)以检验其有效性。

建立风险预测工具

机器学习模型比Cox模型具有更好的判别性和校准性,因此研究选择机器学习模型作为中国初级保健T2DM患者10年心血管疾病风险预测模型的最终模型。

因此,选择性能最好的风险预测模型——机器学习模型,构建基于网络的计算中国2型糖尿病患者10年心血管疾病发生概率(风险)的计算器。

基于Cox模型的计算器也显示在同一网页上。

此外,由于基于回归的模型易于制定,因此基于Cox回归模型1开发了简化的列线图和彩色风险分层图,便于临床常规应用。

所有基于网络的计算器、预测因子和风险图表都可以向公众开放(https://www.hk-dm-cx-risk-engine.hku.hk/dm-complication)。

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

闲来郑语

由于基于回归的方法具有高透明度、良好的可解释性和较低的计算复杂性,已经成为风险预测模型开发的标准,但它们经常过度简化复杂的现实世界相关性,从而导致次优性能。

机器学习方法作为替代方法越来越受欢迎,因为它们具有更强的拟合数据和探索复杂交互的能力,从而带来更好的预测性能。

本研究使用机器学习方法开发了透明且可解释的模型,用于预测10年CVD风险。机器学习模型在队列层面、亚组层面和个体层面均表现出色优于Cox回归模型和其他现有模型

并且,本研究填补了研究空白,在选题和研究思路上,不失为一个好的借鉴!

(关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。)

详情请点击右方:优惠了!第2期GBD公共数据库挖掘1对1指导班,快速撰写SCI返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()