详情请点击右方：医院与科室的团体培训课程：“真实世界研究与预测模型”，欢迎洽谈

引言

今天为大家分享的是一篇二区的文章，作者以为期十年的回顾性队列数据，利用机器学习(ML)方法建立中国2型糖尿病(T2DM)患者初级保健管理的10年心血管疾病(CVD)风险预测模型。

先来看看本文的研究设计吧：

1.10年队列数据收集与处理：使用机器学习的缺失数据插补方法GAIN

2.开发10年心血管疾病风险预测模型

机器学习构建预测模型：用机器学习的方法，筛选预测因子、构建风险预测模型。

COX回归构建预测模型

3.预测模型验证

在队列水平、亚组水平和个体水平上分别进行；

区分度采用Harrell’s C统计量评价，校准度采用HL检验及校准曲线评估

4.建立风险预测工具

选择性能最好的风险预测模型，构建基于网络的计算中国T2DM患者10年心血管疾病发生概率(风险)的计算器。

2型糖尿病(T2DM)是一个全球性的重大公共卫生问题。多个国际糖尿病临床实践指南，均建议使用预测模型计算糖尿病患者的10年心血管风险。

但证据表明，在西方人群中开发的模型，用于预测中国2型糖尿病患者在初级保健中所观察到的CVD事件方面是不准确的。研究者之前的系统综述显示，仍然缺乏针对中国2型糖尿病患者的10年心血管疾病风险预测模型。

近期，中国学者在期刊《Diabetes Obesity & Metabolism》（二区，IF=5.4）发表了一篇题为：“Development and validation of 10-year risk prediction models of cardiovascular disease in Chinese type 2 diabetes mellitus patients in primary care using interpretable machine learning-based methods”的研究论文，旨在填补研究空白，利用机器学习(ML)方法，为中国2型糖尿病(T2DM)患者建立初级保健管理的10年心血管疾病(CVD)风险预测模型。

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

10年队列数据收集与处理

在这项为期10年的以人群为基础的回顾性队列研究中，纳入了2008年在公立初级保健诊所就诊、无心血管疾病或终末期肾脏疾病史的141416名年龄在18岁及以上中国T2DM患者，并随访至2017年12月。在9.75年的中位随访期间，32445名患者(22.9%)发展为心血管疾病。

本研究使用了在初级保健中常规可获得的潜在预测因子。除腰围(65.66%)、腰宽比(63.63%)和尿ACR(51.01%)外，所有预测指标的完成率均>80%。

对于缺失数据，研究者采用了一种新颖的基于机器学习的缺失数据插补方法GAIN（Generative Adversarial Imputation Nets ），在大数据临床研究中GAIN比链式方程多重插补（MICE）和missForest（一种基于随机森林的插补方法）更准确高效，最重要的是可以容忍高达50%的高缺失率。

替换缺失值后，两种性别的开发和验证样本之间没有显著差异。

开发10年心血管疾病风险预测模型

由于女性和男性受试者的风险因素和这些因素的影响存在差异，因此针对两性分别开发了预测模型。在替换缺失值后，将研究数据按2：1的比例随机拆分为开发样本和验证样本两部分，以开发和验证性别风险预测模型。

1.机器学习构建预测模型

对于每个结果，使用极端梯度增强(XGB)建立了性别特异性风险预测模型。使用Shapley加性解释(SHAP)来评估ML模型中预测因子的重要性。并采用Boruta法选择显著性预测因子。

图1 基于机器学习建模的特征(预测器)重要性排序和特征选择

通过Boruta方法选择的所有显著预测因子都包含在初始ML模型1中。研究者绘制了每个重要预测因子与结果之间的关系，以可视化预测因子的影响。

由具有初级糖尿病医护经验的临床科学家，审查了所选预测因子的非线性和交互效应的临床相关性，以确保其临床意义。

图2 通过机器学习模型研究女性患者心血管疾病(CVD)的预测因子与相对风险之间的关系。

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

图3 通过机器学习建模研究男性患者心血管疾病(CVD)预测因子与相对风险之间的关系

图4 通过机器学习建模对心血管疾病(CVD)风险的配对预测因子的交互作用

排除具有可疑或不确定非线性影响的预测因子，建立第二个模型(ML模型2)，分别用于男性和女性患者。

2.cox回归构建预测模型

女性和男性CVD患者的Cox风险预测模型中每个模型显示了显著变量的系数。

表1 女性患者10年心血管疾病的Cox风险预测模型（仅展示女性）

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

预测因素：

对于两性而言，具有统计学意义的预测因素是年龄、吸烟状况、T2DM病程、收缩压、收缩压变异性、舒张压、BMI、TC / HDL-C比值、HbA1c变异性、尿ACR和eGFR。

在模型2中，

腰围和HDL-C是女性患者的额外显著预测因子；
WHR和HbA1c是男性患者的额外显著预测因子；
几个预测因子的二次项(如BMI²)和交互项(如年龄* SBP SD)显示出显著性。

模型3中的其他预测因子，包括胰岛素、降脂药物的使用和降压药物的使用，在两性中都是CVD的有统计学意义的预测因子。

预测模型验证

模型的验证在队列水平、亚组水平和个体水平上独立进行。

1.风险预测模型在队列水平的验证

将风险预测模型应用于整个验证样本，以检验其性能。使用Harrell’s C统计量测量的区分度，并绘制女性和男性患者的风险预测模型校准图。

√区分度

在两性ML模型中，由于ML模型2更简单且在临床上更具相关性，因此选择ML模型2作为最终ML模型。
Cox模型中，无论男女，模型2和模型3的Harrell’s C统计量均显著高于模型1。模型2与模型3的Harrell’s C统计量在两性间的差异均不显著。因此，选择Cox模型2作为两者的最终Cox模型。

表2 验证样本中风险预测模型的Harrell’s C统计量

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

总体而言，ML模型和Cox模型的判别性明显优于其他现有模型，ML模型的判别性优于Cox模型。

√校准度

而无论男性还是女性，ML模型的校准曲线最接近完美拟合线，显示出最佳的校准能力。

图5 对女性验证样本的CVD预测的机器学习(ML)模型、Cox模型和现有模型进行校准

2.风险预测模型在亚组水平的验证

随后，在年龄(<50岁、50 - 64岁、65-74岁、≥75岁)、合并症高血压和特征聚类(使用无监督ML方法识别)的亚组中对风险预测模型进行验证。

在年龄亚组中，ML模型和Cox模型有相似的能力辨别能力和校准效果
在有和无高血压亚组中，Cox和ML模型均具有良好的判别性和良好的校正性。不过Cox模型对无高血压亚组CVD风险的估计略高，而ML模型的校正曲线更接近理想拟合线，校正效果较好。
使用聚类算法将验证样本中的患者分为7个稳定和可繁殖的亚组，分别为女性和男性患者。总体而言，ML模型在所有亚组中表现出比Cox模型更好的辨别能力。

3.风险预测模型在个体水平的验证

将模型应用于具有代表性的个体患者(原型)以检验其有效性。

建立风险预测工具

机器学习模型比Cox模型具有更好的判别性和校准性，因此研究选择机器学习模型作为中国初级保健T2DM患者10年心血管疾病风险预测模型的最终模型。

因此，选择性能最好的风险预测模型——机器学习模型，构建基于网络的计算中国2型糖尿病患者10年心血管疾病发生概率(风险)的计算器。

基于Cox模型的计算器也显示在同一网页上。

此外，由于基于回归的模型易于制定，因此基于Cox回归模型1开发了简化的列线图和彩色风险分层图，便于临床常规应用。

所有基于网络的计算器、预测因子和风险图表都可以向公众开放(https://www.hk-dm-cx-risk-engine.hku.hk/dm-complication)。

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

闲来郑语

由于基于回归的方法具有高透明度、良好的可解释性和较低的计算复杂性，已经成为风险预测模型开发的标准，但它们经常过度简化复杂的现实世界相关性，从而导致次优性能。

机器学习方法作为替代方法越来越受欢迎，因为它们具有更强的拟合数据和探索复杂交互的能力，从而带来更好的预测性能。

本研究使用机器学习方法开发了透明且可解释的模型，用于预测10年CVD风险。机器学习模型在队列层面、亚组层面和个体层面均表现出色，优于Cox回归模型和其他现有模型。

并且，本研究填补了研究空白，在选题和研究思路上，不失为一个好的借鉴！

（关注“医学论文与统计分析”公z号回复 “ pdf” 即可获得文献PDF等资料。）

详情请点击右方：优惠了！第2期GBD公共数据库挖掘1对1指导班，快速撰写SCI返回搜狐，查看更多

责任编辑：

医学论文与统计分析

基于可解释性机器学习，中国学者开发出我国糖尿病患者心血管疾病风险预测模型

引言

10年队列数据收集与处理

开发10年心血管疾病风险预测模型

预测模型验证

建立风险预测工具

闲来郑语