目的: 探讨基于机器学习建立人类免疫缺陷病毒(human immunodeficiency virus,HIV)感染并发非结核分枝杆菌(nontuberculous mycobacteria,NTM)病的预测模型,以期为临床早期识别HIV感染并发NTM病提供依据。方法: 回顾性分析2021年8月至2024年8月在昆明市第三人民医院住院治疗的4475例HIV感染患者为研究对象,依据纳入和排除标准,将77例HIV感染并发NTM病患者为观察组,262例HIV感染未并发NTM病患者为对照组。收集患者的临床资料,应用Borderline SMOTE处理样本量组间不平衡,分别采用支持向量-递归特征消除(support vector machine recursive feature elimination,SVM-RFE)、Lasso回归、随机森林筛选因子。变量间进行多重共线性检验,以方差膨胀因子(VIF)、容差表示。基于logistic回归拟合预测模型,以数学方程呈现。采用受试者工作特征曲线(ROC曲线)、临床决策曲线、临床影响曲线、校准曲线及外部验证评价模型。结果: 339例研究对象以8∶2随机分为训练集272例和验证集67例。训练集中对照组208例,观察组64例,Borderline SMOTE处理后对照组208例,观察组202例。采用SVM-RFE进行因子重要性排序,选取前5个因子[人类免疫缺陷病毒核糖核酸(HIV-RNA)、T淋巴细胞(CD45+)、C-反应蛋白(CRP)、降钙素原(PCT)、血红蛋白(HB)],建立模型1:Logit(P):Y=3.22+2.4×HIV-RNA(1或0)-0.002×CD45++0.021×CRP+0.908×PCT-0.037×HB,P=1/(1+e-Y)(Y:预测指数,P:预测概率);Lasso回归筛选出最佳的5个指标,即L、HB、CD45+、CRP、HIV-RNA,建立模型2:Logit(P):Y=2.940+2.57×HIV-RNA(1或0)-0.002×CD45++0.0240×CRP-0.823×L-0.034×HB,P=1/(1+e-Y);随机森林指标重要性排序显示:名列前5者为CD45+、淋巴细胞、HIV-RNA、单核淋巴细胞比、预后营养指数,建立模型3:Logit(P):Y=2.214+2.350×HIV-RNA(1或0)-0.002×CD45++0.702×MLR-0.681×L-0.080×PNI,P=1/(1+e-Y)。模型1、模型2、模型3对HIV感染并发NTM病预测的曲线下面积(AUC)分别为0.944(95%CI:0.923~0.965)、0.944(95%CI:0.922~0.965)、0.929(95%CI:0.904~0.954),敏感度分别为87.1%、90.6%、94.6%,特异度分别为91.3%、89.4%、81.2%,约登指数分别为0.784、0.800、0.758,阳性似然比分别为10.010、8.547、5.028,阴性似然比分别为0.141、0.105、0.066。校准曲线均显示,3个模型预测与实际结果趋于一致,且差异无统计学意义(P>0.05)。3个模型的临床决策曲线及影响曲线均显示,在以最佳截断值为阈概率下,3个模型都能使患者获益。外部验证显示,3个模型在验证集中也有较好的预测价值,即稳定性良好。结论: 本研究建立的3个模型都有较高的预测价值,具有良好的区分度、准确度、临床适用性和稳定性。