斯坦福AI模型利用睡眠数据预测100多种疾病风险-新睡眠-数字睡眠生态创新平台

斯坦福AI模型利用睡眠数据预测100多种疾病风险

2026-01-12

斯坦福医学院的研究人员及其团队开发了一款名为SleepFM的人工智能模型，能够利用一晚的睡眠生理数据，预测超过100种健康状况的风险。

SleepFM是在近600,000小时的多导睡眠监测（polysomnography）数据上训练而成，这些数据来自65,000名参与者。多导睡眠监测被公认为睡眠研究的黄金标准，通过多种传感器记录脑电活动、心脏活动、呼吸信号、肢体动作、眼动等，是对患者整夜睡眠的全面评估。

“在研究睡眠的过程中，我们记录了极其丰富的生理信号。”Emmanuel Mignot, MD, PhD，睡眠医学Craig Reynolds讲席教授、研究的共同通讯作者表示，“受试者在实验室整夜静止，我们能收集到的数据量极大，非常丰富。”

然而，当前的睡眠研究和临床实践仅使用了其中一小部分数据。借助人工智能，研究者得以解析大规模数据中的潜在模式，这也是首次有研究利用AI系统分析如此规模的睡眠数据。

James Zou, PhD，生物医学数据科学副教授、研究共同通讯作者指出：“从AI研究的角度看，睡眠领域相对较少关注。其他AI工作大多集中在病理学或心脏病学，而睡眠作为生活的重要组成部分，却很少被系统研究。”

研究团队基于睡眠数据构建了一个基础模型（foundation model），这种模型能够在海量数据上自我训练，并将学习到的知识应用于多种任务。类似ChatGPT的大型语言模型就是训练在大量文本上的基础模型。

SleepFM训练使用的585,000小时多导睡眠监测数据来自多家睡眠诊所，数据以五秒为单位划分，类似大型语言模型中的单词，用于模型学习。

“SleepFM本质上在学习睡眠的语言。”Zou表示。模型能够同时处理脑电图（EEG）、心电图（ECG）、肌电图（EMG）、脉搏和呼吸气流等多种信号，并识别它们之间的关联。

为了实现这一点，研究者开发了名为“leave-one-out对比学习”的新训练方法，该方法在训练时隐藏一种信号模态，让模型根据其他信号重建缺失部分。“我们的一项技术突破在于如何协调不同数据模态，使它们能够共同学习同一种语言。”Zou补充道。

训练完成后，研究团队对模型进行微调，用于不同任务。首先是标准睡眠分析，包括睡眠阶段分类和睡眠呼吸暂停严重程度诊断。SleepFM的表现与当前最先进模型相当或更优。

随后，研究者挑战更具野心的目标：根据睡眠数据预测未来疾病发生风险。为实现这一点，他们将多导睡眠监测数据与参与者长期健康记录匹配，数据覆盖部分患者长达25年的随访。

斯坦福睡眠医学中心由已故睡眠医学奠基人William Dement, MD, PhD于1970年创立。用于训练SleepFM的最大患者队列约35,000人，年龄从2岁到96岁不等，数据采集时间为1999年至2024年。研究者将患者的多导睡眠监测数据与电子健康记录匹配，获得丰富随访信息。

SleepFM分析了健康记录中的1,000多种疾病类别，发现其中130种可以通过睡眠数据进行合理预测。模型在预测癌症、孕期并发症、循环系统疾病和精神障碍方面表现尤为突出，C指数（C-index）均高于0.8。

C指数是衡量预测模型性能的指标，表示模型对任意两位个体中哪一位更可能先发生事件的预测准确率。“C指数为0.8意味着模型预测与实际发生情况一致的概率为80%。”Zou解释道。

SleepFM在预测帕金森病（C-index 0.89）、痴呆（0.85）、高血压性心脏病（0.84）、心肌梗塞（0.81）、前列腺癌（0.89）、乳腺癌（0.87）以及死亡（0.84）方面表现突出。

“令人惊喜的是，模型在多种疾病上的预测均具有参考价值。”Zou表示。即使是C指数约为0.7的模型，如预测患者对不同癌症疗法反应，也已在临床中证明具有实用价值。

研究团队正在探索如何进一步提升SleepFM预测能力，包括整合可穿戴设备数据，并分析模型做出具体预测时参考了哪些特征。

研究者指出，尽管心脏信号在心血管疾病预测中更重要，脑电信号在精神疾病预测中更关键，但多模态数据结合的整体预测效果最佳。“预测疾病时，我们得到的信息量最大的是对比不同通道。若身体信号不同步——比如大脑显示睡眠状态而心脏却活跃——往往预示潜在健康风险。”Mignot指出。

原标题：斯坦福AI模型利用睡眠数据预测100多种疾病风险

本文转载于微信公众号：医健网（ID：gh_f5d10c756211），转载引用请注明原出处

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

中国睡眠研究会官方指导