国家市场监督管理总局业务主管English Version
人工智能大数据与机器学习在预测人群营养素水平中的应用
发布日期:2020-11-18
    作者:杨燕1,12、鲍慧慧2,12、秦献辉3,12、刘理顺4,5,12、宋昀5,12、王滨燕5,6,12、凌文华1,12、孙贵范7,12、杨进刚8,12、刘菊英9、石汉平10,12、徐希平3,4,12、孙宁玲11,12*、程晓曙2,12*
 
       1中山大学公共卫生学院 2南昌大学第二附属医院 3 南方医科大学南方医院 4中国农业大学营养与健康学院(北京食品营养与人类健康高精尖创新中心) 5深圳市长卿医学研究院 6安徽医科大学安徽省生物医学研究所 7中国医科大学公共卫生学院 8中国医学科学院阜外心血管医院 9 中南大学湘雅医院 10北京大学世纪坛医院 11北京大学人民医院 12中国营养保健食品协会精准营养专业委员会通讯作者* 程晓曙 南昌大学第二附属医院教授 中国营养保健协会精准营养专委会候任主任委员,邮编:南昌,330006, Email:xiaoshumenfan@126.com* 孙宁玲 北京大学人民医院教授 中国营养保健协会精准营养专委会主任委员,邮编:北京,100073, Email:nlsun@263.net

       通讯作者

       * 程晓曙 南昌大学第二附属医院教授 中国营养保健协会精准营养专委会候任主任委员,邮编:南昌,330006, Email:xiaoshumenfan@126.com

       * 孙宁玲 北京大学人民医院教授 中国营养保健协会精准营养专委会主任委员,邮编:北京,100073, Email:nlsun@263.net

       随着社会经济水平提高,居民健康问题越来越得到全球各国的广泛关注和重视。美国卫生和公众服务部近期发布了“健康全民2030”的目标[1],并提出了包含提高民众健康素养在内的六个目标。同期,聚焦营养与全民健康的密切联系,在2020年5月份出台了《美国国立卫生研究院 2020-2030营养研究战略计划》[2],并正式提出“精准营养”的概念。“美国精准营养计划”主要提出了4大战略目标,分别从营养的基础研究领域、膳食模式对健康作用的探讨、营养在整个生命周期中作用变化,以及提高食品医用价值来减轻临床负担等方面提出了亟待解决的营养科学领域问题。其中,强调了亟待开发精准营养研究新工具、摸索膳食营养评估新方法、开发基于机器学习和人工智能算法——预测和验证营养补充剂使用的新型评价工具,以实现更精准化和个性化营养状态评估、营养干预方案推荐。

       对中国而言,全民营养健康是落实《“健康中国2030”规划纲要》、实现全面小康的重要环节。而我国目前仍面临居民营养不足与过剩并存、营养相关疾病多发、营养健康生活方式尚未普及等问题,是影响国民健康的重要因素。为此,国家制定了《健康中国行动(2019—2030年)》,指出积极应对当前突出健康问题,采取有效干预措施,努力使群众不生病、少生病,提高生活质量,延长健康寿命。营养状况的改善成为全面健康的焦点和落脚点之一,是以较低成本取得较高健康绩效的有效策略,是解决当前健康问题的现实途径。《国民营养计划2017-2030》的提出,进一步为中国居民营养健康问题的解决提供了政策保障和方向指引。这一计划提出,截止2030年,实现对孕妇、婴幼儿、老年人等弱势群体,以及广大居民突出的营养健康问题能有所改善。

       我国居民普遍存在维生素、矿物质缺乏的风险,2010-2012年我国全国调查显示96.6%的人群有膳食钙摄入量不足的风险,90.2%的人有维生素B2的摄入不足,77%的有维生素A摄入不足[3]。尽管膳食补充可以实现营养水平的改善,作为人体必需营养素的重要来源之一,膳食补充剂可能是个不错的选择。但目前我国膳食补充剂服用率低(有全国性调查表示只有约0.71%的参与者有过服用膳食补充记录剂[4]),且现有营养素补充推荐和配套产品可能无法满足个体精准化需求,亟待以大数据的为依托,并结合先进的人工智能算法,来为从营养的精准评估和推荐等环节实现我国居民营养状态改善提供新策略。

       因此,鉴于我国居民营养状况不佳现状,存在膳食补充剂服用率不足和服用剂量又过量并存的多重营养问题,实现精准评估个体的营养状态是解决我国居民目前营养困境的第一步。

       由于传统的临床检测复杂、费时,价格昂贵,限制了其在实际中的运用。本文就基于多个流行病队列研究的几十万数据分析,利用目前全球前沿的机器学习方法,构建的“精准营养预测模型”,简单介绍并阐释其在实践中运用的价值,以及其在未来对营养相关的慢病管理的重大意义。

        1.基于机器学习的人体营养素水平预测分析流程

       机器学习指研究如何从数据中学习建立有效模型,进而对未来作出预测的方法[5]。换句话说,机器学习就是使用正确恰当的特征,构建或筛选出正确恰当的模型,以完成既定的预测任务。因此,明确目标、特征及模型,是开展机器学习的三大基础。在营养素水平预测中也是同理。

        1.1目标

       明确任务目标,是机器学习的关键,指导我们选择合适的算法。在营养素水平预测领域,任务目标就是对人体营养素水平做出预测。对于已明确目标的数据,通常使用的是“有监督”的机器学习,也就是因为训练数据中含有目标变量(即人体真实的营养素水平),我们模型输出的是对目标变量的直接估计,或者是提供关于目标变量最可能的估计。在监督式学习中,对于定性问题(如预测维生素D的状态)可用分类算法,对于定量分析(如预测人体血液硒的水平)可用回归方法。

        1.2 特征

       在建立预测模型之前,通常已经收集到了大量的数据集,这些数据集可能存在大量的特征,特征之间可能存在相关性,还有可能存在冗余的特征。为了提升建模效率,获取区分度更好的特征,需要对数据集进行降维处理,以得到最优子集,这个过程也被叫作特征选择。

       特征选择的常用方法通常可分为三类:直接选择法、单变量特征选择、多变量特征选择。直接法就是我们通过流行病学调查以及以往的文献,确定影响人体营养素水平的一些关键变量。一般来说直接法是指我们对变量所做的简单预处理。单变量特征选择,是对每个特征依次进行评价,然后排除不满足要求的特征,以达到筛选特征的目的。常用的算法还包括:Pearson 相关系数法、距离相关系数法、单因素方差分析法、信息增益法、卡方检验法、Gini 系数法。

       如著名的集成算法XGBoost[6]就是基于信息增益进行特征的选择。多变量特征选择是一次性针对多个变量,通过评价各个组合的拟合得分,最终选择最优的特征组合,作为多变量特征的筛选结果。例如传统的逐步回归,机器学习中的遗传算法等都是通过多变量特征选择变量。

       1.3 建模

       监督学习和无监督学习是机器学习的两种基本方法[7]。在机器学习中,我们通常处理的是目标变量和预测变量。目标变量就是我们的人体的营养素水平,预测变量就是我们筛选的影响营养素的一些因素(即上述的特征的选择)。监督学习包括目标变量及若干预测变量的使用,将这些预测变量放入模型中后可以通过系统预测目标,称之为预测模型化。无监督学习没有目标变量。在营养素水平预测方面使用较多的是监督学习,常用的如弹性网络、随机森林、支持向量机 (Support Vector Machine, SVM)等。训练模型前,一般把数据集分为训练集和测试集,然后利用训练集不断的对模型超参调优,确定合理的模型参数。模型建好后,需利用测试数据对模型进行测试和评估,测试模型的泛化能力。
图片1
图1. 营养素机器预测流程

       2.基于机器学习的人群营养素诊断及预测

       机体维生素和矿物质含量对于维持机体健康、预防多种疾病具有至关重要的作用。目前,维生素D的缺乏和不足是一个全球性的健康问题, 其缺乏不仅影响肌肉骨骼健康,还广泛影响多种急性和慢性疾病,如某些癌症、自身免疫性疾病、2型糖尿病、心血管疾病、神经认知障碍等[8-10]。硒也是一种具有重要生理功能的营养素,具有抗氧化的特性,可以保护机体免受自由基和致癌因子的作用,但其在缺乏和有毒剂量间的安全范围相对狭窄[11-13]。实现对机体营养素水平的预测评估对于改善公众健康具有重要意义。

       随着大数据和人工智能的发展日益成熟,机器学习逐渐延伸到医疗卫生领域。基于机器学习算法,利用个体问卷信息和实验室数据构建评估模型,可实现对个体营养素水平的智能预测及诊断。目前结合流行病学数据、营养干预数据和膳食营养调查,建立机器学习评估模型,可有效评估人群中单一营养素的水平,通过模型预测实现单一营养素补充的个性化推荐。

       2.1 维生素D水平的诊断以及预测

       维生素D是一种脂溶性维生素,它能够促进钙的吸收和骨骼矿化[14],在肌肉、免疫系统和心血管系统等方面亦有调节作用[15, 16]。维生素D 缺乏是全球范围内需要共同面对的公共卫生问题[17]。全球约有10亿人维生素D缺乏和不足[18-20],发展中国家的形势更为严峻[21]。先前合作团队在中国卒中一级预防研究基础上,开展进一步巢式病例对照研究(CSPPT-NCC),探索了维生素D与癌症风险的关系;结果表明维生素D与人群癌症风险密切相关,中国的高血压人群中,较低的维生素D患者有更高的总癌症发生风险[22]。目前维生素D评价指标为血清25-羟基维生素D [23],难以大范围覆盖全人群,因此利用机器学习算法构建预测体内水平,实现简单、科学地评估个体的维生素D营养水平,具有重要意义。

       我们利用合作团队先前探索的中国卒中一级预防研究:巢式病例对照研究(CSPPT-NCC)人群数据,利用机器学习算法中的弹性网络算法建模,预测对人群维生素D的缺乏情况,其中女性人群的分类正常率最高达70.23%,AUC最高为0.740;女性人群的分类正常率最高达75.04%,AUC最高为0.762。
 
图片2
图片3

       2.2 血浆硒水平的诊断和预测

       既往合作团队在脑卒中一级预防研究(CSPPT)中探索了血浆硒水平与新发糖尿病之间的关系,结果表明血浆硒含量高(≥94.8ng/mL)与高血压患者新发糖尿病的风险增加有关[24]。本研究团队以CSPPT数据为基础,利用了XGboost算法建模以预测人群中血浆硒水平。在男性中,所构建的预测模型在训练集中的均方误差(Mean Squared Error,MSE)为328 ng2/mL2,在验证集中的MSE为350 ng2/mL2;在女性中,所构建的预测模型在训练集中的MSE为287 ng2/mL2,在验证集中的MSE为298 ng2/mL2。在男性和女性模型中,舒张压、年龄、季节和BMI为影响最重要的四个因素。
QQ截图20201118110706
  图1.基于XGboost算法预测血浆硒水平真实值与预测值散点图
 
QQ截图2

图2.基于XGboost算法预测血浆硒水平模型变量评分

       2.3 血浆多种维生素水平的诊断和预测

       维生素是可以维持人体健康,一般在体内不能够合成或者合成量比较少,不能够满足人体基本需要,所以往往存在多种维生素缺乏的状况。目前,我国多数人群服用复合维生素,而复合维生素的成分及含量往往较为固定,不能够根据个体的缺乏情况进行精准的维生素补充。机器学习算法,通过对已知人群特征等预测变量并调优参数进而预测多种营养素水平。

       我们利用合作团队先前探索的中国卒中一级预防研究:将人群中超过三种及以上营养素缺乏或过量定义为营养素不均衡,采用随机森林法构建模型并用K折交叉法验证模型。经过算法调优后,结果显示:其中男性人群的AUC为0.657;女性人群的AUC为0.591。弹性网络模型给出了不同性别前10位变量重要性排序(见图4c,4d)。
 
QQ截图3
性别变量重要性排名

       3.总结与展望

       全球普遍存在人体微量营养素不均衡现象,而营养素不均衡是导致生长不良,智力障碍,围产期并发症以及发病率和死亡率增加的常见原因,因此进行营养干预至关重要[27]。机器学习是人工智能领域中一种新方法,为精准预测提供了新的研究思路和方法,可以对大量输入数据的特征标识进行有效学习。机器学习算法有传统的逻辑回归、决策树,以及在此基础上延伸出的XGBoost、弹性网络、SVM等。已有学者利用这些模型开展疾病预测研究,并且取得了较好效果。

       弹性网络为整合了的套索回归和岭回归的正则回归模型。本研究中利用这一方法建立的男性模型和女性模型中,季节均为影响人群维生素D水平的最大的因素,这与既往研究结果一致[21, 23, 28];然而男女模型中其他变量的排名和评分各有差异,提示不同性别人群的维生素D缺乏或过剩风险各异,进而有必要采取精准营养评价和个性化补充干预的策略。一项欧洲的病例-队列研究表明,在心脑血管高风险人群中,弹性网络法可以准确地预测二型糖尿病的发生风险预测,AUC达到0.875[29]。本研究通过参数优化、增加预测变量及提高样本量完善了这组模型,进一步提升了弹性网络法建立的整合模型对人群维生素水平的预测价值及其推广价值。

       XGBoost模型的实际应用已经有很多方面的实例,基于XGBoost算法可以精准地预测疾病发生风险及其对应的营养素水平[30, 31]。Dong等人[31]采用XGBoost模型预测孕妇25-羟基维生素D浓度,训练集的AUC为0.828,测试集的AUC为0.807,预测效果较好。本研究针对预测模型普遍存在预测值低于真实值的情况,通过进一步优化参数和增加数据量,使模型更加完善,以更好地对人群中血浆硒水平进行预测评估。

       本研究首次应用机器学习算法预测了多种维生素水平,男性人群及女性人群的AUC分别为0.657和0.591,因此机器学习算法预测性能仍有待于进一步优化。本研究中将三种及以上的营养素缺乏或过剩定义为营养素不均衡,有关多维营养素不均衡的标准仍需要进一步研究探讨。最后,本研究采用弹性网络预测模型,在预测模型的选择及调优参数上,还需要根据数据集特征开展进一步探索,用以训练出预测多维营养素水平性能最优的模型。

       基于XGBoost和弹性网络的机器学习模型预测营养素水平,可以为营养素的个性化推荐提供更深层次的理论基础和特征变量评价。但是本研究目前仅限于中国人群,由于营养素吸收代谢可能具有种族的差异性,从而使本研究的结果外推到其他种族的能力受限。因此,需要在更大样本量的多种族人群中继续做进一步研究;其次,本研究样本量较小,结果的应用价值有待于在更大样本的、多中心的外部人群中加以验证,以保证模型的准确性与可靠性;最后,本研究预测变量的维度和数量有限,在一定程度上限制了机器学习算法的优势;因此,仍需要纳入更多变量,进一步优化模型。

       美国“精准营养计划”指出要基于机器学习和人工智能算法开发新工具,来实现精准化和个性化的营养状态评估和营养干预。通过健康大数据的不断积累,能够让机器学习精度不断提升和优化,实现“积累-迭代-引领-回馈”的良性循环,不断为人民提供更先进更科学的营养评估模型。随着中国大数据相关的基础设施和评价技术的普及,采用机器学习算法构建的预测模型,不仅可以提升对患者的精准风险分层与管理、优化医疗资源配置,而且还可以进行自我营养管理。因此人工智能算法在指导国人个性化营养补充方面具有广阔的应用前景。

       致谢

       为本文的算法研究和论文撰写方面做出贡献的还有汪卓、徐平、陈弘、魏亚萍、徐斌、卢云海、崔志欣,在此一并致以感谢!


 
  参考文献
 
       1.Nicole Lou. Healthy People 2030: HHS Prioritizes Socioeconomic Disparities, Overall Well-Being— New national health goals for the next decade. MedPage Today August 20, 2020.

       2.Rodgers, G.P. and F.S. Collins, Precision Nutrition-the Answer to "What to Eat to Stay Healthy". JAMA, 2020.

       3.Yu, D., et al., [Trends of energy and nutrients intake among Chinese population in 2002-2012]. Wei Sheng Yan Jiu, 2016. 45(4): p. 527-533.

       4.Gong, W., et al., Nutrient Supplement Use among the Chinese Population: A Cross-Sectional Study of the 2010?2012 China Nutrition and Health Surveillance. Nutrients, 2018. 10(11).

       5.王欢, et al., 学龄儿童膳食模式及其影响因素的研究(英文). 营养学报, 2014. 36(06): p. 535-541+626.

       6.Gibson, R.S. and C. Hotz, Dietary diversification/modification strategies to enhance micronutrient content and bioavailability of diets in developing countries. Br J Nutr, 2001. 85 Suppl 2: p. S159-66.

       7.杨盛春 and 贾林祥, 神经网络内监督学习和无监督学习之比较. 徐州建筑职业技术学院学报, 2006(03): p. 55-58.

       8.Hossein-nezhad, A. and M.F. Holick, Vitamin D for health: a global perspective. Mayo Clin Proc, 2013. 88(7): p. 720-55.

       9.Zhang, R. and D.P. Naughton, Vitamin D in health and disease: current perspectives. Nutr J, 2010. 9: p. 65.

       10.Holick, M.F., The vitamin D deficiency pandemic: Approaches for diagnosis, treatment and prevention. Rev Endocr metab Disord, 2017. 18(2): p. 153-165.

       11.Tapiero, H., D.M. Townsend, and K.D. Tew, The antioxidant role of selenium and seleno-compounds. Biomed Pharmacother, 2003. 57(3-4): p. 134-44.

       12.Rayman, M.P., Selenium and human health. Lancet, 2012. 379(9822): p. 1256-68.

       13.Kieliszek, M. and S. B?a?ejak, Selenium: Significance, and outlook for supplementation. Nutrition, 2013. 29(5): p. 713-8.

       14.Rosen, C.J. and C.L. Taylor, Common misconceptions about vitamin D--implications for clinicians. Nat Rev Endocrinol, 2013. 9(7): p. 434-8.

       15.Bouillon, R., et al., Vitamin D and human health: lessons from vitamin D receptor null mice. Endocr Rev, 2008. 29(6): p. 726-76.

       16.Rosen, C.J., et al., The nonskeletal effects of vitamin D: an Endocrine Society scientific statement. Endocr Rev, 2012. 33(3): p. 456-92.

       17.Rosen, C.J., Clinical practice. Vitamin D insufficiency. N Engl J Med, 2011. 364(3): p. 248-54.

       18.Holick, M.F., Prevalence of vitamin D inadequacy and implication for health. Mayo Clinic Proceedings, 2006. 81: p. 355-373.

       19.Malabanan, A.O., I.E. Veronikis, and M.F. Holick, Redefining vitamin D insufficiency. Lancet, 1998. 351(9105): p. 805-806.

       20.Tannenbaum, S., Hypovitaminosis D in Medical Inpatients. New England Journal of Medicine, 1998. 338(12): p. 777-83.

       21.Arabi, A., R. El Rassi, and G. El-Hajj Fuleihan, Hypovitaminosis D in developing countries-prevalence, risk factors and outcomes. Nat Rev Endocrinol, 2010. 6(10): p. 550-61.

       22.Lin, T., et al., Plasma 25-hydroxyvitamin D concentrations and risk of incident cancer in adults with hypertension: A nested case-control study. Clin Nutr, 2019. 38(5): p. 2381-2388.

       23.Holick, M.F., Vitamin D deficiency. N Engl J Med, 2007. 357(3): p. 266-81.

       24.Zhang, Y., et al., Plasma selenium levels and risk of new-onset diabetes in hypertensive adults. J Trace Elem Med Biol, 2019. 56: p. 6-12.

       25.Laclaustra, M., et al., Serum selenium concentrations and hypertension in the US Population. Circ Cardiovasc Qual Outcomes, 2009. 2(4): p. 369-76.

       26.Combs, G.F., Jr., et al., Determinants of selenium status in healthy adults. Nutr J, 2011. 10: p. 75.

       27.Bailey, R.L., K.P. West Jr, and R.E. Black, The Epidemiology of Global Micronutrient Deficiencies. Annals of Nutrition and metabolism, 2015. 66(suppl 2)(Suppl. 2): p. 22-33.

       28.Webb, A.R., L. Kline, and M.F. Holick, Influence of season and latitude on the cutaneous synthesis of vitamin D3: exposure to winter sunlight in Boston and Edmonton will not promote vitamin D3 synthesis in human skin. J Clin Endocrinol metab, 1988. 67(2): p. 373-8.

       29.Guasch-Ferré, M., et al., Plasma Acylcarnitines and Risk of Type 2 Diabetes in a Mediterranean Population at High Cardiovascular Risk. J Clin Endocrinol metab, 2019. 104(5): p. 1508-1519.

       30.Wang, L., et al., Prediction of Type 2 Diabetes Risk and Its Effect evaluation based on the XGBoost Model. Healthcare (basel), 2020. 8(3).

       31.Dong, J., et al., Association between variants in vitamin D-binding protein gene and vitamin D deficiency among pregnant women in china. J Clin Lab Anal, 2020: p. e23376.
 
        (中国营养保健食品协会网站发布信息为协会版权所有,所有转载请联系cnhfa@cnhfa.org.cn,转载请标明作者及来源。)