Skip to main content

Annals of Inquiry

医学Benchmarks与“通用病人”的迷思

从生长曲线到贫血阈值,临床标准都假设存在一个单一的人类原型。为什么我们还在使用一刀切的健康指标? By Manvir Singh 2025年3月24日

Infant in a cookiecutter scientific template being measured. 通用的健康标准影响着我们定义营养不良、肥胖、生长异常等的方式,支撑着广泛的统计主张。但它们没有考虑到人类的多样性。Illustration by David Plunkert

当我的女儿十个半月大的时候,她被归类为“消瘦”,根据_UNICEF_的定义,这是“最直接、最明显且危及生命的营养不良形式”。我和我的妻子一直在努力增加她的体重,这个分类让我们觉得自己很失败。她出生时的体重在量表的较低端,但并没有什么值得警惕的:六磅二盎司。在一个彩色的曲线描绘最佳生长的图表中,她显示为一个点;我们被告知是第15百分位数。她很适应母乳喂养,并在一个月内跃升至第20百分位数,然后是第26百分位数。我们自豪地期待着她的数字会稳步攀升。但后来她又落后了。四个月时,她在第12百分位数。九个半月时,她低于第5百分位数。

我们的儿科医生很担心。我们被警告说,要减少扁豆和蔬菜冰沙的摄入;我们需要让我们的孩子摄入更多的卡路里。酥油、花生酱——我们要用这些和其他脂肪浸透她的食物,并用母乳和配方奶冲服。我们也确实这样做了。然而,一个月后我们回来时,得知她的体重进一步下降——进入了“消瘦”的范畴。

这就是营养不良的样子吗?她看起来似乎很健康。她快乐、爱冒险、善于社交,喋喋不休地说话,总是用挑逗的目光吸引陌生人。她的脸颊像多汁的柑橘一样丰满,她喜欢搭配全脂酸奶一起吃。虽然她爬行的速度很慢——她更喜欢用屁股挪动——但她正在实现她的大部分里程碑。她的身高也在不断增长,从出生时的第12百分位数上升到十个月时的第36百分位数。

在“Adaptable: How Your Unique Body Really Works and Why Our Biology Unites Us” (Avery)一书中,杜克大学的进化人类学家Herman Pontzer讲述了自己面临的类似难题。当Pontzer访问肯尼亚北部的一个半沙漠村庄,研究Daasanach牧民时,一位德国慈善机构的代表告诉他,该社区正遭受营养不良的摧残。慈善机构工作人员在世界卫生组织图表上绘制了Daasanach儿童的身高和体重——与我们的儿科医生用来监测我女儿生长的图表相同——并确定超过三分之二的孩子营养不良。因此,这些家庭被纳入营养计划,并获得高热量的工业加工补充剂。然而,与我的女儿一样,这些数字与通常的观察结果不符。

“我们无论走到哪里,孩子们都在奔跑、玩耍、欢笑,”Pontzer写道。“孩子们就是孩子。他们似乎精力充沛,而且看起来并不特别矮小或‘发育迟缓’。”他没有看到其他慢性饥饿的迹象,例如腹胀或成年女性生育能力下降。孩子们很苗条,但身材修长,这是许多东非牧民的典型特征。

当Pontzer和他的团队跟踪Daasanach儿童的生长情况时,他们发现的模式与W.H.O.曲线截然不同。大约两岁左右,这些孩子身高的增长速度在世界其他地方很少见到。五岁时,他们的平均身高高于欧洲和北美营养良好的儿童。与此同时,他们体重增加的速度较慢,形成了适合散热的精益体格。在德国慈善机构诊断出营养缺乏的地方,Pontzer看到了适应。

“Adaptable”对人类生物多样性进行了引人入胜、信息丰富的探索。通过揭示我们多变的身体如何应对各种环境,它挑战我们重新思考通用的健康Benchmarks。这些标准影响着一切,从我们如何定义营养不良和微量营养素缺乏症,到我们如何评估生长异常、代谢紊乱和心血管功能障碍的风险。它们推动着全球的资金优先事项,塑造着国际援助计划,并为社会政策提供信息。它们指导着个人的临床评估(比如我女儿的),并支撑着广泛的统计主张:百分之十七的人类缺锌;近四分之一的亚太儿童发育迟缓。然而,这些Benchmarks依赖于人类健康的一种单一形象——一种原型_Homo sapiens_,其脆弱性在不同的气候和遗传历史中保持不变。我们已经进入了神经多样性、精准医疗和“生物个体性”的时代,但我们仍然假设科隆的营养不良与肯尼亚农村的营养不良看起来一样。现在是否应该超越“通用病人”模式?

几十年来,儿科医生一直依赖于婴儿和幼儿的生长曲线,这些曲线存在着明显的缺陷。W.H.O.认可了美国国家健康统计中心制定的标准,该标准基于来自美国一个社区——俄亥俄州黄泉镇——的数据。人们对这些标准与该国其他地方,更不用说世界其他地方的儿童的相关性提出了质疑。但是,当W.H.O.在2006年发布新的儿童生长标准时,看来我们最终有了一个真正的全球Benchmark,该Benchmark来自对五大洲儿童的研究。

协调小组从六个遥远的地方招募了参与者:挪威奥斯陆;阿曼马斯喀特;巴西彼洛塔斯;印度新德里;加纳阿克拉;以及恰好是我居住的城市,加利福尼亚州戴维斯。研究人员坚持严格的纳入标准——仅跟踪富裕、不吸烟母亲所生的母乳喂养的儿童。由此产生的图表获得了显著的吸引力。到2011年4月,一百二十五个国家采用了它们,联合国将它们视为新的黄金标准。实施成本高昂,通常需要各国彻底修改儿童健康记录,重新培训医务人员并购买新的测量设备。

这些标准似乎具有权威性,部分原因是它们被吹捧为具有普遍性。正如项目协调员在2006年所写的那样,这些标准可用于“评估世界各地的儿童,无论其种族、社会经济地位和喂养类型如何”。协调员还注意到六个地点收集的数据中存在“惊人的相似性”,考虑到“内置的种族或遗传变异”,这证实了“标准的普遍适用性”。

然而,实际上有多大的变异性呢?W.H.O.没有公布详细的种族信息,但是在收集数据时,奥斯陆、彼洛塔斯和戴维斯的大多数居民都是欧洲血统。非洲的遗传多样性比任何其他大陆都多,但仅以一个地点为代表。太平洋岛民、美洲原住民以及最明显的东亚和东南亚人没有被代表。

“惊人的相似性”的主张也是站不住脚的。该团队的论点基于以下事实:在每个年龄段,每个地点儿童的平均身高都在总体平均值的半个标准差之内。但是按照这种推理,正如印度儿科医生Harshpal Singh Sachdev最近在The American Journal of Clinical Nutrition中观察到的那样,两个地点可能相差多达一个标准差,仍然被认为是等效的。这就像说丹麦和台湾的平均成人身高表现出“惊人的相似性”,尽管它们相差超过六厘米。Sachdev指出,在印度城市低收入家庭中,针对健康、卫生、营养和社会心理支持的雄心勃勃的干预措施未能使身高增加半个标准差,这表明不同地点之间的差异可能反映了不同的生理基线。

除了身高之外,从未发布过其他测量值的跨站点比较,包括身高体重和年龄体重指标以及头围。尽管如此,这些指标经常用于临床和跨国目的,并被视为普遍适用。当W.H.O.报告说近六分之一的非洲儿童体重不足时——或者当《全球营养报告》指出有4540万五岁以下儿童消瘦时——公共卫生政策受到未经检验的假设的指导。

当我们的女儿第一次被标记为体重不足时,我和我的妻子并不知道这些。但是我们怀疑她的体型可能不像图表所暗示的那么不典型。我妻子的家人和我一样,是从印度移民来的。四处打听后,我们得知许多南亚血统的父母的孩子都特别小。在Reddit论坛(例如r/india和r/ABCDesis)上,我们发现父母们也在担心同样的问题。我妻子的两个表亲出生时比我们的女儿还小。

事实证明,可信的研究证实了我们的怀疑。斯坦福大学领导的一系列研究分析了美国数百万新生儿的出生情况,并记录了一个“双重悖论”:在美国出生的墨西哥血统的女性,尽管比在美国出生的印度血统的女性具有更高的风险概况,但她们生下低体重婴儿的可能性较小。这是关于体型和营养的许多不一致之处之一。以所谓的南亚之谜为例:印度、孟加拉国和尼泊尔在关键的健康和发展指标上超过了大多数撒哈拉以南非洲国家,但其人口仍然无法(字面上)与撒哈拉以南非洲或非洲侨民相比。例如,海地的婴儿死亡率几乎是印度的两倍,其人均G.D.P.低30%,但只有6%的海地儿童被评估为严重发育迟缓,而印度儿童为14%。您会在东亚富裕国家和北欧富裕国家之间发现类似的差异。日本和荷兰是世界上最富有的国家之一,拥有一流的医疗保健和低疾病负担,但是大约有7%的日本儿童有资格被认为是发育迟缓,而荷兰只有约1%。

显而易见的结论是,除了生活水平之外的因素(包括生物遗传)是荷兰和海地儿童高于其日本和尼泊尔同龄人的原因。但是,许多研究人员一直对考虑这种可能性持谨慎态度。例如,在努力解决南亚之谜时,他们一直在忙于调查露天排便、孕产妇营养以及对次子的偏好对次大陆的影响。一个经济学家团队研究了撒哈拉以南非洲体重过轻的婴儿死亡人数是否会影响身高统计数据。

亚利桑那州立大学的人类学家Daniel Hruschka表示,这些理论都无法解释这些差异。Hruschka长期以来对身体测量有着个人的兴趣。“我认为自己很健康,但是如果您使用B.M.I.指南,我会肥胖,而且我一直想知道,这对我的健康意味着什么?”他告诉我。这个问题启发他花了十多年的时间来剖析人体测量数据,从而产生了一系列有意义的发现。在2010年代发布的研究中,他证实,用于区分正常体重和肥胖体重的单一B.M.I.临界值高估了体型较大的人群(例如太平洋岛民)的肥胖程度(以体脂来定义),而低估了体型较瘦的人群(南亚人)的肥胖程度。此外,苗条的模式(例如,密切相关的群体之间以及同一群体中的儿童和成人之间的相似之处)强烈表明遗传在其中起着重要作用。2016年,Hruschka和埃默里大学的人类学家Craig Hadley估计,标准的B.M.I.临界值遗漏了大约五亿超重的人,其中包括仅在南亚的约2.5亿人。

在研究了肥胖之后,Hruschka将注意力转移到了身高上。在他最雄心勃勃的项目之一中,他和他的前学生Joseph Hackman(现在在犹他大学)分析了来自70个国家/地区的150万儿童的测量数据,该项目于2020年发布。利用有关财富、卫生、营养和传染病暴露的数据,他们计算了每个国家/地区的“基础”年龄别身高指标——在可比的环境条件下生活的儿童的起始身高。如果W.H.O.有理由假设各地儿童的潜在身高都相同,那么基础年龄别身高测量值在不同人群中应保持一致。

“嘿,我不能谋杀人来演奏爵士三连音。” Cartoon by Will McPhail Copy link to cartoon Copy link to cartoon Link copied Shop Shop Open cartoon gallery Open Gallery

事实并非如此。例如,印度儿童的基础身高与海地儿童的基础身高相差超过一个标准差。即使在相同的环境中长大,预计一名印度两岁儿童的身高也比海地两岁儿童矮三厘米。当Hruschka和Hackman根据这些发现重新计算严重发育迟缓率时,海地的估计患病率增加了两倍多,从6%增加到20%。在西非和中非也观察到了类似的大幅增长。看来,对生长曲线的依赖掩盖了非洲部分地区数百万例严重发育迟缓病例。

这些计算结果提出了另一个令人不安的可能性:其他地区的发育迟缓估计值可能被夸大了,从而导致了不明智的营养干预措施。Sachdev在2021年进行的一项研究发现,根据W.H.O.标准,在5至19岁之间的印度儿童中,有一半以上被归类为“营养不良”,实际上显示出肥胖的生物标志物。“从代谢的角度来看,他们甚至营养过剩,”Sachdev告诉我。儿科医生通常会建议减少此类儿童的高热量食物摄入量,“但在这里,我们正在推动它,”他说。

这种对人类变异的视而不见也影响着富裕国家的儿童。尽管W.H.O.图表的目的是发现“异常生长”,但它们经常遗漏欧洲儿童的生长障碍。这可能是因为5至19岁年龄段的图表仍然借鉴了美国几十年前的数据。在荷兰和瑞典,W.H.O.图表仅能捕捉到大约70%的5岁以上患有生长激素缺乏症的儿童;特定国家/地区的图表可以发现约95%的儿童。在2016年对9个欧洲国家/地区进行的一项研究中,W.H.O.标准始终未能优于当地的参考标准——除了法国,该国自1979年以来未更新其生长曲线。

因此,旨在保护儿童健康的图表可能会在全球范围内使他们失望,在身高较高的人群中遗漏了生长障碍,同时将身高较矮的人群的正常发育病态化。孟买、马尼拉和明尼阿波利斯的父母都必须在一个基于无法反映其子女生理现实的标准构建的医疗系统中航行。一些需要护理的儿童可能会被忽视;另一些儿童则会受到不必要的和可能有害的干预。

“我们的差异是显而易见的,甚至在表面上也是如此,”Pontzer在“Adaptable”中观察到。“为什么我们的内部结构应该没有那么多样化呢?”这是一个合理的问题。我们经常面对不同的环境有能力改变我们的事实。我们知道,在高海拔地区训练的人会发展出更大的有氧能力,而长期暴露于更多紫外线辐射的人群会发展出更深的肤色。Pontzer列举了许多这样的例子,从东非狩猎采集者的生活方式使他们免受心血管疾病的侵害,到东南亚海洋游牧民族的遗传适应能力使他们每天可以在水下度过数小时。然而,国际组织继续以普遍的人类生理为前提运作——实际上,这种生理与欧洲-美国模型非常吻合。

以贫血为例,这是一种血液携带氧气的能力下降的疾病。W.H.O.于1959年在一份报告中首次提出了诊断截止值。一个后续的科学小组承认,这些血红蛋白浓度测量值“是任意选择的”,因此在小组回顾了五项研究后引入了新的阈值——这些研究针对的是美国婴儿、加拿大孕妇、挪威青少年男性、英国矿业山谷的成年人以及显然是瑞典人。(由于最终的一组观察结果未发布,因此存在一些不确定性。)作者承认,在1968年提出的修订后的截止值仍然“有些武断”,但是必须划定界限。五十年后,这些仍然是W.H.O.的指南,仅对儿童和孕妇进行了细微修改。发表在_The Lancet Haematology_上的一篇2023年论文宣布,近20亿人患有贫血,该论文依赖于1968年截止值的版本。

无数其他的Benchmarks都有类似的故事。国际锌营养咨询小组定义的锌缺乏症标准基于1976年至1980年间在美国收集的数据。请记住这一点,当您听到超过10亿人缺锌的说法时。维生素D缺乏症的阈值也主要基于涉及欧洲人和北美人的研究,导致声称有90%的印度人缺乏足够的维生素D,尽管次大陆阳光充足。

为什么坚持普遍标准?在某种程度上,这是一个实用问题。几十年来,建立特定人群的Benchmarks需要大量的数据收集、统计建模和临床验证——对于大多数国家/地区来说,这些努力的成本太高了。诸如W.H.O.之类的国际组织提供了可用的(即使是不完美的)替代方案。但是,这些限制正在消失。借助大量的调查数据集和先进的分析工具,Hruschka和Hackman等人的研究揭示了人群层面的模式,这些模式可以为更多量身定制的Benchmarks提供信息。同时,中低收入国家的科学家正在测试继承的全球截止值是否与当地实际情况相符。随着衡量人类变异的障碍减少,一刀切模型的理由也随之消失。

即使有了这些进展,Pontzer也怀疑人们不愿讨论生物变异的另一个原因:“差异是危险的。”纵观历史,对内在差异的主张助长了压迫,从奴隶制的辩护到对穷人的强制绝育。旨在解释变异性的善意努力有时会伤害边缘化群体。从1999年开始,用于测量肾功能的标准方程式包括一个“种族系数”,该系数系统地高估了黑人患者的肾脏健康状况。结果,许多黑人被延迟转诊给专科医生或被认为没有资格接受肾移植等治疗。2021年,当美国国家肾脏基金会和美国肾脏病学会建议从这些计算中删除种族时,立即将超过一百万的美国黑人重新划分为更严重的肾脏疾病阶段。

基于种族的医学的失败并不是忽略生理多样性的理由。假装差异不存在并不能使它们消失;它只会驱使从业人员依赖于有缺陷的直觉。熟悉的种族类别在跟踪血统和遗传变异方面做得不好。尼日利亚的约鲁巴人和埃塞俄比亚的Bench人都有资格被认为是黑人,但是从遗传的角度来看,他们比英国人与泰米尔人的距离更远。与其执着于掩盖变异性的可疑分类,不如开发能够解释人们独特的血统和生活环境的方法来更好地为我们服务。

一月份,我们庆祝了女儿的第一个生日。由于偶然的原因,我们正在为她十二个月的就诊看一位新的儿科医生。我们感到很自信。我们加大了喂养力度,满意地看着女儿的大腿变得丰满,圆圆的肚子溢出了尿布的腰带。诚然,每次以前去儿科医生办公室都始于同样的成就感——但最终都被令人担忧的百分位数所削弱。但是这次她看起来特别胖乎乎。

“十七,”我的妻子窃窃私语,偷走了我的猜测。

“十六磅七盎司,”护士眯着眼看着体重秤读到。_还不错,_我想。

当儿科医生进来时,他递给我们熟悉的曲线的打印输出,每条曲线上都标有一个代表我们女儿的点:体重年龄和体重身高均位于第六百分位数。他问我们这些数字与她之前的测量值相比如何。当我们回答他时,他凝视着图表,似乎正在努力应对情况的严重性。然后他说他将我们介绍给营养师。

尽管订购了六周后的体重检查和几项血液检查,但他似乎并没有明显不安。好像他像我们一样,看到了两个版本的女儿——一个是坐在他面前的,兴高采烈且充满活力的,另一个是在图表上的,抽象地引起了关注。由于不知道该信任哪个,他将判决权推迟给其他人。

这种不确定性是医学推论所固有的。一个沉重的婴儿可能只是骨骼大;一个小的婴儿,苗条但强壮。然而,对通用Benchmarks的依赖扩大了身体与其测量结果之间的脱节。由于不愿承认人群差异,这些标准经常将健康的身体标记为令人担忧,而忽略营养不良的身体。结果,数亿人(通常在最贫穷的国家/地区)被错误地贴上标签,而诸如W.H.O.的生长标准之类的工具被扩展以适应全人类,证明不如当地替代方案有效。矛盾的是,这些努力有时会破坏其自身的目标,掩盖有时加剧最脆弱人群的苦难。

在二月中旬,我们与营养师进行了虚拟会面。她询问了我们的喂养习惯——什么食物、何时、多少母乳喂养——并看着我们的女儿从我妻子的腿上爬到桌子上,伸手去够电脑。营养师没有将我们推荐给另一位专家或专注于百分位数。相反,她向我们保证我们的女儿很好。是的,娇小,但是“保持了自己的位置”。此外,她证实,许多印度儿童往往较小。不过,她建议我们继续喂养她,尽可能经常添加黄油之类的东西,保持警惕。

也许在十年内,一刀切的曲线将被承认不同人群的不同体型的标准所取代,并且建议会相应改变。但是,就目前而言,我们生活在两种现实之间——电子表格上的数字和我们怀中的孩子。♦

Published in the print edition of the March 31, 2025, issue, with the headline “Beyond the Curve.”