OM | FDA批准用AI筛查眼疾,你会信任诊断结果吗?

  『运筹OR帷幄』转载

  作者:Nature自然科研

  编者按

  美国人工智能研究公司IDx Technologies近期通过临床实验证明了该公司的产品IDx-DR鉴定轻度以上糖尿病视网膜病变的正确率约为87%,对未患此病人群的正确识别率逼近90%,并且成为FDA批准的首个无需临床医生参与,便可以自主给出筛查决定的医疗设备。该设备还可以用于检测青光眼和年龄相关性黄斑变性等眼科疾病,可以极大地缓解眼科医生的负担

  机器学习正被用来实现自动化眼疾诊断。

  糖尿病患者在看家庭医生时,经常会被转诊给眼科医生,检查他们的眼睛是否存在糖尿病视网膜病变。糖尿病会损伤眼底的感光组织层(即视网膜),是导致失明的主要原因。美国每年有2.4万的成年人因此失明。其实,只要在症状出现前及时得到诊断,这种疾病通常是可控的,也能避免出现最坏的情况。爱荷华大学的视网膜专家和计算机科学家Michael Abràmoff说:“我们非常清楚如何治疗这种疾病,但我们很难在第一时间发现它。”

  OM | FDA批准用AI筛查眼疾,你会信任诊断结果吗?

  来源:Taj Francis

  因此,定期筛查对于控制糖尿病视网膜病变就显得尤为重要。问题是,评估美国3000万左右、全球4亿多的糖尿病患者似乎是一项不可能完成的挑战。每年只有约一半的糖尿病患者会遵从建议检查眼睛。

  一部分原因在于眼科医生的短缺。这类专科医师一般需要经过大量训练,使用特定的设备。全球许多地区由于眼科医生数量不足,当地人不得不跑到很远的地方去检查眼睛。这一问题在中低收入国家尤为严峻。但即便是高收入国家,由于老龄化高危群体高速增长,也将在不久的将来面临眼科医生供不应求的难题。远程医疗的出现虽然可以让眼科医生远程评估患者的视网膜图像,提高就医便利程度,但到目前为止尚未得到普遍接受。

  Abràmoff一直想知道计算机程序是否能用来筛查眼疾。他用几十年的时间开发出了一种可以在几分钟内识别患者是否有轻度以上糖尿病视网膜病变的人工智能(AI)系统——IDx-DR。这种情况在糖尿病患者中只占10%,有了这个系统,就能极大地减少眼科医生需要检查的患者数量。

  IDx-DR 美国食品和药品监督管理局(FDA)批准的首个无需临床医生参与,便可以自主给出筛查决定的医疗设备。但它并非唯一一个有望颠覆眼科学领域的人工智能工具。计算能力的进步和大规模视网膜图像数据集的出现让人工智能系统不仅可以检测糖尿病视网膜病变,还能发现其他常见眼疾,如年龄相关性黄斑变性(AMD)和青光眼;相比之下,诊断糖尿病视网膜病变还算容易的。这些人工智能系统不仅可以提高大规模筛查的速度和准确性,还能让一些医疗中心开设眼睛检查项目,为医疗资源不足的地区提供此类服务。

  新加坡国立眼科中心的眼科医生Tien Yin Wong表示,将人工智能用于临床将不可避免地引发有关漏诊和误诊的担忧。他还说,随之而来的法律和伦理问题可能会最终决定这项技术是否能得到普及。

  但业内人士仍非常乐观,他们相信人工智能辅助诊断将迎来春天。Pearse Keane是伦敦摩菲眼科医院(Moorfields Eye Hospital)的一名眼科医生,也是谷歌(Google)母公司Alphabet旗下的人工智能科技公司DeepMind Technologies的咨询专家。目前,DeepMind Technologies正在开发一种可以诊断眼睛疾病的系统。“我依稀记得最初看到这个算法运作的场景,”他说,“当时我惊呆了,我认为自己见证了一项可以颠覆整个眼科的技术。”

  30年的探索

  Abràmoff约在30年前开始构思眼疾检测的自动化。眼科医生一般通过眼底彩色图片或使用光学相干断层扫描(OCT)技术获得的视网膜断层成像进行疾病诊断。Abràmoff不确定计算机程序是否可以取代经过专业训练的专科医师,至少在最初阶段。

  机器学习利用数据和定制算法训练机器完成任务,自上世纪50年代开始就一直被认为在图像分析方面大有可为。但当时的硬件不够强大,无法真的让机器学习分析现实世界中的医疗图像,即使是在40年后,Abràmoff开始这项研究之时,仍是如此。

  但是,Abràmoff还是迎难而上,利用数学公式描述各种视网膜损伤,再写出能检测这些损伤的算法。及至21世纪之初的几年,Abràmoff已经就这一问题发表了无数论文,并在之后几年获得了相关专利,他希望制药公司或生物技术公司能让这些专利技术尽快获得许可。但他的想法并没有实现。他说:“什么都没发生。”

  2005年以后,随着电子游戏行业的发展,人工智能系统在医学成像中的应用也随之兴起。为了提高图像的真实度,越来越强大的显卡被开发出来,它们完美适用于人工智能系统所需的并行处理。有了这些显卡,就能更轻松地运行名为人工神经网络的计算密集型系统,人工神经网络的灵感正来自于大脑神经元的连接方式。这类网络由很多层相互连接的节点组成,这些节点可以分别处理一张图像的不同属性。每个属性都被赋予一定的权重,系统再将这些权重结合,生成最终结果,譬如判断眼睛是否患有糖尿病视网膜病变。

  研究人员将人工神经网络与强大的处理能力以及海量图像数据集相结合,就能开发出深度学习网络,执行传统编程软件无法完成的高级任务,包括击败部分全球顶尖的围棋棋手。华盛顿大学的眼科医生Aaron Lee说:“这是跨越式的飞跃,那些曾被认为不切实际的想法居然变得可行了。”

  临床试验初战告捷

  Abràmoff搭上技术发展的顺风车,于2010年在美国爱荷华州成立了人工智能研究公司IDx Technologies。经过与FDA的漫长洽谈,Abràmoff开展了一次临床试验,以证明IDx-DR可在现实世界中投用。试验于2017年1月开始招募被试,最终从全美10地招到了900名糖尿病患者。

  OM | FDA批准用AI筛查眼疾,你会信任诊断结果吗?

  视网膜专家Michael Abràmoff正在开发一款人工智能程序,帮助在医疗资源稀缺地区提供眼疾筛查服务。

  来源:Brice Critser/Dept Ophthalmology/UIHC

  试验结果显示,Abràmoff几十年来的努力没有白费。IDx-DR鉴定轻度以上糖尿病视网膜病变的正确率约为87%,对未患此病人群的正确识别率逼近90%,这一准确度达到了FDA的要求。2018年4月,IDx-DR成为美国首个获批用于糖尿病视网膜病变检测的自动化诊断系统。Abràmoff对此表示:“那一天棒极了。”

  该系统先用相机拍摄眼底照片,再利用一种人工智能算法分析照片,检测是否存在糖尿病视网膜病变的早期迹象,比如出血。另一种算法帮助操作者给视网膜拍摄高清图像,也就是说,只需要4小时的训练,任何有初中学历的人都可以操作IDx-DR。

  2018年6月,爱荷华大学医疗保健中心成为了首个临床使用IDx-DR的机构。竞争人工智能系统可能离我们并不遥远了。Lee说:“就IDx的表现来看,它为许多公司创造了深度学习的先例。”到目前为止,大部分类似系统都集中在糖尿病视网膜病变的检测上,因为这种疾病相对容易从图片中识别。Lee说:“从计算机视觉的角度来说,这其实是个很简单的任务。”

  类人智能

  人工智能系统的最终目标肯定不是只检测一种眼疾这么简单。“医生在检查患者眼睛的时候,通常能发现许多常见病。”Wong说,“你不能说,‘我只想知道你有没有糖尿病视网膜病变’。”这也是为什么Wong和Abràmoff等人正在努力开发能同时检测多种眼疾的人工智能系统。

  一些研究人员正在指导他们开发的程序筛选大量来自健康眼睛或不健康眼睛的图像,而不是告诉人工智能算法去寻找哪些疾病特征(正如Abràmoff让IDx-DR做的那样)。这些人工智能系统必须自己学会辨别其中的不同之处。2017年,Wong及其团队使用从若干研究中收集到的视网膜图像训练了一个人工智能系统,其中包括来自新加坡国家糖尿病视网膜病变筛查项目的数据。此后,他们又用11个多种族糖尿病患者队列测试了这个系统的有效性,结果证实他们的人工智能程序可以通过视网膜图像中的差异,检测出糖尿病视网膜病变以及青光眼和年龄相关性黄斑变性。大约在90%的情况下,该系统的筛查能力可以媲美人类糖尿病视网膜病变专家。

  DeepMind和摩菲眼科医院的研究人员则走得更远。他们开发的人工智能算法可以自我学习,对50种常见眼疾给出转诊建议。他们的系统可以在OCT视网膜扫描中发现眼疾迹象,并判断是否严重到需要转诊的程度。DeepMind的人工智能系统可以极大地缓解眼科医生的负担。Keane说:“人们想象不到我们实际上要看多少病人。”仅在去年一年,英国国民医疗保健服务预约的眼科门诊数就达825万。

  训练人工智能算法一般需要大量的数据,且系统只能执行有限的任务。比如,一个根据指令跟自己下了3000万次围棋的算法肯定不适合去下象棋。但有一种名为迁移学习的算法,不需要这么多任务特定性的数据,就能训练人工智能程序,使其能更快速地学会执行类似的任务。

  加州大学圣迭戈分校的张康团队利用开源数据库ImageNet的上千万张日常物品图像对一种人工智能算法进行预训练,之后再利用该算法识别约10万张OCT视网膜图像。虽然预训练中只有很少的视网膜特定性图片,但预训练本身可以让人工智能程序准确诊断出导致失明的两大常见疾病——糖尿病性黄斑水肿和脉络膜新生血管(晚期AMD的常见表现),并进一步决定哪些患者需要立即转诊至专科医师。如果将训练用的OCT视网膜图像数量减少至4000张左右,则算法的错误率会翻倍,但其表现仍旧与人类专家不相上下。

  张康、Keane和Wong计划在接下来的两年里开展临床试验,验证他们的人工智能系统的诊断效率是否可以媲美眼科医生;同时,临床试验也是获得监管当局许可的必要条件。但距离实现广泛商用,仍有很多工作要做。Wong说:“科学家需要把它设计得和iPhone一样好用。”

  不只是技术

  在某些方面,这些人工智能系统的能力或许能超越人类。德国雷根斯堡大学的遗传学家Bernhard Weber和同事开发了一种深度学习算法,可以给AMD的进展分类,已知AMD是50岁及以上人士失明的主要原因。晚期AMD较容易诊断出来,但Weber发现他们的人工智能程序还能识别早期AMD。他说:“这是一项很难的任务。”即使对眼科医生来说也不容易。

  虽然较高的准确率可以帮助这类人工智能系统获得监管许可,但监管当局的绿灯可能不足以赢得临床医生和患者的信任。Lee想知道的是,“整个社会准备好迎接这些新事物了吗?”

  不利于赢得使用者信任的一个障碍是,许多人工智能系统存在封闭性问题,即黑箱的操作方式——我们有时候并不清楚这些程序是如何做出判断的。Lee说:“对于一个黑箱算法,你无从知晓为何算法会给出这个诊断。”(见“打开黑箱”)

  打开黑箱

  复杂的人工神经网络可以让人工智能系统变得非常强大,但也会让人无法理解这些系统是如何做出决定的——人们称之为黑箱问题。

  这种不透明性在临床上尤其令人头疼。因为人工智能诊断背后的原理对于这些系统是否能够通过审查具有关键性的作用。爱荷华大学视网膜专家、计算机科学家Michael Abràmoff说:“美国FDA把可解释性看作是一个很大的问题,如果你想实现自动化,你必须首先解释你的算法的工作原理。”

  研究人员正在探究如何才能看到黑箱的内部。美国的人工智能研究公司IDx Technologies以及英国的DeepMind Technologies使用了双管齐下的方法,尝试分析它们的系统在诊断眼部疾病时的决策过程。他们用一种算法来分析视网膜图像,检测疾病特征;另一种算法则利用这些特征判断患者是否需要看眼科医生,如果需要,那么病情的紧急程度如何。DeepMind的计算机科学家Olaf Ronneberger表示,通过将这两步分离,临床医生就能知道深度学习网络是如何解读图像,并做出转诊建议的。

  还有一个破解黑箱的方法,那就是借用另一个黑箱。加州大学圣迭戈分校的眼科医生张康和德国雷根斯堡大学的遗传学家Bernhard Weber使用黑罩遮住一部分视网膜图像,并观察这会如何影响人工智能的诊断表现。这样一来,Weber就能确定人工智能算法在诊断时会看视网膜的哪些位置。他说:“你会发现它们看的地方和人类医生看的地方是一模一样的。”

  Wong 将人工智能诊断比作无人驾驶汽车,无论哪一种自动化,他都不确定人类是否做好了迎接的准备。正因为如此,他将自己的系统设计成可以全自动化也可以半自动化的双模式,在半自动化情境下,系统将与人类共同合作、完成任务。这就像给无人驾驶汽车安上方向盘和刹车,让人可以在紧急情况下实施干预。Wong说:“这么做可以提高人类对它的信任,也能极大地减少系统的负荷。”

  这种双模式可能适合用在眼科医生充足的地区。但这项技术的最大潜力恰恰在于它能改善低收入国家或偏远地区的眼睛护理条件。正是这个原因,Abràmoff决定在新墨西哥州的一个偏远地区测试IDx-DR——从这里去看眼科医生,开车最短也要几个小时;谷歌的研究人员则在印度的眼科医院试用一种深度学习算法,从视网膜图像中鉴定糖尿病视网膜病变的迹象。这些医院总共只有1.5万名眼科医生,但是却要服务7000万左右的糖尿病患者。

  现有的人工智能系统需要非常高清的眼睛图像才能给出诊断,但许多国家缺少拍摄高清图像的专业设备和技术。但一些载有视网膜拍摄专用摄像头的智能手机或许可以与基于云的人工智能软件结合,用来筛查糖尿病视网膜病变,让眼睛检查的费用更低,也更方便。

  “我认为这些技术对人类的最大增益将发生在那些资源最有限的地方,那些没有专家的地方,”Lee说,“我认为人工智能对于这些地区的医疗普及具有重大且不可忽视的作用。”

  原文以How artificial intelligence is helping to prevent blindness为标题

  发布在2019年4月10日《自然》outlook上

  ?

  Nature|doi:10.1038/d-019--y