医药巨头正在面临一个尴尬局面:重磅炸弹药物时代即将结束,如今新药研发既漫长又昂贵。一个新药需要10年到15年的时间,耗资高达15亿到20亿美元,并且其中一半的时间和经费都花在了药物临床试验上。更糟糕的是,只有十分之一的试验药物能进入市场。
文 | 孙滔
Eroom定律怎么破?这是新药开发商最头疼的问题。
尽管制药公司几十年来不断增加投资,但投资10亿美元得到的上市新药数目每9年就减少一半,这一现象被称作Eroom定律。Eroom是Moore单词反拼,意思是与摩尔定律相反,后者意思是价格不变时,集成电路上可容纳的元器件的数目,约每隔18~24个月便会增加一倍,性能也将提升一倍。
作为医学AI的领衔者,IBM的医疗人工智能部门Watson Health深耕AI多年,希望找出破解Eroom定律之道。那么,该题有解了吗?
7月17日,《药理科学趋势》杂志(Trends in Pharmacological Sciences)发表来自IBM Watson Health人工智能团队的综述文章《临床试验设计中的人工智能》(下称IBM文章)指出,AI可以加快药物临床试验的成功,从而助力破解Eroom难题。
然而,实际情况是,人工智能确实在临床试验前的药物研发阶段让研发提速,但进入临床试验阶段,情况却截然不同。
截至目前,AI最大的优势是在实践中训练学习,试验规模越大对训练学习越有利,但新药的临床试验大都只有数百例,这就局限了机器的学习能力。而且,AI更适合解决明确的问题,如识别病理图像;而不是模糊不清的问题,如分析电子病历,也就是说,目前AI无法理解医疗信息中的模糊性。
由于机器学习方式和医生工作方式之间的不匹配,IBM Watson正在遭遇挑战。
Eroom定律何来
◎新药研发周期。(来源:CB INSIGHTS)
医药巨头正在面临一个尴尬局面:重磅炸弹药物时代即将结束,如今新药研发既漫长又昂贵。一个新药需要10年到15年的时间,耗资高达15亿到20亿美元,并且其中一半的时间和经费都花在了药物临床试验上。更糟糕的是,只有十分之一的试验药物能进入市场。
临床试验后期失败的代价太大。因为一款治疗心力衰竭的3期药物失败,诺华公司2017年第一季度的净收入下降了15%;同样是2017年,美国制药公司Tenax Therapeutics一款心脏药物在3期失败后,首席执行官辞职。
Eroom定律从何而来?我们有必要回答这个问题。
一个有说服力的解释是,新药研发(这里指重磅炸弹药物,不包括仿制药)就像挖矿,先来的开发商总是容易挖到第一桶,后来者则需要挖得更深才可能有所发现。原北京协和医学院教授、目前专注研发抗癌新药的立博美华基因科技创始人王晨光告诉DeepTech,在药物研发中,药物靶点是没有专利的,那么各个公司会针对靶点大把烧钱来筛选新药,加上计算机技术辅助,往往一筛就是几百万个化合物。这就意味着,留给后来者有所发现的机会越来越少。
与电子产业的迭代不同,药物研发有其特殊性。王晨光的看法是,药物研发有非常大的偶然性,往往并不是说按照某个程序就一定能做出新药来,这就为新药研发带来了很大困难。另外,后研药需要在某些方面表现优于现在的一线用药才有可能获批,只有这样,才能保证每做一个新药出来,它都是最好的。这都是新药研发的挑战。
当然也有例外。比如说这几年很火的免疫疗法,这两三年在全球范围内批准了好几个新药。但是接下来很快就会降温,再出来新药就又要经过多年。
另外的研发成本源自政府监管。自郑晓庾后,中国药监部门近些年加强了药物研发的监管,尤其在临床审批这一阶段,对1、2、3期临床试验要求越来越严格,这就导致研发经费增加得非常厉害。
这就需要监管部门有所作为。一直以来,监管部门如美国FDA一直遵从单药单病种的审批程序,这就束缚了一些可治疗多病种的新药临床试验空间,因为对于同一种药,每新加一个病种就要从头再来一遍临床试验。据王晨光介绍,2018年美国FDA出台了一份肿瘤药物临床试验的指南草案,只要符合要求,单药或者多药针对多种肿瘤类型的临床试验可以纳入同一个设计方案。
AI来解题
政府监管部门的作为有限,药品开发商只能寻求新的药物开发手段,多家巨头将目光投向了AI。
计算机技术很早就介入了临床试验前的药物研发,如前文所述的针对靶点的化合物筛选。据同期《药理科学趋势》杂志发表的来自中国科学院深圳先进技术研究院医药所计算机辅助药物设计中心的袁曙光课题组文章《利用人工智能助推新药研发》称,AI在药物作用靶标预测、药物分子结合位点预测、靶标蛋白三维结构预测、计算机虚拟筛选、海量虚拟数据的构建、药物分子适应症的预测、化学合成布局、药物分子结构改造、药物毒理毒性预测、药物分子水溶性预测以及临床前药物研发最后期的分子晶形预测等多个环节发力。与传统新药研发管线比,基于AI和生物计算的新药研发管线平均1-2年就可以完成临床前药物研发。
然而,对于药物研发而言,更大的挑战在于临床试验阶段。IBM的文章指出,目前只有不到三分之一的2期受试药物进入3期,其中三分之一的3期试验失败并非因为药物疗效或副作用,而是归咎于缺乏足够符合要求的患者,尤其是在其后期阶段缺乏可靠和有效的依从性控制、患者监测和临床终点检测系统。要知道,3期的成本占据了整个临床试验周期的60%,而每次临床试验失败导致的损失达到8亿至14亿美元。
依从性和脱落率,是临床试验的两个重要指标。依从性是指患者执行医嘱的程度,脱落则是指受试者进入临床试验后,由于各种原因不能完成试验规定的全部流程。要知道,药物临床试验的目的是确定试验用药的安全性和疗效,而受试者依从性差或者发生脱落对试验用药疗效及安全性的客观评价可能产生不利影响。平均而言,临床试验中只有15%没有患者脱落,平均脱落率为30%。
王晨光介绍说,在中国的临床试验中,受试者的依从性差和脱落率高更是难题。很多患者总希望尝试各种偏方和另类疗法,有众多不可控因素影响受试者的依从性和脱落率。
IBM文章指出,AI可以有效地检测反映被测药物有效性的生物标志物,以及识别最适合的药物受试人群。尽管AI尚未对临床试验产生重大影响,但基于AI的模型已经在进行试验设计与患者招募的尝试,而基于AI的监测系统旨在提高临床试验的研究依从性,以提高患者用药与医嘱的一致性,并降低受试者在临床试验中的脱落率。
IBM文章认为,AI可以通过计算机视觉算法识别手写病历、数字医学图像来确定相关患者群体,也可以分析失败的临床试验数据以改善试验设计,使用机器学习(ML)、深度学习(DL)和自然语言处理(NLP)等来关联大型和多样化数据集,如电子健康记录、医学文献和试验数据库,以帮助制药改进试验设计、患者-试验匹配和招募以及在试验期间监测患者。
IBM的挑战
Watson从未真正参与过医疗诊断过程,只是帮助确定患者的治疗方案。Watson参与临床决策的基础是其自然语言加上提出假设和基于证据的学习能力。一旦医生向系统提出问题,Watson首先解析输入信息来找出最重要的信息,然后挖掘患者数据,找出与患者诊疗和遗传史相关的事实,随后检查可用的数据源以提出和检验假设,最后给出个性化、有依据的建议。Watson用于分析的数据来源可包括治疗指南、电子病历、医疗服务提供者的说明、研究材料、临床研究、期刊文章和患者信息。
IBM将他们与梅奥诊所(Mayo Clinic)的合作作为AI应用于临床试验的成功案例。据悉,应用Watson的临床试验匹配系统后,梅奥诊所乳腺癌临床试验的参与人数在11个月内增加了80%,筛选临床试验匹配患者的时间明显减少。
而此前,只有5%的癌症患者参与了美国的临床试验。临床试验参与率过低导致许多临床试验进展缓慢,患者也难以获得更好的治疗方法。
IBM文章也承认,目前的AI介入临床试验挑战不小。一方面缺乏数据收集的监管框架,导致电子病历格式差异很大,彼此不兼容或根本不兼容,并且各个医疗机构之间的病历共享机制也远未成熟。另一方面,严格的监管限制了第三方获取患者数据,甚至患者自己都难以访问自己的数据。
此外,DeepTech接触的几位业内人士认为,AI并非解决临床试验中受试者依从性差和脱落率高的唯一途径和最好手段。
数据的精确度是AI应用的挑战。曾在多家跨国药企负责肿瘤药物开发的陈达维博士认为,IBM的Watson还在很初步的阶段。AI的关键是学习,但学习是基于人们的已知知识,如果已知的不准确、不全面,则机器学习的结果不可能准确。而药物研发的本质就是不需要、也做不到全面和准确,因为只要能把药物批准上市就是一切。假如Watson要根据某篇论文推荐用药的最佳人群,而这篇论文并没有什么明确的结论,没有客观可靠的数据支持,机器便无法判断以及给出靠谱的建议。
药厂的试验数据都是不公开的,药厂之间无法共享数据,也就没有大数据和机器学习的基础。
陈达维认为,在提高临床试验的依从性与降低受试者脱落率问题上,AI与人工操作“可能是互有优劣”。对于上万人的临床试验,AI应该效果更好,而对于不同国家、不同医院、不同医生的情况,大数据的概念可能就无法顺利应用。
王晨光也持类似看法。AI最大的优势是在实践中训练学习,试验规模越大对训练学习越有利,但新药的临床试验大都只有数百例,这就局限了机器的学习能力。
尴尬现实
IBM的“AI医生”之路正面临着尴尬局面。尽管有着1997年深蓝(Deep Blue)赢得国际象棋胜利的战绩以及2011年在智力问答电视节目中打败人类智力竞赛冠军的辉煌,但近期却在医疗领域遇挫。早在2018年上半年,IBM Watson Health业务裁员高达50%到70%。同样在今年7月,媒体曝出IBM Watson Health负责肿瘤、生命科学和个人健康的副总裁兼总经理Lisa Rometty将离职。
一个事实是,截至目前,美国FDA只批准了少数AI工具用于现实中的医疗系统,都是基于视觉图像的AI工具,如X射线和视网膜扫描。换句话说,AI更适合解决明确的问题如病理图像,而不是模糊不清的问题,如电子病历分析。
◎在泰国康民国际医院(Bumrungrad),在211例癌症评估中,Watson与肿瘤专家的总体一致率为83%;在印度,Manipal综合癌症中心的638例乳腺癌病例评估中,Watson与肿瘤专家的治疗建议一致率为73%,主要是由于转移性乳腺癌的表现不佳。在韩国嘉泉大学(Gachon University)Gil医疗中心,Watson表现更差,对656名结肠癌患者的建议与专家的一致率只有49%。(来源: IEEE Spectrum)
实际上,IBM Watson遭遇挑战的本质在于,机器学习方式和医生工作方式之间的不匹配。IBM的AI医生之路比起想象的要艰难得多。在 2018年发表于《肿瘤学家》杂志(The Oncologist)的一篇论文中,Watson在处理诊断结果时,其准确率可高达90%~96%不等,但对于像治疗时间表这样信息时,其准确率仅有63%~65%。
业内人士并不看好人工智能阅读医疗记录文本的能力。据IEEE Spectrum报道引述蒙特利尔大学计算机科学教授Yoshua Bengio看法称,人工智能系统无法理解医疗信息中的模糊性,也无法关注到人类医生会注意到的微妙线索,人工智能还比不上人类医生的理解和洞察力。
一个典型案例是,在2018年,美国FDA批准了广谱抗癌药拉罗替尼(larotrectinib),这种药物对所有表现出特定基因突变的肿瘤都有效,并且在 55 名患者身上取得了显著的效果,其中4名是肺癌患者。纽约纪念斯隆-凯特琳癌症中心肺癌专家Mark Kris说,基于有4名肺癌患者有疗效,那么这时候我们应当抛弃之前的诊疗指南,对所有肺癌患者进行该基因的检测,然而Watson不会仅根据4名患者的情况就改变其结论。
马里兰大学放射诊断学教授Eliot Siegel曾与Watson有过合作,他对IBM的AI医学并不看好,“我不认为他们站在人工智能的最前沿,最激动人心的进展应该发生在谷歌、苹果和亚马逊那里。”事实上,谷歌和苹果正在健康医疗AI领域发力,希望挖掘个人健康大数据。
IEEE Spectrum报道还引述了2014年从IBM离职的Kohn的批评。他说,仅仅拥有强大的技术是不够的,最重要的是让患者得到好处才行,然而他并未看到IBM的人工智能改善了患者的疗效,以及节约了医疗费用。
不过,Mark Kris并不气馁,他仍然看好AI医疗的潜力,毕竟IBM Watson也有成功的案例,只是道路曲折而漫长。
IBM文章也承认,由于AI方法在过去的5到8年内才开始应用于临床试验,而药物开发周期长达10到15年,因此全面评估AI在临床试验的影响还需要几年。
参考文献:
https://www.cell.com/trends/pharmacological-sciences/fulltext/S0165-6147(19)30130-0
https://www.cell.com/trends/pharmacological-sciences/fulltext/S0165-6147(19)30135-X
https://www.ibm.com/watson-health/learn/clinical-trial-recruitment
https://www-03.ibm.com/press/us/en/pressrelease/53783.wss?mhsrc=ibmsearch_a&mhq=Tufia%20Haddad
https://spectrum.ieee.org/biomedical/diagnostics/how-ibm-watson-overpromised-and-underdelivered-on-ai-health-care
https://en.wikipedia.org/wiki/Watson_(computer)
https://www.beckershospitalreview.com/artificial-intelligence/ibm-watson-health-vp-lisa-rometty-steps-down-3-notes.html
https://www.cbinsights.com/research/clinical-trials-ai-tech-disruption/