在过去的几年中,机器学习(Machine Learning, ML)和人工智能(Artificial Intelligence, AI)可以说是最为火爆的概念。不仅如此,事实上它已经慢慢融入了我们的日常生活中,例如人脸识别,语音识别和笔迹识别等等。在医学领域中的应用也不鲜见,一方面越来越多的使用深度学习做影像辅助诊断的论文登上了医学顶刊(影像诊断方向的AI论文最近经常出现在我的文献泛读清单上),另一方面美国食品药品监督管理局(FDA)已经批准了不少AI产品进入市场(我刚刚顺便检索了一下,发现今年4月11号批准了一项基于AI的辅助诊断糖尿病眼病的产品,今年5月24号又批准一项诊AI断腕关节骨折的产品)。2018年12月21日,18位学者(包括计算机学家,统计学家,流行病学家,卫生政策研究学家和健康经济学家等等)在arXiv(预发表平台,在计算机相关学科很流行,因为学科发展快,而审稿速度慢)上发表题为《Machine learning and AI research for Patient Benefit: 20 CriticalQuestions on Transparency, Replicability, Ethics and Effectiveness》的文章,旨在提出一份指南来规范ML和AI在医学领域的研究并且用于指导临床医生,患者和政策制定者对ML和AL相关研究的应用。笔者在此对这份草案版指南作一下简单总结并提一点自己的看法,算是抛砖引玉。指南总共有20个问题,分在5个大框架下,依次展开如下。
Overall Project-specific Question [总体上的问题]
1. Howis the ML/AI model embedded in feedback loops to facilitate a learning healthsystem ?
从局部层面而言,需要考虑的有如何整合现有的计算机系统,人力和物力资源。从社会的角度来说,需要考虑:一是重要的组织结构变革,包括新部门的成立等;二是对现有的卫生技术评估体系进行升级;三是临床指南制定者的接受程度;四是相关商业公司的成立发展以与现有卫生系统的伙伴关系。听起来这些与一线研究人员无关,不过良好的地基是一切高楼大厦的保证。
Inception-specific Questions [研究起始阶段的问题]
2. What is the healthquestion relating to patient benefit?
实际上大多数发表的预测模型都没有在临床上得到应用,主要原因是我们缺乏一个特定的临床决策过程来使用这个模型,单纯的预测一个未来的结果并不能帮助我们的临床诊疗。举个肿瘤学科的例子,假定我们有了一个新的模型来预测非小细胞肺癌患者接受一种新的靶向药物治疗后的生存和复发,那么下一步是什么,仅仅是告诉患者你有多少多少概率在3年内复发,有多少多少概率活过5年吗?这里不是说提供这样一种信息没有价值,但如果仅仅只有这种信息的话,对模型的临床应用是有限的。我们需要进一步考虑的有模型的使用场景(例如当我们发现了高风险患者,有没有进一步的措施来改善结局),使用模型的优劣势分析和临床实践的可行性。
3. When and how shouldpatients be involved in data collection, analysis, deployment, and use?
在开发模型的过程中,是否充分征求患者的意见?
4. Isthere organisational transparency about the flow of data?
透明的过程可以带来信任。特别是在这个个人隐私容易丢失的年代,透明化所有与个人信息采集有关的试验研究的方案和细节显得尤为重要。
Analysis-specific Questions[数据分析的问题]
5. Isthe data suitable to answer the clinical question, i.e. does it capture therelevant real-world heterogeneity, and is it of sufficient detail and quality?
这里的核心是现有的数据能否回答特定的临床问题。需要考虑的因素有是否考虑真实世界数据的异质性,是否有重要的预后因素缺失,是否考v数据的准确性(包括测量设备和患者依从性)、抽样的代表性、纳入排除患者的标准和缺失数据的影响。
6. Doesthe validation methodology reflect the real-world constraints and operationalprocedures associated with data collection and storage?
考虑到数据的收集和储存可能会随着时间和收集场所的变化而变化,在验证模型时需要考虑到这两点的影响。
7. Onwhat basis are data accessible to other researchers?
开源数据可以提高模型的可重复性。话虽是这么说,但据笔者所知,大多数大型数据库都是需要购买使用权限或者至少需要学术合作关系的,复现模型这一步还是任重而道远的。
8. Whatcomputational and software resources are available, and are they sufficient totackle this problem?
在数据量超过一定限度之后,传统的软件和普通家用计算机就无法进行更复杂的计算了。大部分时候我们使用R软件可以完成,但10 GB以上规模的数据,仅仅用R可能显得力不从心了,但R毕竟也是在发展过程中。此外,笔者还和机器学习专家聊过:基本的人工神经网络的运算需要一块强力的GPU或者向云平台租用。工欲善其事必先利其器,一台性能强劲的机器也是进行复杂运算的必需品。
9. Arethe reported performance metrics relevant for the clinical context in which themodel will be used?
在考虑评估模型表现的标准时,以下二点需要关注:应用时是否有误分类(misclassification)的风险和是否选择了恰当的指标。常用的指标分两类,统计学意义上的有discrimination(区分度)和calibration(校准度),临床意义上的有net benefit type(净获益)。
10. Isthe reported gain in statistical performance with the ML/AI algorithmclinically justified in the context of any trade-offs?
有两方面因素需要我们进行权衡,一是建立、部署、使用和维护一套基于机器学习的预测模型的花费,二是是否有必要牺牲部分可解释性来提升模型的表现。第一点其实问题不大,只要确实有效,会有不少人愿意多花钱买心安的。当然有些国家会考虑一个医疗资源公平性的问题,这里就不展开了。关于第二点,简单来说,大部分的人工智能算法都可以被理解成一个黑箱,我们输入患者的信息,算法输出一个结果,我们并不清楚里面发生了什么。这一点也许在商业领域问题不大,但是涉及生命的医疗领域就有很大争议了。一派意见认为医生本身就会误诊,机器只要做的比医生强就可以投入应用,可以节省很多人力物力,另一派则认为黑箱最多被作为一种辅助手段,不能拿来作为主导,因为人犯了错,我们可以事后进行复盘,吸取经验教授,机器犯了错,在黑箱的情况下,我们很难做出纠正。
11. Isthe ML/AI algorithm compared to the current best technology, and against otherappropriate baselines?
ML/AL算法当下是被视为一种新的医疗技术,作为新技术本身,是需要和现有技术进行比较的。既然是比较,就需要在一个公平的环境下进行,现在常见的是搞计算机的懂一点流行病和统计知识,搞流行并与卫生统计的呢,懂的计算机知识又不多,于是双方都在自说自话,缺乏有效合作。未来需要在不同专业之间架设更多桥梁,填补不同专业人员之间知识结构矛盾的鸿沟。当然,一个新模型的落地,数据本身的质量同样很重要,对临床过程的理解更加关键。
12. Arethe different parts of the prediction modelling pipeline available to others toallow for methods reproducibility, including: the statistical code for‘pre-processing’, and the modelling workflow (including the methods,parameters, random seeds, etc. utilised)?
预测建模的方法是否可供他人使用?以实现方法的可重复性,包括:用于“预处理”的统计代码,以及建模工作流程(包括使用的方法、参数、随机种子等)。笔者认为做好数据库构建的规范化特别重要,特别是涉及纳入排除标准的问题。举个骨科例子吧,我们预备纳入腰椎管狭窄的患者,那么胸腰段狭窄和腰骶段狭窄是否需要纳入在不同的研究者眼里就有不同的答案,透明化纳入与排标准的定义,可以让后来者的工作更有意义。
13. Arethe results reproducible in settings beyond where the system was developed(i.e. external validity)?
通常我们期望自己的模型在外部验证时,效果可以变差一些,但应当维持在一个基准线之上。这里的核心概念是结果的可重复性,到底什么样的结果可以被认定为不可重复。举例来说,我们新建立的模型的C-Statistics(ROC曲线下面积AUC)为0.98(取值范围从0到1,越接近1说明效果越好),然后我们将模型在外部数据集进行验证,结果为0.95,皆大欢喜,这看上去是个好模型!但是,如果是0.8,0.7乃至0.6呢?可重复性的尚需进一步研究。
Impact Evaluation-specific Questions[影响评估的问题]
14. Whatevidence is there that the model does not create or exacerbate inequities inhealthcare by age, sex, ethnicity or other protected characteristics?
假设当我们的模型做出预测后,我们可以根据预测的结果做进一步的干预。此时根据干预的性质不同,我们对先前模型的要求也不同。若进一步的干预很昂贵或者或引起严重的副反应,我们此时应该尽可能控制假阳性的出现;若进一步的干预仅仅是一种辅助措施,此时应以控制假阴性为主。
15. Whatevidence is there that clinicians and patients find the model and its output(reasonably) interpretable?
临床上接受这种模型会考虑到两个因素,一是有效性,二是可信任度。实际上,在不同的场景下(病情轻或者重),不同的患者个体对于有效性和可信任度的取舍都是有区别的,理想的做法还是医患与研究者进行充分的交流。
16. Whatevidence is there of real world model effectiveness in the proposed clinicalsetting and how are unintended consequences prevented?
理想情况下,一个新工具的上市,需要通过一个随机对照试验的验证,现在上市的AI辅助诊断工具,经过严密验证的很少。此外,还需要考虑到的是现有医疗系统的承受力,例如一项新工具促使大量患者更加频繁的去看医生,现有系统可能会不堪重负。
Implementation-specific Questions[实施过程中的问题]
17. How is the model beingregularly re-assessed, and updated as data quality and clinical practice changes(i.e. post-license monitoring)?
获批后监管并重新评估模型(恰当的时候更新模型),需要考虑有:一是干预的效果可能会随着时间的变化而变化,二是面向的人群组成可能发生了改变,三是干预措施的改良。
18. Isthe ML/AI model cost-effective to build, implement, and maintain?
当考虑纳入医保时,经济学评估是不能省的。
19. Howwill the potential financial benefits be distributed if the ML/AI model iscommercialized?
未来的商业模式与盈利前景也需要考虑,不然变成ofo之类的,也是昙花一现,最终浪费社会资源,全民埋单。
20. Howhave the regulatory requirements for accreditation/approval beenaddressed?
英国预计在2020年会推出新的管理条例。
总结
应当说临床研究本身就是应用型研究,和探索机制的基础研究是有本质区别的,很遗憾的是,实施过程中的跑偏,使得很大一部分的研究产出脱离了临床实践。这份指南虽然在方法论的技术细节上并没有进行过多的探讨,但搭了一个蔚为大观的框架。笔者觉得不仅可以指导AI领域的研究,而且对于传统的临床研究都有很大启发意义。
参考文献
arXiv:1812.10404v1