加州大学旧金山分校的一项新研究发现,如果在急诊科(ED)切断ChatGPT,它可能会建议一些患者进行不必要的x光检查和抗生素治疗,并让其他不需要住院治疗的患者入院。
研究人员表示,虽然该模型可以以使其反应更准确的方式进行提示,但它仍然无法与人类医生的临床判断相媲美。
“这对临床医生来说是一个有价值的信息,不要盲目相信这些模型,”该研究的主要作者、博士后学者克里斯·威廉姆斯(Chris Williams)说,该研究发表在10月8日的《自然通讯》(Nature Communications)上。“ChatGPT可以回答医学检查问题,帮助起草临床记录,但目前它不是为需要多种考虑的情况设计的,比如急诊科的情况。”
最近,Williams展示了ChatGPT,一种可用于研究人工智能临床应用的大型语言模型(LLM),在确定两名急诊患者中哪一位最严重不适方面略优于人类,即在患者a和患者B之间进行直接选择。
在目前的研究中,威廉姆斯挑战人工智能模型执行一项更复杂的任务:在急诊室对病人进行初步检查后,提供医生提出的建议。这包括决定是否让病人入院,进行x光或其他扫描,或开抗生素。
对于这三个决定中的每一个,该团队都编制了一组1000次ED访问,以分析超过25.1万次访问的档案。在关于入院、放射学和抗生素的决定上,这些人的回答是“是”与“否”的比例与加州大学旧金山分校健康急诊科的情况相同。
研究人员使用UCSF的安全生成人工智能平台,该平台具有广泛的隐私保护,将医生关于每个患者症状和检查结果的笔记输入ChatGPT-3.5和ChatGPT-4。然后,他们用一系列越来越详细的提示来测试每一组的准确性。
总的来说,人工智能模型推荐的服务往往比实际需要的要多。ChatGPT-4的准确率比住院医师低8%,ChatGPT-3.5的准确率低24%。
威廉姆斯说,人工智能倾向于过度开药,可能是因为这些模型是在互联网上训练的,而合法的医疗咨询网站并不是为了回答紧急医疗问题而设计的,而是把读者送到可以回答紧急医疗问题的医生那里。
他说:“这些模型几乎被微调成‘寻求医疗建议’,从一般公共安全的角度来看,这是非常正确的。”“但在急诊科的环境中,谨慎行事并不总是合适的,因为不必要的干预可能会对患者造成伤害,使资源紧张,并导致患者花费更高。”
他说,像ChatGPT这样的模型需要更好的框架来评估临床信息,然后才能为ED做好准备。设计这些框架的人需要在确保人工智能不会错过一些严重的事情,同时防止它引发不必要的检查和费用之间取得平衡。
这意味着开发人工智能医疗应用的研究人员,以及更广泛的临床界和公众,需要考虑在哪里划定这些界限,以及在谨慎的一边犯多大的错误。
“没有完美的解决方案,”他说,“但知道像ChatGPT这样的模型有这些倾向,我们有责任思考我们希望它们在临床实践中如何表现。”
作者:其他作者包括Brenda Miao, Aaron Kornblith和Atul Butte,都来自UCSF。
资助:尤尼斯·肯尼迪·施莱弗国家儿童健康与人类发展研究所和国立卫生研究院(K23HD110716)。
披露:请参阅论文。