2024-04-26 15:29

人工智能模型GPT-4超越了非专业医生评估眼部问题的能力

剑桥大学领导的一项研究发现,GPT-4的临床知识和推理能力正在接近专业眼科医生的水平。

GPT-4是一种“大型语言模型”,测试对象是处于职业生涯不同阶段的医生,包括非专业的初级医生、实习医生和专家眼科医生。每个人都有一系列涉及特定眼睛问题的87个患者场景,并被要求从四个选项中做出诊断或建议治疗。

GPT-4在测试中的得分明显高于非专业初级医生,后者的专业眼科知识水平与全科医生相当。

GPT-4的得分与实习医生和专业眼科医生相似,尽管表现最好的医生得分更高。

研究人员表示,大型语言模型不太可能取代医疗保健专业人员,但作为临床工作流程的一部分,有可能改善医疗保健。

他们说,像GPT-4这样最先进的大型语言模型可以在控制良好的情况下提供与眼睛相关的建议、诊断和管理建议,比如对病人进行分诊,或者在获得专业医疗保健专业人员的机会有限的情况下。

该研究的主要作者Arun Thirunavukarasu博士说:“我们可以切实地利用人工智能来对有眼部问题的患者进行分类,以决定哪些病例是紧急情况,需要立即由专家看,哪些可以由全科医生看,哪些不需要治疗。”他是剑桥大学临床医学院的一名学生

他补充说:“这些模型可以遵循已经使用的清晰算法,我们发现GPT-4在处理眼部症状和体征以回答更复杂的问题方面与专业临床医生一样好。”

“随着进一步的发展,大型语言模型也可以为那些难以从眼科医生那里得到及时建议的全科医生提供建议。英国人等待眼部护理的时间比以往任何时候都长。

需要大量临床文本来帮助微调和开发这些模型,世界各地正在开展工作以促进这一点。

研究人员表示,他们的研究优于之前的类似研究,因为他们将人工智能的能力与执业医生进行了比较,而不是与一组检查结果进行比较。

“医生并不是整个职业生涯都在复习考试。我们想看看人工智能在与执业医生的现场知识和能力竞争时是如何表现的,以提供一个公平的比较,”Thirunavukarasu说,他现在是牛津大学医院NHS基金会信托基金的学术基金会医生。

他补充说:“我们还需要描述商业模型的功能和局限性,因为患者可能已经在使用它们——而不是互联网——寻求建议。”

该测试包括一系列眼部问题,包括极度对光敏感、视力下降、病变、眼睛发痒和疼痛,这些问题取自用于测试实习眼科医生的教科书。这本教科书不是在互联网上免费提供的,这使得它的内容不太可能包括在GPT-4的训练数据集中。

研究结果今天发表在《公共科学图书馆数字健康》杂志上。

GPT-4和GPT-3.5——或“生成预训练变形金刚”——在包含数千亿字的数据集上进行训练,这些数据集来自文章、书籍和其他互联网资源。这是两个大型语言模型的例子;其他广泛使用的包括路径语言模型2 (PaLM 2)和大语言模型元AI 2 (LLaMA 2)。

该研究还用同样的问题测试了GPT-3.5、PaLM2和LLaMA。GPT-4给出的答案比所有这些都更准确。

GPT-4为在线聊天机器人ChatGPT提供动力,为人类查询提供定制的响应。最近几个月,ChatGPT在医学领域引起了极大的关注,因为它在医学院考试中取得了及格的成绩,并且在回答病人的问题时提供了比人类医生更准确、更有同理心的信息。

人工智能大型语言模型领域发展非常迅速。自从这项研究进行以来,更先进的模型已经发布,甚至可能更接近专业眼科医生的水平。