2024-04-25 10:30

谷歌双子座和巴德通过眼科委员会考试

在最近发表在《Eye》杂志上的一项研究中,来自加拿大的研究人员评估了两个人工智能(AI)聊天机器人谷歌双子座(Google Gemini)和巴德(Bard)在眼科委员会考试中的表现。

他们发现,这两种工具在答案上都达到了可接受的准确性,并且在眼科领域表现良好,只是各国之间存在一些差异。

背景

ChatGPT(聊天生成预训练转换器的缩写)、Bard和Gemini等人工智能聊天机器人越来越多地用于医疗环境。他们的表现在考试和学科之间不断发展。

虽然ChatGPT-3.5在AMBOSS和NBME (National Board Medical Examination的缩写)考试的第一步和第二步的准确率高达64%,但ChatGPT-4等新版本的性能有所提高。

谷歌的巴德(Bard)和双子座(Gemini)提供基于不同文化和语言培训的回答,可能会针对特定国家定制信息。然而,不同地区的反应各不相同,需要进一步研究以确保一致性,特别是在准确性对患者安全至关重要的医疗应用中。

在本研究中,研究人员旨在评估Google Gemini和Bard在一组为眼科委员会认证考试设计的练习题中的表现。

一个关于这项研究

谷歌双子座和巴德的表现是通过150个基于文本的多项选择题来评估的,这些选择题来自眼科专业医疗人员的教育平台“EyeQuiz”。

该门户网站提供各种考试的练习题,包括眼科知识评估计划(OKAP),国家委员会考试,如美国眼科委员会(ABO)考试,以及某些研究生考试。

这些问题是人工分类的,数据收集分别使用截至2023年11月30日和12月28日的巴德和双子座版本。对两种工具的准确性、解释的提供、响应时间和问题长度进行了评估。

次要分析包括评估在美国以外的国家(包括越南、巴西和荷兰)使用虚拟专用网络(vpn)的性能。

统计检验,包括卡方检验和曼-惠特尼U检验,用来比较不同国家和不同聊天机器人模型的表现。采用多变量logistic回归探讨影响正确回答的因素。

结果与讨论

巴德和双子座迅速而一致地回答了所有150个问题,没有出现高需求。在使用美国版本的初步分析中,巴德的反应时间为7.1±2.7秒,而双子座的反应时间为7.1±2.8秒,平均反应时间更长。

在使用美国形式的聊天机器人进行的初步分析中,巴德和双子座的准确率都达到了71%,正确回答了150个问题中的106个。巴德为86%的回答提供了解释,而双子座为所有回答提供了解释。

巴德在眼窝和整形手术方面表现最好,而双子座在普通眼科、眼窝和整形手术、青光眼和葡萄膜炎方面表现优异。然而,这两种工具在白内障和晶状体手术和屈光手术类别中都表现不佳。

在与来自越南的巴德的二次分析中,聊天机器人回答了67%的问题,与美国版本相似。然而,与美国版本相比,使用越南巴德在21%的问题中导致了不同的答案选择。

对于来自越南的双子座,74%的问题被正确回答,与美国版本相似,但与美国版本相比,有15%的问题在答案选择上存在差异。在这两种情况下,美国版本回答错误的一些问题被越南版本正确回答,反之亦然。

越南版本的巴德和双子座分别解释了86%和100%的答案。巴德在视网膜、玻璃体、眼窝和整形手术方面表现最好(准确率为80%),而双子座在角膜和外部疾病、普通眼科和青光眼方面表现更好(准确率均为87%)。

巴德在白内障和晶状体方面最困难(准确率为40%),而双子座在儿童眼科和斜视方面面临挑战(准确率为60%)。双子座在巴西和荷兰的表现相对不如美国和越南的版本。

尽管有了令人鼓舞的发现,但该研究的局限性包括问题样本量小,依赖于可公开访问的题库,未探索用户提示的影响,互联网速度,网站流量对响应时间的影响,以及聊天机器人偶尔提供的错误解释。

未来的研究可以探索聊天机器人解释眼科图像的能力,这方面的研究相对来说还没有得到充分的探索。进一步的研究是必要的,以解决限制和探索其他应用领域。

结论

总之,尽管美国和越南的巴德和双子座的迭代在眼科实践问题上都表现出令人满意的表现,但该研究强调了与用户位置相关的潜在反应差异。

未来跟踪人工智能聊天机器人增强的评估,以及眼科住院医生和人工智能聊天机器人之间的比较,可以为它们的功效和可靠性提供有价值的见解。