2024-04-26 15:29

GPT-4在发现错误方面与放射科医生的准确性相匹配,大大减少了时间和成本

在最近发表在《放射学》杂志上的一项研究中,研究人员评估了生成预训练转换器(GPT)-4在识别和纠正放射学报告中的常见错误方面的有效性,并与人类放射科医生相比分析了其性能、时间效率和成本效益。

背景

放射学报告对于准确的医学诊断至关重要,但往往难以做到一致性和尽量减少错误。通常情况下,住院医生起草这些报告,然后由委员会认证的放射科医生仔细审查,这一过程虽然必要,但需要大量资源。繁重的工作负载、高压的临床环境和不可靠的语音识别等挑战导致了频繁的错误,包括不正确的横向性和描述符错误注册。GPT-4是OpenAI开发的一种复杂的语言模型,通过标准化和生成放射学报告提供了潜在的解决方案,并在提高诊断准确性的教育应用中显示出前景。进一步的研究对于确保GPT-4的可靠性和有效整合到放射实践中至关重要。

一个关于这项研究

目前的回顾性研究获得了伦理批准,并因其设计而放弃了知情同意,没有向GPT-4暴露任何患者识别信息。该研究由科隆大学医院进行,涉及200份来自放射照相和横断面成像的放射学报告,随机分为两组,每组100份正确报告和100份不正确报告。错误是由放射科住院医师故意引入的错误组,并分为遗漏、插入、拼写错误、侧边混淆和其他错误。

一个由六名经验丰富的放射科医生和GPT-4组成的团队评估了这些报告的错误。该研究对GPT-4的评估使用了零射击提示,指示它评估每个报告的发现和印象部分的一致性和错误。GPT-4处理报告的时间也被记录下来。

成本是根据德国国家放射科医生的劳动协议和GPT-4的每个令牌使用情况计算的。使用SPSS和Python进行统计分析,包括错误检测率和处理时间,通过卡方检验比较GPT-4与人类放射科医生的表现,P < 0.05为显著性,效应量采用Cohen’s d。

研究结果

在对放射学报告中错误检测的详细评估中,GPT-4与人类放射科医生相比表现出不同的表现。尽管它没有超过表现最好的高级放射科医生,GPT-4的错误检出率为82.7%,而高级放射科医生的检出率为94.7%,但它的表现总体上与参与研究的其他放射科医生相当。研究发现GPT-4和放射科医生在普通放射学、放射照相和计算机断层扫描(CT)/磁共振成像方面的平均错误检出率没有统计学上的显著差异

(MRI)报告评估,除了在特殊情况下,如侧混淆,GPT-4的表现较低。

此外,GPT-4检测侧混淆的能力明显低于顶级放射科医生,其检出率为78%,而不是100%。在其他错误类别中,GPT-4显示出与放射科医生相似的准确性,在识别错误方面没有显着不足。有趣的是,GPT-4和放射科医生偶尔都会将报告标记为错误,尽管这种情况很少发生,而且两组之间没有显著差异。

GPT-4和放射科医生之间的解释一致程度从轻微到一般不等,这表明审稿人在错误检测模式上存在差异。这突出了跨不同解释器和技术进行一致错误识别的挑战。

时间效率是本研究的另一个重要方面。GPT-4审查所有200份报告所需的时间要少得多,只需0.19小时就完成了任务,而人类放射科医生需要1.4到5.74小时。最快的放射科医生阅读每份报告平均耗时约25.1秒,而GPT-4仅需3.5秒,显示出处理速度的大幅提高。

研究显示,6名审阅人校对200份放射学报告的总平均成本为190.17美元,个人成本从主治医生的156.89美元到高级放射科医生的231.85美元不等。与之形成鲜明对比的是,GPT-4完成同样的任务只需5.78美元。同样,与人类读者的0.96美元相比,GPT-4的每份报告成本显著降低,为0.03美元,这使得GPT-4更省时,更具成本效益,正如研究结果中大幅降低成本和统计意义所证明的那样。

结论

总之,本研究评估了GPT-4在放射学报告中检测错误的能力,并将其与人类放射科医生的表现进行了比较。结果表明,GPT-4的错误检测与人类相当,证明了极高的成本效益和时间效率。然而,尽管有这些好处,该研究强调,由于法律和准确性方面的考虑,需要人为监督。