GPT-4在发现错误方面与放射科医生的准确性相匹配，大大减少了时间和成本_试管婴儿成功率_试管婴儿多少钱

在最近发表在《放射学》杂志上的一项研究中，研究人员评估了生成预训练转换器(GPT)-4在识别和纠正放射学报告中的常见错误方面的有效性，并与人类放射科医生相比分析了其性能、时间效率和成本效益。

背景

放射学报告对于准确的医学诊断至关重要，但往往难以做到一致性和尽量减少错误。通常情况下，住院医生起草这些报告，然后由委员会认证的放射科医生仔细审查，这一过程虽然必要，但需要大量资源。繁重的工作负载、高压的临床环境和不可靠的语音识别等挑战导致了频繁的错误，包括不正确的横向性和描述符错误注册。GPT-4是OpenAI开发的一种复杂的语言模型，通过标准化和生成放射学报告提供了潜在的解决方案，并在提高诊断准确性的教育应用中显示出前景。进一步的研究对于确保GPT-4的可靠性和有效整合到放射实践中至关重要。

一个关于这项研究

目前的回顾性研究获得了伦理批准，并因其设计而放弃了知情同意，没有向GPT-4暴露任何患者识别信息。该研究由科隆大学医院进行，涉及200份来自放射照相和横断面成像的放射学报告，随机分为两组，每组100份正确报告和100份不正确报告。错误是由放射科住院医师故意引入的错误组，并分为遗漏、插入、拼写错误、侧边混淆和其他错误。

一个由六名经验丰富的放射科医生和GPT-4组成的团队评估了这些报告的错误。该研究对GPT-4的评估使用了零射击提示，指示它评估每个报告的发现和印象部分的一致性和错误。GPT-4处理报告的时间也被记录下来。

成本是根据德国国家放射科医生的劳动协议和GPT-4的每个令牌使用情况计算的。使用SPSS和Python进行统计分析，包括错误检测率和处理时间，通过卡方检验比较GPT-4与人类放射科医生的表现，P < 0.05为显著性，效应量采用Cohen’s d。

研究结果

在对放射学报告中错误检测的详细评估中，GPT-4与人类放射科医生相比表现出不同的表现。尽管它没有超过表现最好的高级放射科医生，GPT-4的错误检出率为82.7%，而高级放射科医生的检出率为94.7%，但它的表现总体上与参与研究的其他放射科医生相当。研究发现GPT-4和放射科医生在普通放射学、放射照相和计算机断层扫描(CT)/磁共振成像方面的平均错误检出率没有统计学上的显著差异

(MRI)报告评估，除了在特殊情况下，如侧混淆，GPT-4的表现较低。

此外，GPT-4检测侧混淆的能力明显低于顶级放射科医生，其检出率为78%，而不是100%。在其他错误类别中，GPT-4显示出与放射科医生相似的准确性，在识别错误方面没有显着不足。有趣的是，GPT-4和放射科医生偶尔都会将报告标记为错误，尽管这种情况很少发生，而且两组之间没有显著差异。

GPT-4和放射科医生之间的解释一致程度从轻微到一般不等，这表明审稿人在错误检测模式上存在差异。这突出了跨不同解释器和技术进行一致错误识别的挑战。

时间效率是本研究的另一个重要方面。GPT-4审查所有200份报告所需的时间要少得多，只需0.19小时就完成了任务，而人类放射科医生需要1.4到5.74小时。最快的放射科医生阅读每份报告平均耗时约25.1秒，而GPT-4仅需3.5秒，显示出处理速度的大幅提高。

研究显示，6名审阅人校对200份放射学报告的总平均成本为190.17美元，个人成本从主治医生的156.89美元到高级放射科医生的231.85美元不等。与之形成鲜明对比的是，GPT-4完成同样的任务只需5.78美元。同样，与人类读者的0.96美元相比，GPT-4的每份报告成本显著降低，为0.03美元，这使得GPT-4更省时，更具成本效益，正如研究结果中大幅降低成本和统计意义所证明的那样。