2024-05-08 12:59

评估ChatGPT从临床记录中提取结构化数据的效果

在npj数字医学最近发表的一项研究中,研究人员评估了ChatGPT从非结构化临床记录中提取结构化数据的能力。

医学中的人工智能

基于大语言的模型(llm),包括ChatGPT等生成预训练转换器(GPT)人工智能(AI)模型,用于医疗保健领域,以改善患者与临床医生的沟通。

传统的自然语言处理(NLP)方法,如深度学习,需要针对特定问题的注释和模型训练。然而,缺乏人工注释的数据,再加上与这些模型相关的费用,使得构建这些算法变得困难。

因此,像ChatGPT这样的llm通过依赖逻辑推理和知识来辅助语言处理,提供了一个可行的替代方案。

一个关于这项研究

在本研究中,研究人员创建了一种基于llm的方法,用于从临床记录中提取结构化数据,随后将非结构化文本转换为结构化和可分析的数据。为此,使用了ChatGPT 3.50涡轮模型,因为它与特定的通用人工智能(AGI)功能相关联。

概述了使用ChatGPT从病理报告中提取结构化数据的过程和框架。使用OpenAI API对ChatGPT服务进行批量查询的说明,应用于我们研究中的大量临床记录-病理报告。b将ChatGPT集成到实际应用程序中的通用框架。

使用R程序将来自癌症数字幻灯片档案(CDSA)和癌症基因组图谱(TCGA)的1026份肺肿瘤病理报告和191份儿童骨肉瘤报告转换为文本,CDSA和TCGA分别作为训练集和测试集。文本数据随后使用OpenAI API进行分析,该API根据特定提示提取结构化数据。

ChatGPT API用于执行批处理查询,然后进行提示工程以调用GPT服务。后处理包括解析和清理GPT输出,根据参考数据评估GPT结果,以及从领域专家那里获得反馈。这些过程旨在从非结构化病理报告中提取TNM分期和组织学类型作为结构化属性的信息。分配给ChatGPT的任务包括估计目标属性、评估确定性水平、识别关键证据和生成摘要。

从CDSA数据库获得的99份报告中,21份因扫描质量低、数据内容接近空白或缺失报告而被排除。这导致了总共78份真正的病理报告用于训练提示。为了评估模型的性能,从cBioPortal获得了1,024份病理报告,其中97份因与训练数据重叠而被淘汰。

ChatGPT被指示利用第七版美国癌症联合委员会(AJCC)癌症分期手册作为参考。数据分析包括原发性肿瘤(pT)和淋巴结(pN)分期、组织学类型和肿瘤分期。将ChatGPT的性能与关键词搜索算法和基于深度学习的命名实体识别(NER)方法进行了比较。

进行了详细的错误分析,以确定错误分类的类型和潜在原因。GPT版本3.50-Turbos和GPT-4的性能也进行了比较。

研究结果

ChatGPT 3.50版本从肺肿瘤数据集中提取病理分类的准确率达到89%,优于关键词算法和NER Classified,后者的准确率分别为0.9、0.5和0.8。ChatGPT在骨肉瘤报告中也能准确地分类分级和切缘状态,准确率为98.6%。

模型的表现受到教学提示设计的影响,大多数错误分类是由于缺乏具体的病理术语和不适当的TNM分期指南解释。ChatGPT准确提取肿瘤信息,采用AJCC分期准则估计肿瘤分期;然而,它经常使用错误的规则来区分pT类别,例如将肿瘤最大尺寸2厘米解释为T2。

在骨肉瘤数据集中,ChatGPT 3.50版本精确分类了切缘状态和等级,准确率分别为100%和98.6%。ChatGPT-3.50在儿童骨肉瘤数据集中也表现一致;然而,它经常错误地分类pT、pN、组织学类型和肿瘤分期。

采用744例具有准确报告和参考数据的病例对肿瘤分期进行评估,其中22例是由于错误传播,34例是由于监管不当。使用762例病例评估组织学诊断的分类性能显示,17例病例未知或无输出,因此覆盖率为0.96。

最初的模型评估和快速响应审查确定了不寻常的实例,例如空白的、不正确扫描的或丢失的报表,ChatGPT在大多数情况下都无法检测到。GPT-4-turbo在几乎所有类别中都优于之前的型号,从而将该型号的性能提高了5%以上。

结论

ChatGPT似乎能够处理大量临床笔记以提取结构化数据,而不需要大量基于任务的人工注释或模型数据训练。综上所述,研究结果突出了llm将非结构化医疗保健信息转换为有组织表示的潜力,这最终可以促进未来的研究和临床决策。