2024-04-29 09:56

大数据推动可穿戴技术发展:新研究增强了身体活动追踪

在最近发表在《NPJ数字医学》杂志上的一项研究中,研究人员使用了来自英国的大型加速度计数据集。生物库由70万人日的未标记数据组成,以建立模型,以更准确和更普遍的方式监测身体活动水平。

背景

在医疗保健领域,可穿戴设备的开发和使用迅速增加,这些可穿戴设备可用于健康和健身跟踪、患者远程监控、需要实时数据的临床试验、疾病早期检测、个性化医疗以及大规模开展健康研究。这些设备提供运动、睡眠质量、步数、步速和久坐时间的汇总指标。然而,需要可靠的算法来从传感器收集的数据中获取有关人类活动的信息。

虽然自然语言处理和计算机视觉等领域由于可用的剩余数据来训练这些学习模型而取得了显着进步,但可用于训练算法的大规模数据集的缺乏限制了开发可靠和准确识别人类活动的模型的进展。缺乏足够的数据来训练这些模型也混淆了深度学习模型的发现,这表明深度学习模型并不比传统方法(如简单统计)表现得更好。

一个关于这项研究

在本研究中,研究人员使用来自英国生物银行的加速度计数据集来训练深度学习模型,以准确识别身体活动。英国生物银行进行了一项大规模的加速度计研究,招募了近50万参与者。超过十万的参与者在他们的自然环境中手腕上佩戴加速度计一周,而不是在实验室环境中。这提供了大约70万人日的自由生活的人类运动数据。

提出的自监督学习管道概述。第一步涉及对来自UK Biobank的70万人日数据进行多任务自监督学习。在第2步中,我们通过迁移学习评估了预训练网络在8个基准人类活动识别基线中的效用。

研究人员使用了一种自我监督学习方法,这种方法已经成功地用于生成预训练变压器或GPT等例子。最近的研究使用了许多自监督学习方法,如掩模重建、多任务自我监督、自举和对比学习来检查可穿戴传感器的数据分析。本研究将多任务自我监督方法应用于大型英国生物银行数据集,以展示如何将预训练模型推广到具有健康和临床意义的广泛的基于活动的数据集。

多任务自监督学习方法首次应用于来自英国Biobank的大规模加速度计数据集来训练深度卷积神经网络。随后,使用8个基准数据集来评估预训练神经网络的性能,并评估对不同人群和活动类型的表示质量。

标记数据集用于评估模型在迁移学习中的成功。此外,该研究还使用加权抽样方法来规避低运动期信息不足的问题。从运动传感器收集的真实世界数据有不活动的时期,并且这种静态信号在转换过程中不会改变,这给自监督学习任务带来了问题。因此,为了提高训练过程的收敛性和稳定性,研究人员采用加权抽样方法,对数据窗口按比例抽样,并使用这些样本的标准差进行分析。

结果

结果表明,当本研究训练的模型在8个基准数据集上进行测试时,它们以24.4%的中位相对改进优于基线。此外,该模型可以推广到广泛的运动传感器设备、生活环境、队列和外部数据集。

多任务自我监督的预训练方法也被发现可以有效地提高对人类活动的下游识别,即使在未标记的小数据集中也是如此。自监督预训练的效果也优于监督预训练。

研究人员表示,本研究表明,多任务自我监督学习方法可以应用于可穿戴传感器的数据集,并使用深度学习算法建立准确且可推广的活动识别模型。

研究小组还向从事数字健康工作的研究界发布了预先训练的模型,以便可以在此基础上建立高性能模型,用于涉及有限标记数据的各种其他领域。

结论

总而言之,该研究使用了来自英国Biobank的大规模未标记数据集,该数据集由加速度计数据组成,通过自监督方法预训练深度学习模型。这些预先训练的模型在准确分析不同队列、传感器设备和生活环境的数据集的运动传感器数据方面的表现超出了基线水平。研究人员认为,这些模型可以建立并用于涉及有限数量标记数据的各种场景。