市民健康

<<返回上一级

利用人工智能进行医疗大数据变革

2019-04-29 00:00:00

简介：行业动态

大数据”、“人工智能”和“物联网”是医疗行业使用越来越频繁的术语。

“人工智能（AI）”一词诞生于1956年，但近年来，由于数据量的显著增加、先进算法使机器能够像人类一样“思考、工作和反应”，以及计算能力和存储能力的提高，“人工智能”一词的受欢迎程度急剧上升。

大数据的概念出现在20世纪90年代，它描述的数据集太大或太复杂，即使是在低延迟的情况下，传统数据库或数据处理应用软件也无法在合理的时间内捕获、管理和处理数据。

促成大数据积累的是物联网（IoT），这个术语自1999年首次被用作“物联网”（Internet for Things）以来一直在演变，当时射频识别（RFID）是物联网的概念核心。

如今，物联网涵盖了与互联网相连的一切，包括传感器、智能手机、医疗设备、可穿戴设备等，所有这些都是实时采集和上传的，健康相关大数据也在快速积累。

近日发布的《利用大数据》（Harnessing Big Data）报告，旨在研究医疗行业与大数据的关系。主要内容有：

背景：大数据是什么？

前景：如何利用大数据？

分析：利用大数据需要注意什么？

应用程序：大数据的现实应用

以下是动脉网为您编译的该报告的主体内容：

背景：大数据是什么？

大数据简史

随着时间的推移，“大数据”、“物联网”和“人工智能”这三个词被分别创造出来。今天，它们在快速发展的技术世界中形成了独特的聚合，影响着我们收集、感知和分析健康相关数据的方式。

1956年：“人工智能”（AI）一词由计算机科学家John McCarthy首创，他曾就此问题举行过学术会议。

1990-1999年：大数据作为一个术语出现，用来描述对于传统数据库来说太大或太复杂而无法处理的数据集。

1999 – 2008年：物联网的概念在这一时期发展起来，最初是指通过射频识别技术获取数据。

今天，人类在人工智能方面的能力正在迅速扩张，人工智能是收集和分析每秒通过物联网创建的大量数据的关键组成部分，包括所有连接到互联网的数据。

医疗领域的大数据机遇看似无穷无尽，但也存在许多值得思考的问题：

我们收集哪些类型的数据？

这个数据的来源是什么？

我们已经拥有的数据中存在哪些空白，我们如何填补这些空白？

目前这些数据如何被使用，潜在的其他应用程序是什么？

我们如何保护这些数据以防止网络入侵、数据安全损失和其他形式的网络安全风险？

大数据的四个“V”

医疗大数据的四个“v”包括容量（volume）、速度（velocity）、多样性（variety）和有效性（validity）。由于电子病历（EMR）的广泛采用、精准医学决定因素的加速发现，以及可穿戴生物传感器的迅速发展，个人数据来源的增长，导致了健康数据的绝对数量激增。

收集和利用大数据

传感器、智能手机、医疗设备、可穿戴设备等实时采集和上传信息的进化，导致了大数据的积累。正在收集的数据具有数量大、速度快和多样性的特点，为利用和确保其有效性，使其造福于人类，大数据向基于证据的精准医学提出了挑战。

除了传统的生物健康测量方法，还有大量的社会人口学、地理位置学和非医学元数据，这些元数据都有意义地相互作用，以确定个人或多人的健康状况。

在传统数据系统之间创建互操作性的挑战多种多样。

如今，我们需要跨不同的筒仓数据源集成更广泛的数据。如果要让大数据有意义地塑造护理决策，关键是要确定所有这些不同测量方法的有效性和准确性、它们的派生推论以及我们从这些数据中推断出的可操作结论。

前景：如何利用大数据？

在向基于价值的医疗服务转型过程中利用大数据

尽管这可能看起来令人生畏，但这四个“v”实际上很好地契合了医疗服务转型的需求，即从按服务收费的行业向以信息为基础，以及价值驱动的医疗服务提供模式转变。获取用于描述人群特征的全面数据，以及用于根据个人需求定制决策的精确数据，将至关重要地为医疗策略提供信息并确定优先级，指导针对特定个人的精确医疗决策。

对预防干预的日益重视，对不断演变的患者病情的治疗的不断个性化，以及在整个患者过程中护理的协调，使得获取、解释和持续分析患者病情变得十分必要。它还需要对大量数据进行及时的处理。

健康的社会决定因素是健康结果的重要潜在驱动力，因此需要综合各种各样的数据输入以做出可采取行动的决定，这种数据输入正在迅速扩大。但是，如何从这些数据中形成可执行的决策？

从海量数据中提取信号

人类无法衡量现有的海量数据，也无法独自得出有意义的结论。谷歌脑人工智能研究小组（Google Brain AI Research Group）产品经理、医学博士Lily Peng指出，虽然人类智能最适合整合少量非常“大影响”的因素，但人工智能尤其擅长梳理和识别大量非常“小影响”或模糊因素的模式。这是机器学习和人工智能作为人类智能不可或缺的合作伙伴可以发挥的补充作用，它们可以帮助医疗保健提供者应对来自各个方向的海量、快速和多样的数据。

从这些海量的数据中得出有效的结论，需要重新设计现有的决策过程，将机器学习与人类直觉和领域专业知识结合起来，做出有效的临床决策，提高护理价值。如果适当考虑到将其纳入护理提供和决策的不断发展的模式中，大数据和人工智能可以成为有益变革的有效推动者和催化剂，而不仅仅是给执业临床医生工作流程增加不必要的复杂性。

病人的私人临床医生作为真理的单一来源的日子一去不复返了。无论是谈论心脏病发作、中风、创伤、癌症，还是复杂的急性后护理，决策都是在一组人的共同考虑下做出的，更不用说患者自己的选择和对其病情的研究了。

当我们从应用广泛的人群规范和通用的护理标准，转向根据特定个体的定制需求定制护理时，将需要人工智能分析支持的广泛经验数据来定义与给定患者相关的个体规范。虽然在确定的人群中，进行随机对照临床试验的目的是控制混杂因素，并在实验环境中隔离测试干预的影响，但实际的测试对象很少能准确地反映现实世界中遇到的个体的广泛和多样性。

从实用主义的角度来看，我们不可能根据现实世界中所有细微差别和个性化的遭遇，来设计直接提供护理的试验。因此，人工智能对大数据的解析和分析将在指导个性化现实决策方面发挥重要作用。

利用大数据进行临床决策

如果大数据和人工智能要有效地支持临床决策，就需要克服四个潜在的挑战：

1. 消除数据收集中的偏差；

2. 承认匿名性和特殊性之间的内在冲突；

3.对收集到的数据进行有意义的验证；

4. 理解潜在的因果关系。

分析：利用大数据需要注意什么？

1、克服数据收集中的偏见

医疗数据杂乱无章。在最基本的层面上，尽管我们努力规范医学术语、诊断编码等，但在个体提供者如何描述、概念化和阐明他们对患者的观察方面存在很大差异。通常，对所有数据进行的探索、发现和分析，其有效性和价值仅与底层数据集的清晰性和有效性相同。这些问题只与收集的数据的数量和速度有关，必须对这些数据进行解释。

标准化、语义分类和公认的概念本体是“数据清理”中的一些必要步骤，在大数据集准备好接受人工智能技术的有用分析之前，这些步骤是为大数据集制定标准所必需的。

除了这些考虑之外，每个研究者对大数据的不同也产生了固有的偏见。偏差可以包括评估的数据类别以及如何收集这些数据（例如，对哪些人群进行了抽样，以及使用了哪些抽样工具，可以有选择地包括或排除数据集中的显示）。

假设高维数据的威力存在于数据中未公开的混杂因素下。不幸的是，这一假设远未成为人们放弃的结论，并对人工智能技术从大数据中得出的结论的有效性构成了威胁。例如，如果人们不考虑度量一个变量，而该变量是期望结果的重要驱动因素，那么将明显的结论应用于与混淆者的协变量关系发生变化的情况，则可能是不正确和具有误导性的。

这触及了人类领域经验与人工智能交叉的根源，以及人类大脑处理的“大影响”，而机器正在检测的小影响因素可能会忽略这些“大影响”。

2、匿名性与特异性不一致

从理论上讲，利用大数据力量的过程中，应该允许通过匿名化个人数据点来源，来保护个人身份和健康信息的安全。现实世界中的大数据的价值在于，它可以被分析，从而为指导个体患者的个性化精准医疗决策提供洞见。大数据的广度包含了元数据元素，这些元数据元素有潜力实现个人身份的去匿名化。

最终，在开放共享大数据所产生的价值与重新识别数据源的有限风险（可能侵犯患者隐私）之间，存在一种平衡。人们必须采取适当的预防措施进行结构分析，以避免对患者身份进行反向工程（Reverse Engineering或Back Engineering）。

然而，值得注意的是，共享开放数据的好处超过了对个人不利因素的重新识别。社会将不得不在共享和开放获取数据的好处，以及通过对分割的数据进行反向工程来重新识别个人的有限但真实的可能性之间，进行道德权衡。解决这些问题需要的是人类的智慧，而不是人工智能。

3、创建可证明性

我们有理由假设，对患者及其病情进行更有力的高维描述，将有助于更好地理解驱动特定疾病过程的环境。然而，以这些数据和分析为指导的有效干预措施能否降低成本、提高满意度并改善消费者体验，还有待证明。

因此，我们必须将数据、人工智能获取的知识和知情的临床决策集成到临床流程和工作流中，并将其紧密地交织在一起，以推动患者护理的潜在效益。我们还需要进行适当的结构化临床试验，以证明数据驱动的护理过程带来的增量效益足以证明这些决策所产生的任何成本都是合理的。

热门资讯HOT