大数据技术驱动的真实世界研究?素质很重要!

医疗大数据技术公司如今正如雨后春笋般崛起,越来越多的专家开始利用大数据技术进行真实世界的数据收集和处理。相信不久的将来,中国的海量医疗数据,会在大数据技术的帮助下,爆发出惊人的真实世界研究成果,让我们拭目以待。

真实世界研究(RWS, Real World Study)是今年医疗界最热门话题之一。

2016年12月7日,美国《21世纪治疗法案》中增加了一条修正条款——“利用真实世界证据”提速药品和医疗器械审批。随后,FDA官员又在《新英格兰医学杂志》发表了题为《真实世界证据——它是什么以及它能告诉我们什么》的文章。此后,几乎所有的医学学术会议中,“真实世界”成为了必备关键词。

真实世界证据(RWE, Real World Evidence)和临床试验证据的本质区别在于获取数据场景的不同。

  • RWE源于实际医疗场地或家庭社区等真实医疗场景
  • 临床试验证据来自于严格受控的科研场景

两者之间的区别并非在于是否存在计划干预实验和是否采用随机化实验设计,而是是否能够反映真实的诊疗过程和真实条件下的患者健康状况。换言之,不管有没有科研目的,医生的每一个诊疗活动所产生的相关记录,患者的每一个检查结果,都可能在合适的时机,被用于RWS。

真实世界研究需要大数据技术

真实世界中有价值的医疗信息分布非常广泛,所以,要在真实世界进行信息挖掘,就要尽可能全面地采集信息并进行整合。欧美国家的医疗信息化开展得比较早,北欧有些国家也已经实现了全民健康信息规范化采集,在这些区域开展RWS有较大优势。中国的医疗数据虽早已达EB级别,却被“三座大山”的压制,让数据沉睡不醒:

  • 数字化程度不高导致“原材料”缺乏
  • 数据标准不统一导致数据无法流动
  • 数据孤岛导致数据无法大规模使用

大数据技术可以集成多源异构数据并进行强大的统计分析,同时可以对原始数据进行溯源,避免原始数据的错误,提高数据处理效率和准确性。大数据技术的运用正是搬走三座“大山”,开展真实世界研究的最佳基础工具。

支持RWS的医疗大数据需要怎样的“素质”?

第一,数据要实现以患者为维度的数据集成和整合,而不是疾病或治疗维度。在传统的病历注册登记研究或临床研究中,一位肿瘤患者的初治和复发情况时长会被割裂为两个病例,那么就很难获得这个患者在真实诊疗中接受治疗和病情转归的情况。哈佛医学院2015年发表的一项RWS就发现胰岛素抵抗和老年痴呆症具有相关性——如果不是将患者所有的诊疗数据都整合在一起,而是仅单独看神经内科收集的老年痴呆症的数据,或单独看内分泌科收集胰岛素抵抗的数据,就难以有这样的发现。

第二,数据要经过预处理,尤其是被标准化和结构化。想从真实世界研究中获得不同于传统临床研究的“惊喜”,就意味着要有更多的特征变量可直接被用于统计分析。举个例子,有位医生想做心力衰竭患者出院一年再入院影响因素的研究,首先需要根据Framingham标准筛选到心衰患者,其次再去提取这些患者的特征性变量,最后再分析哪些变量与心衰再入院有相关性。该医院2010年-2015年间有14,985例疑似“心力衰竭”的患者,但绝大多数数据,尤其是Framingham标准所需用到的数据都是非结构化的,需要人工从原始记录中提取。常规操作下这一项工作就需要耗费一个中年资医生两年多的时间。而现在的大数据技术,可以在对医院信息系统集成的基础上,对数据进行预处理,也就是通过归一化技术,把相同意思的词汇归一到标准词上,做标准化处理;通过结构化技术,把医生的长文本描述内容转化为标准的字段和值。比如医生在主诉中记录“胸闷、喘息2小时”,这在数据技术上就转化成了“胸闷=是,喘息=是”。利用这种技术,医生仅仅用一周时间就能完成患者筛选和数据收集,大大缩短了研究时间,提高了研究质量。

第三,数据来源要尽可能广泛。越是要贴近临床真实情况,反映患者的真实健康状况,越要尽可能全地收集数据。真实世界研究的数据来源非常广泛,可以是患者在门诊、住院、检查、检验、基因、社区健康档案、随访和可穿戴设施等数据,也可以是医保部门、社会机构、公共卫生部门日常监测、记录和保存的数据。比如关节科医生,为了更好地研究患者的康复情况,在收集医院内部数据的基础之上,还设计了一套针对不同类型患者康复数据的收集计划。每一个经过关节科诊治的患者都会根据计划接到随访信息,患者根据医生的治疗计划填写主观量表或上传其他医疗数据,同时还在尝试接入可穿戴设施产生的数据。相信数年积累之后,就会有高水平的RWS产出。

第四,数据使用者需要具备一定的数据分析建模能力。数据尽可能广泛地被收集,并且被做了一定的预处理,那么可直接被用于统计分析的特征变量动辄成百上千。要想拨开纷杂找规律,统计分析工作量可想而知。如果没有一定的数据分析建模能力,有了数据也难以充分利用。英国的一项研究发现,机器学习算法如随机森林、logistic回归、梯度提升和神经网络等算法可以在没有人类指示的情况下就自动建立心血管疾病相关的预测模型。对疾病的深刻认知和数据分析建模能力,可以赋予真实世界研究更强的发现能力。

具备上述特征的医疗大数据及其分析技术,是进行真实世界研究的有效保障。。

医疗大数据技术公司如今正如雨后春笋般崛起,越来越多的专家开始利用大数据技术进行真实世界的数据收集和处理。相信不久的将来,中国的海量医疗数据,会在大数据技术的帮助下,爆发出惊人的真实世界研究成果,让我们拭目以待。

本文作者:刘颖慧, 开心生活科技,医学产品经理 ,原呼吸内科主治医师,医学博士

Avatar photo

mrclub

「医药代表」微信公众号(ID:mrclub)

您可能还喜欢...