医学数据科研——数据自定义导出
编辑导语:数据统计分析是各行业的常见业务,此时如果能提升数据分析的效率,将可以为业务人员降低操作成本,比如在数据导出时,我们是否能实现自定义导出,快速整理目标字段?本篇文章里,作者结合医疗场景,对数据自定义导出一事做了解读,一起来看一下。
一、背景
医学科研是医学进步的动力。通过科学的方法对医学数据进行整理分析,进而得出医学中的诊疗规律,并应用于相同病症的患者,进而提高患者的治愈率。
患者的诊疗数据存储于医院的信息系统中。由于医院信息系统并未提供医学科研相关的分析工具,所以需要使用专业的分析软件对数据进行统计分析。
首先,通过搜索功能找到符合要求的患者记录。然后,设法将科研相关的字段导出。
如果人工将数据导出,那么操作过程将会变成如下过程:从患者列表逐个进入患者详情,从患者详情中找到目标数据。
如果科研的数据涉及到多种业务,那么在同一条患者记录内部,就需要跨多张表单查找目标数据。并手动复制粘贴到系统外的Excel表格中。
整个数据导出过程中涉及多次打开系统、关闭系统,打开表单、关闭表单,在表单内查找目标字段,耗费了大量的时间成本,还存在数据粘贴在错误位置的可能。
如何能够快速将目标字段整理出来?就是我们今天讨论的主题——数据自定义导出。
二、数据自定义导出
数据自定义导出,指的是从变量池中根据需求选中符合要求的目标变量,以某种格式的文件一次性从系统中全部导出。
例如,系统提供600 个变量可用于数据导出。在做胃部分切除术相关的研究时,从中选择了30个字段导出为CSV文件。
其中, “600 个变量”就是“变量池”,指的是系统中允许被导出的所有字段。
- “30 个字段”就是“目标变量”,指的是本次需要导出的变量。
- “CSV 文件”就是“某种格式的文件”,指的是以数据导出后的使用目的为导向,生成相应格式的文件。
- “从 600 个变量里根据需求选择了 30 个变量”,即“自定义”,指的是用户可以根据需要从变量池中选择任何变量,并且变量数量不受限制。
首先,将不同业务内、不同表单内的导出频率高的字段组合在一起形成变量池。省去查找目标字段时的,表单切换和表单阅读的时间。
然后,将在数据导出时,对数据格式进行处理,使其满足目标软件的要求,然后将导出后的数据直接导入到目标软件中。缩短了数据格式进一步加工的时间。
通过这两步,大大提高数据导出的效率。
1. 变量池
医疗业务复杂,一个人无法处理所有的业务,所以需要将业务拆分成不同的部分,由不同的专业人员负责不同的业务范围,只有这样才能让系统正常运行。
例如,张技师和王技师分别负责实验室检验部分和影像检查部分的业务。如果张技师去负责影像检查部分的业务,由于对影像业务的完全不熟悉,该段时间内的影像检查部分的业务将停滞。与之相关的业务都将收到影响。
医院信息系统中与患者诊疗相关的系统包括门急诊电子病历系统、住院电子病历系统、实验室检验系统、影像学检查系统、手术麻醉系统等系统。
住院电子病历系统中包括住院医生工作站、住院护士工作站、病案管理工作站等,存储了患者的长临医嘱、用药信息、日常病程记录、既往病史、家族史等信息。
不同的模块、不同的表单存放不同的患者信息。查找需要导出的字段时,需要翻阅不同的系统,在系统内部切换不同的表单,在表单中找到需要导出的字段。整个过程耗费大量时间,严重影响字段查找效率。
例如,导出患者胃部分切除术手术及手术前后的相关信息,则需要前往手麻系统、电子病历系统、检查系统、检验系统等。在某个子系统中,仍然需要找到患者,并且进入患者详情找到对应表单内容。整个过程耗费大量时间。
有没有一种可能将可能用于导出的字段放在一起,不需要切换系统、表单逐个查找。
变量池就是将不同业务系统、不同表单中可能会用于导出的字段名称放在一起。
变量池具备字段数量多、字段多值性的特点。
1)字段数量多
字段数量多,指的是可以用于导出的字段数量比较大。
出现这种情况的原因是,不同科室在做数据分析时关注的重点不同,需要导出的字段不完全一致。为了满足这么多的导出需求,就需要把可能涉及到的字段全部放在变量池中。
一个分析方向可能会导出二三十个变量,需要支持几十个可能的分析方向。对字段进行去重以后,变量池内的字段数量同样也会达到几百个。
变量池内字段较多时,通过人眼从中找到某一个字段,耗时较长。
可以按照字段所属业务系统、所在业务表单对字段进行分组。直接选中目标字段所在表单,缩小字段查找范围,提高字段查找效率。
也可以通过搜索功能,通过输入目标变量的字段名,直接定位到目标变量所在位置,提高字段查找的效率。
例如,为了支持肝脏介入科的数据分析工作,将可能用到的字段进行整理,共计整理出 300 个字段(下图字段仅做示例)。
将字段按照所在表单进行划分人口学、现病史、检验、手术,可以通过点击左侧的表单列表,将字段的范围缩小到几十个变量。也可以在搜索框内输入字段名,直接定位到该字段的位置。
2)字段的多值性
字段的多值性,指的是同一个患者的同一个字段会有多个结果。
例如,张三的血常规中的白细胞计数字段有 11 个结果。
产生字段多值的原因是,患者症状在变化。为了让记录不断变化的病情,需要做多次检验检查,并据此调整治疗方案,最终产生了多个值。
例如,患者张三随着放疗的进行,身体状况在不断变化。通过检验检查等手段来测量身体的各项指标。放疗 2 个月,共做了 7 次检验。使得检验部分的字段产生了 多次结果。
而研究时往往关注患者在某个状态下的指标情况,即从众多结果中找到某一个特定的结果。
例如,研究胃部分切除术的情况时,需要了解术后第一次白细胞计数的结果。此时就需要精准的找到患者的该次白细胞计数的值。
所以就需要给具有多值性的字段增加一个限定条件。
常见的限定条件有:
- 针对数值型字段有全部、最大值、最小值、最早一次、最近一次、平均值。
- 针对文本型、选项型日期型字段有全部、最早一次、最晚一次。
上述说的限定条件都有一个默认前提,“在所有的时间范围内”,即在患者的整个就医时间范围内,但是实际研究中,我们可能需要的是患者在某个特定时间内某个状态的结果。
例如,需要患者在“最近一次胃部分切除术后的第一次白细胞计数结果”。其中,特定时间值得是“最近一次胃部分切除术后的所有时间”。
此时需要先找到该患者的最近一次,胃部分切除术的时间点,最后以该时间为基准时间点。然后去所有的血常规检查中查找白细胞计数。根据血常规的检查时间,定位到具体的某一次结果。
这种限定类型称之为“事件-时间”型,即先通过某一个具体的事件,以该事件发生的时间点作为基准,在该基准前 / 后某段时间范围内,目标字段的特定值。常见的事件有“放疗、化疗、手术、用药、临床诊断、病理诊断等”。
2. 特定的数据格式
科研的需求一直存在,为了满足科研需求,专业统计分析软件应运而生,并逐步发展。常用的软件有spss、SAS、R等。其中SPSS从1984年开始发展,到2009年已经将数据管理、数据分析做到非常完善的地步。
而2009年,中国首次将医疗卫生信息化定性为支撑改革的支柱,在国家级层面提出发展信息化的要求。此后医院信息化软件迅速发展,前期以业务信息化为主。2014年才开始重点转移到健康数据上。
如果此时医院信息系统再集成或者开发统计分析软件,需要投入大量的金钱和精力,而且医生的接受度如何都是未知数。医院自行开发或采购的意义都变得不大。
造成了现在的情况,医院现有的软件系统中医学统计分析部分缺失,统计分析工作需要在专业统计分析软件中完成的。所以当医生想要做医学统计分析时,就需要将数据从在医院信息系统中导出。
数据导出后,需要手动对数据格式处理,才可以满足目标软件的需要,浪费医生的时间。
怎么才能让数据导出后,不需要额外的数据处理,直接被目标软件所使用,从而减少医生时间的浪费。
在数据导出时,由系统完成数据格式处理的工作,数据被导出后可以直接导入分析软件,从而节约数据处理的时间。
在数据导出时,根据目标软件的需要,生成特定数据格式的文件。数据文件被导出后可以直接导入分析软件,从而节约数据处理的时间。
特定的数据格式,指的是医疗信息系统往统计分析软件传输数据时,按照统计分析软件对数据格式的要求生成数据。
以将数据导入spss分析为例。
spss对导入数据有以下要求:
- 文件格式为Excel或csv。
- 同一个案的数据要单独占一行。
- 每一个测量指标只占一列。
- 测量指标的结果为数值型。
如果导入的数据不符合要求,则数据导入失败,需要手动对数据进行调整,然后再重新导入。
为了保证数据能够直接导入spss中。导出的数据需要满足:
- 文件格式为Excel或csv。
- Excel中同一个案的数据要在一行,每一个测量指标占一列。
- 确保数值型字段的数据类型为数字,而不是文本。
- 将枚举型的值替换成数字。
系统将处理好格式的数据,以Excel文件的形式传递给前端页面。用户将文件下载下来以后,直接导入spss做分析工作。
三、总结
由于医疗信息化和专业统计软件的发展速度不均衡,造成了医院信息系统与统计分析软件互不相通。所以医学数据统计分析时,需要先数据导出,再导入分析软件。
2014年,中国提出“46312”计划,开展“健康中国云服务计划”,国内的医疗大数据产品迅速崛起。临床大数据公司纷纷成立,医院开始建设临床数据中心。医院信息化从业务信息化发展到临床数据精细化。
各大数据平台不仅开始增加传统的统计分析工具,也增加了基于深度学习、机器学习的的新的分析方法。这使得我们可以在大数据平台中完成统计分析工作。不过易用性、使用习惯仍需要不断打磨。
相信不远的将来,再做医学数据统计分析时,可以在院内大数据平台中,无缝完成数据分析工作,不再需要将数据导出。
PS:与之前完成的数据的高级搜索刚好组成一体,通过高级检索搜索到目标患者,然后将需要的字段导出。
本文由 @山南 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Pexels,基于 CC0 协议
感谢分享
数据自定义导出对于办公而言确实是很好的存在,但是也要保证精准性
准确度是基础
这个操作看起来很是高级,不过不得说身边的医学生每天看书都是大堆大堆的