王咸宁:医疗健康数据预处理与可视化方法_缺失_信息

(WangXianning:MedicalHealthDataPreprocessingAndVisualizationTechnology)

一、医疗健康数据预处理

（一）现状与场景分析

在医疗数据挖掘中，数据预处理成为影响数据挖掘任务成功与否的关键因素之一。现实世界中，数据常因各方面侵扰而使得数据挖掘的质量降低。同时，在数据挖掘中，如果数据的维度特别的高，这也会大大地增加数据挖掘的难度和时间，降低数据挖掘的效率。而通过数据预处理可以有效提高数据质量，节约大量的时间和空间，最终提高挖掘的效率和质量。因此，数据预处理技术同样也在医疗领域得到了相当的重视。目前，有的医院对病人电子病历EMR数据进行数据集成和清理并提取信息，从而有效提高对直肠癌预测的准确率；同时，也有利于直肠癌的早期发现和干预治疗实践。而另一个案例，则是收集医院重症监护病房的数据预测脓毒性休克患者的存活与死亡结果。由于该类数据往往是不定期记录的，因此存在缺失值过多和采样时间不均匀的问题。于是采用数据预处理技术填补缺失值并且解决采样时间不均匀的问题，提高了挖掘数据的质量。再如对于病人的体检报告，医生结合检查者的个人信息及以往身体检查记录，可以分析出检查者的身体状况并为其提供相关的预防措施和健康指导。然而，信息技术与医疗领域之间的学科差异导致现有体检数据库存在许多问题，如异常值较多、基本信息缺失、体检项目名称不统一、指标参考值度量单位不同、唯一标识码缺失等等，这一系列问题都会影响数据挖掘的质量。因此，在使用这些历史体检数据进行挖掘前，对数据进行预处理是至关重要的。在医学图像方面，自动诊断皮肤癌是最具挑战性的问题之一。它可以帮助医生决定皮肤黑素瘤是良性的还是恶性的。通过数据预处理去除图像无关的噪音和不必要的背景图像，从而光滑图像，有效提高图像的质量。

然而就普遍现状而言，数据处理在医学研究领域的发展仍然充满机遇与挑战。由于各个医院之间都是独立的，从而对患者的数据共享产生了阻碍，使得转换利用率低下；因此需要加强医学研究大数据的整合与共享。另外，由于信息技术与医学研究两门不同学科间的鸿沟，针对两者融合的研究较少。因此，医疗健康领域的预处理技术，一直是一个亟待深入研究的领域。

（二）数据预处理的核心步骤

健康医疗领域的数据预处理工作主要包括数据清理、数据集成、数据归约和数据变换四个步骤。

1.数据清理

现实世界的数据常呈现出信息不完整、表达信息不一致和受噪声影响大等特点。数据清理则通过识别或删除离群点来光滑噪声数据，并填补缺失值从而“清理”数据。因此，数据清理的主要任务为：缺失值处理、光滑噪声数据。

1)缺失值处理

数据缺失是一个存在于许多领域且无法避免的复杂问题。在数据挖掘过程中，空值的存在会引起很多问题。例如，空值的存在会导致系统丢失大量有价值信息；其次，系统中蕴藏的确定性信息更难以把握，不确定性更加显著；再次，包含空值的数据降低挖掘质量，导致不可靠的输出。因此，采用合适的方法对缺失值进行填补是必要的。在填补缺失值的处理上有以下几类处理方法：

(1)删除元组。删除元组是一个最简单直接的方法，该方法通过删除存在遗漏信息的对象并整合剩余对象，从而得到一个完整的信息表。当数据信息表中含有缺失值的对象比例很小时，常使用该方法处理。然而，这种方法虽然保持了数据的完整性，却在减少历史数据时丢弃了隐藏在数据对象中的信息，造成了资源的浪费。除此之外，当遗漏数据在整个数据集中占据比例较大，特别当这些数据呈现非随机分布时，使用该方法可能导致数据的偏离，最终导致挖掘质量低下。

(2)人工填写缺失值。顾名思义，因为用户本人最了解自己的信息，因此使用该方法填充的数据真实可靠，具有数据偏离最小，填充质量最优的优点。然而，在医疗信息库中，病人的临床检验结果并非都能在特定时间内轻易得到，因此该方法实现较为困难。同时，当待填充数据规模大、空值较多时，该方法耗时较长。

(3)中心度量填充。该方法使用现存数据中的多数信息来填补缺失值。信息表中的属性按类别可划分为非数值属性和数值属性。当空值为数值型时，则根据该属性取值的平均值来填充缺失值；当空值是非数值型时，则根据统计学原理，使用该属性取值频次最高的数据来填补缺失值。

(4)多重填补。多重填补是以贝叶斯估计为基础的，它的主要思想为：待填补值是随机分布的，并且这些信息可以从已观测到的数据得到。具体步骤为：首先，为每个空值产生一套可能的填补值，分别使用这些值进行缺失值填补，从而产生若干个完整数据集；然后，使用挖掘技术对每个填补后的完整数据集进行挖掘分析；最后，通过分析各填补数据集的结果，选出最佳填补方式。

(6)使用最可能的值填充。随着人们对缺失值处理方法的研究的深入，逐渐将数据挖掘的方法应用于填补缺失值上。例如用回归、贝叶斯形式化方法，或者决策树、随机森林确定最可能的缺失值。其基本思想是通过建立应变量Y和自变量X的模型来预测确实变量Y中的缺失数据。通过这类方法得到的估计值往往更加接近真实值，但构造和评估模型的过程比较复杂，需要对模型进行评价。本文的下一章将会对这类相关技术展开详细阐述。

2)光滑噪声数据

同时，由于数据收集的填写不规范、数据管理维护不当等因素往往会使数据库受噪声的侵扰，这些噪声数据直接影响着挖掘分析结果。目前，主要存在以下的数据光滑技术：

(1)分箱。分箱方法的主要思想为：每一个数据与它的“近邻”数据应该是相似的，因此将数据用其近邻（“箱”或“桶”）替代表示既可以光滑有序数据值，还能在一定程度上保持数据的独有特点。

(2)回归。回归技术是通过一个映像或函数拟合多个属性数据从而达到光滑数据的效果。线性回归则是寻找一条“最佳”直线来拟合多个属性，从而实现使用其中的某些属性预测其他属性。

(3)离群点分析。聚类可以将相似的值归为同一“簇”中，因此主要使用聚类等技术来检测离群点。

总而言之，数据清理是一项比较繁重的任务，它会随着数据自身的特点和挖掘需求采取相应的措施。因此，并没有一个步骤一致的数据清理过程。

2.数据集成

数据处理过程中常需进行数据集成——将来自多个数据库存储的数据统一存放到一个统一的数据存储中。现今各个医院设计的系统并非统一管理，因此每个医院对自己的数据库有着独特的管理方式，这便使得合并数据库实现信息共享变得十分困难。很明显，直接将两个不同设计不同的数据库合并到一起是不可行的，这可能会造成数据集的冗余和不一致，因此如何匹配多个数据源的模式和对象，是数据集成解决的主要问题。在实际应用中，数据集成解决三类问题：实体识别、冗余和相关分析以及数值冲突的检测与处理。

1)实体识别问题

数据集成涉及许多问题，实体识别则是寻找匹配来自多个数据信息库的等价实体。例如，一个数据库中的属性名patient_id与另一个数据库中的属性名patient_number表示含义是否相同。每个属性的元数据包括属性名、现实含义、数据类型、取值范围，以及处理零或空白时的空值规则。元数据的统一设计不仅可以有效避免模式集成的错误，还能在变换数据时也起到一定作用。例如，对于sex这个属性，在一个数据库中用male和female表示，而另一个数据库则用数字0和1来表示。在对多个数据库进行集成时需注意的是：相同的属性名并不意味着相同的数据结构或含义。例如discount这个属性除了表示折扣率以外，还可用于表示商品是否处于打折状态；如果在集成之前这些差异未被发现，则会为之后的数据挖掘造成困难。

2)冗余和相关分析

当对多个数据库集成时，常会出现数据冗余现象。例如一个人的出生年份可以通过年龄导出，那么出生年份这个属性就是冗余的。或者对于同一现实实体，不同数据库有其相对应的属性，因此集成也会造成数据冗余。分析冗余有很多方法。首先，可以将数据进行可视化处理，将数据点绘制成图表后趋势和关联会变得清晰起来。除此之外，冗余还可以通过相关性分析方法检测。对于标称数据，可以使用卡方检验；对于数值属性，可以使用以下两种方法进行分析。（1）协方差（Covariance）（2）相关系数（Correlation）。通过相关性分析可删除冗余数据，以达到精简数据集，降低计算复杂度的目的。

3)数值冲突的检测与处理

对于现实世界的同一实体，由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。例如，对于身高这一属性，在一个系统中可能以“微米”作为度量单位，而在另一个系统中则可能以“厘米”作为度量单位。数据语义的多样性和每个属性的元数据对数据集成提出了巨大的挑战。但是将多个数据源的数据进行集成可以提供更多的参考数据，有利于挖掘出更有价值的信息。因此，谨慎地进行数据集成可以降低数据集的不一致性和冗余，有助于提高之后挖掘过程中的精度和速度。

3.数据归约

对海量医学数据的分析和挖掘不仅增加了技术的复杂度也大大延长了挖掘的时间，针对这一类问题，数据归约技术应运而生。该技术使用精简的数据集来代替原始的庞大数据集；它虽比原始数据集小得多，但却良好的保持了原始数据的完整性与独有特性。对于复杂庞大的数据集，数据归约步骤必不可少。它不仅可以有效降低挖掘复杂度，减少挖掘时间，还具有良好可靠的挖掘质量。

长久以来，数据库中的属性不断地增加，这为数据挖掘提供了更加丰富、细致的信息。显然随着数据信息量及维度不断地增大，造成的“维度灾难”成为了数据挖掘工作者们面临的一大难题。维归约技术主要解决数据维度过于庞大的问题，它的主要思想是减少随机变量的个数。根据是否数据变换，将其分为特征提取和特征选择。

特征选择是一种对属性子集选择的方式，其目的是检测对挖掘结果无影响或影响较小的属性并将其删除。它的好处包括：便于理解和可视化数据，降低数据集维度，从而降低计算及存储压力。现在有三种主流方法：过滤式，包裹式，嵌入式。

1）过滤式。这种方法的关键就是找到一种能度量特征重要性的方法，比如上节中提到的卡方检验，相关系数等。该方法的主要缺点是忽略了特征之间可能存在的相互依赖关系，也忽略了对冗余特征存在和不明显特征的的考虑。

2）包裹式。这类方法的核心思想是：给定某种模型及预测效果评价的方法，

然后针对特征空间中的不同子集，计算每个子集的预测效果，选择效果最好的特征子集作为最终特征子集。不过由于包裹式方法要求针对每一个特征子集重新训练模型，因此计算量还是较大的。

3）嵌入式。该方法是在模型的训练过程中对特征进行选择，比如决策树在分枝的过程中，就是使用的嵌入式特征选择方法，其内在还是根据某个度量指标（如信息熵）对特征进行排序。

特征提取则是寻找一个映像或函数将原始数据集中的高维数据转换成低维数据，即通过更少的维度来表示数据内部的本质结构特征。数据降维技术依据数据间的关系，可将其分为线性降维和非线性降维。线性降维技术通常假定数据的各变量是相互独立的，通过线性降维把数据投影到低维线性子空间。主要的线性降维方法有：主成分分析，独立成分分析，线性判别分析。非线性降维比线性降维稍复杂些，它假定各个属性间呈强相关性，并具有高度的非线性特点；例如文本数据、音频数据、视频数据、图像数据等。这些数据结构复杂，因此需要采用非线性降维。比较流行的非线性降维方法有：局部线性嵌入，等距映射算法，拉普拉斯特征映射算法等。

4.数据变换

不同的医疗信息系统都有自己独有的数据库管理方式，需求的不同会导致数据库设计和管理的差异，即元数据的数据类型和允许取值范围会根据实际情况而调整。因此在数据集成时也应该对数据属性进行统一的变换。除此之外，数据处理技术有时也会对数据格式有特定限制。比如在用决策树进行分类时，就必须保证属性都是数值型的。因此，需对数据集进行相应的数据变换。常用的的变换策略介绍如下。

1)数据规范化

数据规范化的目的是将数据按比例缩放，使得属性之间的权值适合数据挖掘。例如，统计身高信息的度量单位是有所不同的，若在数据挖掘中把height属性的度量单位从米变成英寸，则可能导致完全不同的结果。一般而言，度量单位的不同将导致属性的值域取值范围不同，也因此该属性的权重在分析过程中会发生相应的变化。在对指标参与评价的计算中，需要对指标的度量单位和取值范围进行规范化处理，通过合适的函数变换将其映射到设定的数值区间。

2)数据离散化

数据离散化是将数值属性的原始值用区间标签或概念标签替换的过程，它可以将连续属性值离散化。

3)概念分层

概念分层的主要思想是将低层概念的集合映射到高层概念的集合，它广泛应用于标称数据的转换。通常情况下，分类属性的概念分层往往涉及一组属性。可以通过专家或用户对属性进行偏序或全序的设定，从而对属性进行概念分层。

二、医疗健康数据可视化方法

（一）数据可视化概述

在计算机科学的分类中，利用人眼的感知能力对数据进行交互的可视化表达以增强认知的技术称为可视化。大数据可视化不仅利用数据挖掘技术从数据中挖掘有用的信息，而且还要把数据挖掘技术得到的信息向用户直观地展示。面对复杂的医疗数据和日渐增长的就医需求，医疗大数据可视化是最为行之有效的工具。它具有挖掘数据价值，预测疾病发展趋势，辅助临床诊断，研发生物医药等方面的作用，从而推动大数据时代背景下智能医疗不断前进。

随着“互联网+”的迅速发展，我国健康医疗大数据呈爆炸式增长，面临着海量数据和非结构化数据处理的挑战。近年来很多国家都在积极推进医疗信息化发展，医疗健康大数据的分析和应用发挥了巨大的作用，大大提高了医疗效率和医疗效果。传统医学是患者生病后由医生来治病，而目前疾病预防重于治疗，强调医生应该对“健康人”进行健康管理，把疾病治疗的关口前移。因此，医疗健康大数据的重要性和有效性突显出来，采用医疗健康大数据可视化技术变得尤为关键。

（二）医疗健康大数据可视化方法

大数据可视化技术包含传统的科学可视化和信息可视化，从大数据分析以挖取信息和洞悉知识作为目标的角度出发，信息可视化技术将在大数据可视化中扮演更为重要的角色。大数据分析技术不仅对结构化数据有很强的处理能力，对非结构化数据的分析能力也日益加强。例如医疗影像（X光片、CT、MRI）数据可以借助于图像识别技术，通过区分不同灰度值来判断病灶的精确位置，从而使得临床决策支持系统更加智能化，给医生提供更合理的诊疗建议。尽管医疗大数据信息类型繁多，但强大而灵活的可视化技术，可以增强医疗大数据可读性。为便于对医疗大数据进行进一步的理解和应用，对不同类型的医疗大数据可视化方法进行分类研究显得尤为重要。

1.时空数据

时空数据是指具有地理位置与时间标签的数据。传感器与移动终端的迅速普及，使得时空数据成为大数据时代典型的数据类型。时空数据可视化与地理制图学相结合，重点对时间与空间维度以及与之相关的信息对象属性建立可视化表征，对与时间和空间密切相关的模式及规律进行展示。大数据环境下时空数据的高维性、实时性等特点，也是时空数据可视化的重点。

1)空间标量场可视化

(1)一维标量场可视化

一维标量场可视化：沿某一条路径采样得到的标量场数据，用线图形式呈现出数据的分布规律。在血常规化验单中，血项数值会使用一维标量场可视化呈现出结果，如下图所示。

此方法适用于各种生物化验结果的显示，如血常规中的红细胞RBC（俗称红血球）、白细胞（俗称白血球）、血小板计数PLT等血项。通过观察数量变化及形态分布判断疾病，是医生诊断病情的常用辅助检查手段之一。另外该方法还适用于佩戴式的移动医疗保健检测仪器中，佩戴者通过观测身体各项指标来及时监控自己的健康状况。

(2)二维标量场可视化

二维标量场可视化：通过在二维面上标量数据的分布特征表现出来。比如用于医学诊断X光片的颜色映射法，如下图所示。

此方法适用于X光片技术，由于穿过病灶后映射出灰度图像的深浅不同，可判断出是否有病灶及其精确位置，从而帮助医生快速确诊。

2）地理信息可视化

地理信息可视化是地理信息传输的关键步骤，其理论与技术的拓展将为地理信息传输效果的提升提供更有效的途径。

(1)点数据可视化

透过地理空间中的离散点（数据对象），具有经纬度的坐标，用于表示数据对象的发展现状。透过数据对象属性（颜色、大小）区分，遵循指定的原则来可视化出其发展程度。此方法适用于分析历年病例，通过统计不同时段不同地区各类常见疾病的发病情况，实时预测是否有异常出现，从而推断出是否有新病种或疫情出现。

(2)线数据可视化

地理空间数据中，线数据是连接两个或者多个地点的线段或路径，可展示地区性遗传疾病和流感发病预测的分布情况。为了反映信息对象随时间进展与空间位置所发生的行为变化，可通过信息对象的属性可视化来展现。流式地图Flowmap是一种典型的方法，见下图所示。

此方法适用于控制突发性传染病蔓延趋势，通过分析病疫情的来源及蔓延趋势程度，及时准确收集信息，做出高效的应对方案，切断传染源，控制疫情的发展。

(3)区域数据可视化

地理空间的一个区域中有长度也有宽度，是由一系列点所标识的一个二维的封闭空间。目的是为了表现区域的属性，在不同区域中，分析人口密集度，便于政府考虑数据分布和地理区域大小对称性。此方法适用于区域卫生数据的分析和预测，结合地理位置、环境污染程度和经济形势等因素，监测新生儿死亡率或慢性病的发病情况。同时也可判断是否出现地域性遗传病。

3)时变数据可视化

随着时间变化、带有时间属性的数据称作时变数据（temporaldata）。

(1)时间属性可视化

将时间属性或者顺序当成时间轴变量，每个数据实例是轴上某个变量值对应的事件。此方法适用于日常门诊，通过分析每日就诊量及候诊时间等信息，借助日历视图和时间属性图，全面研究和分析日常就诊的每个业务过程的瓶颈，从而改善日常工作就诊的服务质量。见下图所示。

(2)流数据可视化

通过流模式生成流数据，一类特殊的具有无限长度的时间轴的时变型数据。按功能可以把这样的数据分为两类。第一类为监控型，是用流动窗口固定一个时间区间，把流数据转化成静态数据，数据更新方式是刷新，属于局部分析。第二类是叠加型，是把新产生的数据可视映射到原来的历史数据可视化结果上，更新方式是渐进式更新，属于全局分析。此方法适用于按日期销售药品量，对各大医院、社区医院和网络销售等不同渠道的药品销量进行分析。通过数据流可视化图预测近期高发疾病，以便制药公司、各大医院提前准备药品，防治多发疾病。见下图所示：

2.非时空数据

1)层次和网络数据可视化

对于具有海量节点和边的大规模网络，如何在有限的屏幕空间中进行可视化，将是大数据时代面临的难点和重点。除了对静态的网络拓扑关系进行可视化，大数据相关的网络往往具有动态演化性。

(1)层次数据可视化

层次数据是一种常见的数据类型，着重表达个体之间的层次关系，可以抽象成树结构，这种关系表达了包含和从属的关系。层次数据可视化的要点是对数据中层次关系（即树形结构）的有效刻画。见下图所示。

层次数据可视化分为两种方法。第一种是节点-链接法，将单个个体绘成一个节点，节点之间的连线表示个体之间的层次关系。代表技术为圆锥树、空间树等，常常表达承接的层次关系。见下图：

此方法适用于检测数据之间的排斥反应，通过大量的医学数据分析，找出某几种疾病或某几种药之间的不良反应；同样此方法适用于各种疾病之间的关联以及全基因组关联性分析。

第二种是空间填充法。从空间填充的角度实现层次数据的可视化，数据描述采用树的结构。在树图中，采用矩形表示层次结构里的节点，父子节点之间的层次关系用矩形之间的相互嵌套隐喻来表达，此方法可以充分利用全部的屏幕空间。树图组织比较适合用于层次结构不复杂的数据结构系统。如下图所示。

此方法适用于临床决策支持，在医生诊疗过程中，通过大数据分析给出更加合理精准的医疗方案。

(2)网络数据可视化

网络数据不具有自底向上或自顶向下的层次结构，因此表达更加自由。这决定了网络数据可视化分为以下两种方法。

第一种是弧长链接图法，即节点-链接法的变种，采用一维布局方式，节点沿某个线性轴或者环形排列，圆弧表示节点之间的链接关系。此方法适用于用药情况分析和日常病情监测，能够辅助检测出是否有病变的可能，最终引发其他疾病的情况。如下图所示。

第二种是力引导布局图，用节点表示对象，线表示关系的节点-链接布局，是自然的可视化布局。如下图所示。

此方法适用于基因关联分析，如患II糖尿病人群基因组分析检测，从胰岛代谢、基因表达等角度对病人的敏感位点进行分析，通过分析找出II糖尿病的患病根源。

2)文本和文档可视化

(1)文本内容可视化

文本信息内容是大数据时代非结构化数据类型的典型代表，是互联网中最主要的信息类型，也是物联网各种传感器采集后生成的主要信息类型。文本可视化的意义在于，能够将文本中蕴含的语义特征形象化表达。根据不同的形态，把文本内容分为以下两种。

第一种是标签云，即一套相关的标签以及与此相应的权重。权重影响使用的字体大小或其他视觉效果。标签是典型的超链接，因此标签云是可以交互的。此方法适用于医疗领域中所有文本信息的可视化，如病例信息、临床医疗记录、药物清单，甚至是网络论坛中医疗保健信息。通过分析用户在各大网站搜索相关疾病的记录，发现高频出现的疾病名称，并预测疾病的发展趋势，及时准备治疗流行病的方案。如下图所示。

第二种是文档散，又称旭日图法，该图采用关键字作为可视化文本的内容，并且参考关键字在人类词汇中的关系来对不同的关键字进行布局，从而描述出关键词之间的语义层次关系。文档散中，外圈词汇是里圈词汇的下义词，圆心处的关键字是文章所涉及内容的最顶层概述，如下图所示。

此方法适用于疾病的自我检测，通过社交网络共享自身病例和医疗记录。基于后台大数据处理技术，患者可以测量自我疾病发展程度，参考同病症的患者用药记录决定自己的用药治疗方案。

(2)文本关系可视化

基于文本关系的可视化目的是将文本或者文档里的内涵关系进行可视化描述，如文本之间的应用、网页之间的超级链接关系、文本的相似性和文档集合内容的层次性等。此方法适用于从大量的电子病历中检索出有价值的字段，通过单词树来分析就医者自述的病症信息，快速推断出患者的疾病。见下图所示。

3)复杂高维多元数据可视化

复杂高维多元数据是指具有多个维度属性的数据变量，广泛存在于基于传统关系数据库以及数据仓库的应用中，例如病人信息系统及药物智能系统。高维多元数据分析的目标是探索高维多元数据项的分布规律和模式，并揭示不同维度属性之间的隐含关系。

基于几何图形的高维多元可视化方法是近年来主要的研究方向。医疗健康大数据背景下，除了数据项规模扩大带来的挑战，高维多元所引起的问题也是研究的难点。

(1)散点图及散点矩阵

二维散点图将多个维度中的两个维度属性值集合映射至两条轴，在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值。如下图所示。

此方法适用于高维多元数据的散点图可视化，横轴为年收入，纵轴为幼儿死亡率，圆点大小和颜色分别表示城市人口和所在区域，便于统计整体数据并进行综合分析。

(2)星形图与雷达图

雷达图方法是基于形似导航雷达显示屏上的图形而构建的一种多变量对比分析技术，许多统计方面的专家用雷达图来分析经济和银行利率、企业风险等。见下图所示。

此方法适用于高维多元数据分析，在突发病暴发期间，能够直观地对该过程中地理位置变化、时间变化、发病人数变化以及特殊事件进行立体展现。

（三）小结

医疗健康数据是国家重要的基础性战略资源，其应用发展将推动健康医疗模式的革命性变化，有利于扩大医疗资源供给、管控医疗成本、提升医疗服务运行效率和质量，满足多样化、多层次健康需求，有利于培育新的业态和经济增长点，带来巨大的商业机会和创业空间。由于不同医疗机构的医疗特征存在差异，业务也不尽相同，所以在医疗健康数据预处理、可视化的过程中，采用适宜的步骤是必须的。目前，医疗健康数据预处理及可视化研究仍处于探索阶段，未来，随着医疗健康数据规模将越来越大，类型也将越来越多，结构也会越来越复杂，医疗大数据预处理及可视分析将成为重要的基础支撑技术。医疗数据预处理及其可视分析技术在精准医疗、公共卫生、生物医药以及生命科学等众多领域将会发挥更大的作用。

作者简介：王咸宁（XianningWang），就读于密歇根州立大学（MSU）工程学院。开源IT技术探索者，致力于AI技术在健康医疗等领域中的应用研究。返回搜狐，查看更多

责任编辑：

科技智享

王咸宁:医疗健康数据预处理与可视化方法