大数据时代需要确立数据清洗的规范和标准

日期:2018-01-03      来源:安徽发展研究网      作者:佚名      编辑:otpub      点击:440次

数据的不断剧增形成大数据时代的显著特征。而大数据的生产和交易的重要前提之一是数据的清洗。目前,我国已经形成了基本的数据清洗产业格局,但因各自利益的追求,导致仍存在不少问题。因此,我国未来应重点强化数据清洗环节的规范和标准,推动大数据产业的健康发展。


数据不断剧增是未来的发展趋势


在席卷全球的信息化浪潮中,互联网、移动互联网、云计算、物联网等技术迅猛发展、加速创新,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。

针对这种史无前例的数据洪流,如何挖掘信息时代的“数字石油”,将大数据转换为大智慧、大市场和大生态,是我们这个时代的历史机遇。国务院曾明确提出,要加强新一代信息基础设施建设和云计算、大数据的应用。


以传统方式构建的基本架构对数据进行清洗

 

大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而,由于网民数量的增加、业务应用的多样化和社交网络的繁荣,单个文件(比如日志文件、音视频文件等)变得越来越大,硬盘的读取速度和文件的存储成本越来越显得捉襟见肘。与此同时,政府、银行和保险公司等内部存在的非结构化、不规则的数据;而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。

因此,目前的数据清洗主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。其总体架构如图1所示。

数据清洗

具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。

此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。

 

对不同质量的原数据进行分类以适应清洗工作


数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,分清和掌握数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。


第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反唯一性(同一个主键ID出现了多次)。

第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等。

第三类,多数据源的定义层:同一个实体的不同称呼(比如冰心和谢婉莹,用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类型不一致等)。

第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据重复、拼写错误。


除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声、重复或错误的情况。数据的调整和清洗也会涉及到格式、测量单位和数据标准化与归一化的相关事情,以致对实验结果产生比较大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多重描述方式,如描述属性值的概率密度函数,以方差为代表的统计值等。

 

对不同质量类型的数据采用不同的清洗方法

 

针对以上数据质量中普遍存在的空缺值、噪音值和不一致数据的情况,可以采用人工检测、统计学方法、聚类、分类、基于距离的方法、关联规则等方法来实现数据清洗。

以往的人工检测方法不但要花费大量的人力、物力和时间,也会在数据清洗过程中产生很多衍生错误。最近,可视化作为一种有效的展示手段和交互手段,可以用来提高数据错误识别和清理的效率,如图2所示。

数据清洗

图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下角的数据缺失。

 

其他方法的优劣对比如表1所示。

表1  数据清洗方法的对比

数据清洗

根据缺陷数据类型分类,可以将数据清洗分为异常记录检测和重复记录检测两个核心问题。

异常记录检测。包括解决空值、错误值和不一致数据的方法。

对于空值的处理,一般采用估算方法,例如采用均值、众数、最大值、最小值、中位数填充。但估值方法会引入误差,如果空值较多,会使结果偏离较大。

对于错误值的处理,通常采用统计方法来处理,例如偏差分析、回归方程、正态分布等,也可以通过简单规则库检查数值范围或基于属性的约束关系来识别错误。

对于不一致数据的处理,主要体现为数据不满足完整性约束。可以通过分析数据字典、元数据等,还可梳理数据之间的关系,并进行修正。不一致数据往往是因为缺乏一套数据标准而产生的,也与有关部门不贯彻落实相关标准有一定关系。

 

重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、Smith Waterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。

表2  重复数据的检测算法对比

数据清洗

随着信息量的飞速增长和智慧工具的不断涌现,无关、重复、错误,甚至拟人的信息也将随之增长,给大数据的清洗带来极大的挑战。例如,由于人工智能技术,尤其是深度学习技术的迅速发展,机器人发帖、聊天、发微博、抢票等现象司空见惯,如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前,判断社交对象是否是人类已经成为图灵测试的范畴。而如何区分数据是否是人类产生的,如何将机器人产生的数据清洗出去,将对用户轨迹跟踪、网络舆情分析、生成用户画像等方面产生重大影响。针对以上问题,目前可以从两个方面对数据进行处理。

 

第一,限制内容产生。例如,可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而,随着模式识别技术的快速发展,普通的验证码已经难以屏蔽机器人自动识别验证码并进行填写的情况。因此,验证码也朝着日趋复杂的方向发展。例如12306使用一组近似图片,需要用户选出多个正确答案才能进行购票。

 

第二,改进数据清洗方法。依托行业规则和技术特征对机器人产生的数据进行清洗。例如,基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征,可通过识别相应关键字、只保留GET请求等方法,过滤掉机器人产生的数据。此外,也可以根据用户发帖时间、频率、IP地址等进行数据建模,利用机器学习和数据挖掘的方法过滤掉机器人产生的内容。


我国数据清洗已形成基本产业格局

 

在大数据时代,数据正在成为一种生产资料,成为一种稀有资产和新兴产业。大数据产业已提升到国家战略的高度,随着创新驱动发展战略的实施,逐步带动产业链上下游,形成万众创新的大数据产业生态环境。数据清洗属于大数据产业链中关键的一环,可以从文本、语音、视频和地理信息对数据清洗产业进行细分。

 

1.文本清洗领域。主要基于自然语言处理技术,通过分词、语料标注、字典构建等技术,从结构化、非结构化数据中提取有效信息,提高数据加工的效率。

2.语音数据加工领域。主要是基于语音信号的特征提取,利用隐马尔可夫模型等算法进行模式匹配,对音频进行加工处理。

3.视频图像处理领域。主要是基于图像获取、边缘识别、图像分割、特征提取等环节,实现人脸识别、车牌标注、医学分析等实际应用。

4.地理信息处理领域。主要是基于栅格图像和矢量图像,对地理信息数据进行加工,实现可视化展现、区域识别、地点标注等应用。

 

强化数据清洗环节的规范和标准推动产业发展

 

据统计,数据清洗在大数据开发过程占用的时间比例高达60%以上。加快数据的标准化建设,减少数据清洗过程中的成本开销,已经成为我国大数据产业必须跨越的一道障碍。


第一,加快跨行业的数据标准统筹制定。行业的垂直建设,形成了多个行业之间、甚至一个行业的多个部门之间条块分割的数据资源。数据以各种形式分散于各行业、各部门,存在同类数据反复采集、数据标准和统计口径不统一等问题,给大数据开发带来了极大的挑战。因此,目前亟需制定跨行业的数据标准,规范数据的采集、录入、传输、处理等过程,加快数据的融合创新。


第二,贯彻数据方面的国家和行业标准。在一些行业,已经建立了数据录入、统计等国家和行业标准,对数据字典进行了规范。然而,很多企业为了维护自己的市场额度,开发自定义的程序应用和数据传输接口,在后期系统维护费用高企的同时,也给数据清洗带来了额外的负担。对此,有关管理部门应加强数据方面国标和行标的落实力度。


第三,切实保证数据清洗过程中的数据安全。中央网信办在《关于加强党政部门云计算服务网络安全管理的意见》中,对云计算的数据归属、管理标准和跨境数据流动给出了明确的权责定义。数据清洗加工的相关企业应该着重在数据访问、脱密、传输、处理和销毁等过程中加强对数据资源的安全保护,确保数据所有者的责任,以及数据在处理前后的完整性、机密性和可用性,防止数据被第三方攫取并通过“暗网”等渠道进行数据跨境交易。


更多数据清洗知识请关注:数据深度挖掘、分析、建模其实可以很简单!

关键字:大数据数据清洗

本站所载作品版权归作者及原出处共同所有。凡本网注明“来源:OTPUB”的所有作品、文章,版权均属于本站,转载、摘编或利用其它方式使用上述作品,应注明“来源:OTPUB” 或 “摘自:OTPUB”。

上一篇: 大数据时代,为什么要对数据进行... 下一篇: 【直播预告】数据深度挖掘、分析...