数据分析能做和不能做的

日期:2017-02-10      来源:中国商业智能网      作者:      编辑:      点击:524次

现在大量的兴趣集中于大数据、商业智能、预测分析和其他与数据相关的领域。无论是在显然与法律无关的领域如物联网,或是法律领域如挑选陪审团成员、诉讼金融、文本分析和对冲基金的复制,使用数据的技术显然在改变着商业世界的许多方面。

这些工具和技术整体上可以一般称为数据分析,而且随着计算能力和软件接口的主要进步,2017年很可能是数据分析进步最大的一年。对大多数新手来说,围绕数据分析可以和不能做什么仍然有一个大误解。

首先,所有数据分析过程开始于一个基本的真理 —— 垃圾进,垃圾出。如果被分析的数据不能准确地表示世界,那么它就不是有用的。这个概念似乎很简单,但它往往被遗忘。例如,在一个风险管理功能上,人们常常认为数据是用于推断未来事件的可能性,但这只在一种情况下是真的,那就是,如果我们所担心事情的数据实际上以相同的频率发生在世界上。

以陪审团的选择为例,我们可以用一个被称为概率模型的统计模型找出一个特定陪审员在案子结束时做出决定的概率。为了模型的有效,我们需要陪审员的数据有年龄、性别、就业、背景等。

一旦我们有了这些数据,我们可以弄清陪审员可能对给出实事的案件做出的决定。而同样重要的是,数据分析可以从统计上告诉我们对结果的自信如何。换句话说,我们有95%的把握认为陪审员XYZ将判定一个审判有罪。而我们只有63%的把握确定保陪审员ABC会提交这样的裁决。

但是为了建立这种类型的模型,我们需要有正确的底层数据 —— 这意味着有正确的陪审员数据,并拥有在过去的案件中其他陪审员做出的裁决的正确数据以及这些其他陪审员的数据。换句话说,建立一个数据模型需要投入时间和金钱 —— 在许多情况下它不是一个简单的一次性过程。

数据分析是强大,但我们要有正确的工具。许多业内人士说, 阻碍有效使用新的数据工具和技术的最大问题是缺乏数据。

数据分析的第二个主要问题是,我们需要被正确清理了的和编排好的数据。很多时候用于分析的数据来自不同的数据源,有一些质量高而有一些质量低。这意味着数据集必须清洗后合并在一起成为一个更大的数据库。许多情况下这会很困难并且很耗时,尤其是在大型数据集如用于投资的方面。

例如,当复制对冲基金时,要使用一个数据源的对冲基金回报数据,交易频繁的期货的数据和来自于第二个数据源的数据整合返回数据,还有第三个来源数据整合特征数据。

三组数据都基于一个统一的因素如返回的日期合并在一起。一旦这样做了,数据必须清洗,处理诸如关闭商店,或数据整合价格中买卖反弹的对冲基金。

完成这个过程时,有一个公式可以让你成本更低地复制任何一类的对冲基金的绩效,但同样,它需要时间和投资以得到准确的结果。

律师常被认为是一个传统的行业,但对于建立数据使用的新观念的律师明显有更多的机会。这些努力的关键在于将投资于新的数据分析能力看成一个过程,而不是把它当作一次性的工作。

本站所载作品版权归作者及原出处共同所有。凡本网注明“来源:OTPUB”的所有作品、文章,版权均属于本站,转载、摘编或利用其它方式使用上述作品,应注明“来源:OTPUB” 或 “摘自:OTPUB”。

上一篇: 国家网信办发布网络安全产品新规... 下一篇: 成功搭建云计算的关键技巧