三千字概括“大数据时代”
最近有些起伏,最好的方法就是回到书本上,找到自己内心认同的东西。这几天,我花了一些时间重温《大数据时代》,整理总结了其中的精华,与大家分享。
大数据引发了变革。
当今社会特有的一种新型能力:以前所未有的方式,通过对海量数据的分析,获取极具价值的产品和服务或深刻的见解。
惊人的数据
2003年,人类首次破译人类遗传密码,经过10年的努力,完成了30亿个碱基对的测序;大约10年后,全世界的基因仪器每15分钟就能完成同样的工作。在金融领域,美国股市每天的交易量高达70亿股,三分之二的交易是由计算机程序根据邮件中的数学模型和算法自动完成的。
2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒体中的模拟数据,其余都是数字数据。在2000年,数字存储信息仍然只占全球数据的四分之一;当时,另外四分之三的信息存储在报纸、电影、黑胶唱片和盒式磁带等媒体中。
大数据的本质
大数据带来的三个颠覆性的观念变革:全数据,不是随机抽样;是大方向,不是精确指导;这是一种相关性,而不是因果关系。
A.不是随机样本,而是所有数据:在大数据时代,我们可以分析更多的数据,有时甚至可以处理与某个特殊现象相关的所有数据,而不是依赖随机抽样(随机抽样,我们以前认为是理所当然的,但高性能的数字技术让我们意识到这其实是一种人为的限制);
B.不是准确,而是杂糅:研究数据如此之多,以至于我们不再热衷于追求准确;之前要分析的数据很少,所以一定要尽可能准确的量化我们的记录。随着规模的扩大,对精准的执念会减弱;有了大数据,我们不再需要对一个现象刨根问底,只要掌握大致的发展方向,适当忽略微观层面的准确性,宏观层面会有更好的洞察;
C.不是因果关系,而是相关性:我们不再热衷于寻找因果关系。寻找因果关系是人类由来已久的习惯。大数据时代,我们不需要密切关注事物之间的因果关系,而应该寻找事物之间的相关性;相关性可能不会告诉我们事情发生的确切原因,但它会提醒我们事情正在发生。
大数据的核心是预测。
大数据的核心是预测,通常被认为是人工智能的一部分,或者更准确地说,是机器学习的一种。大数据不是教机器人像人一样思考,而是将数学算法应用于海量数据,预测事情发生的可能性。
●●●
不是随机抽样,而是所有的数据。
历史上,由于记录、存储和分析数据的工具不够好,为了使分析简单,我们选择减少数据量。
统计学的一个目的是用尽可能少的数据来证实尽可能重要的发现。
传统采样的准确性
抽样分析的准确性随着抽样随机性的增加而大大提高,但与样本数的增加关系不大。总的原因是当样本数达到一定值时,我们从新个体那里得到的信息会越来越少,这类似于经济学中的边际效应。
随机抽样问题
随机抽样有一个很大的问题:人们只能从随机抽样中得到预先设计好的问题的结果,调查得到的数据无法重新分析以达到计划外的目的,而且一旦抽样过程中出现任何偏差,分析结果就会相差甚远。
样本=人口
抽样的目的是用最少的数据获得最多的信息。当我们可以获得海量数据的时候,就没有意义了。生活中真正有趣的事情往往隐藏在细节中,而抽样分析却捕捉不到这些细节(因为抽样得不到计划外的东西);大数据是建立在掌握所有数据的基础上的,至少是尽可能多的数据,这样我们才能正确地审视细节,进行新的分析。
●●●
不是准确,而是杂糅。
对准确性的痴迷是信息匮乏时代和模拟时代的产物。只有5%的数据是结构化的,可以应用于传统数据库。如果不能接受混乱,剩下95%的非结构化数据就无法使用。
小数据时代的准确性
在“小数据”时代,人们收集和处理数据的能力是有限的。对于“小数据”,最基本也是最重要的要求是减少误差,保证质量(有限的信息收集意味着微小的误差会被放大,甚至可能影响整个结果的准确性)。人们创造了许多精确的系统,试图让我们接受一个沉睡而有序的世界的悲剧形象——假装世界上的一切都排列得整整齐齐;其实现实是复杂的,天地间的事情远比系统设想的要多。
我们想要的是概率
我们总是为了一个“答案”而活着。准确性似乎永远是我们生活的支撑,但每个问题只有一个答案的想法是站不住脚的。“一个唯一的真理”的存在是不可能的,追求这个唯一的真理是一种分心。大数据可能是拯救我们的关键:大数据通常用概率说话,而不是一张“毫无疑问”的脸。
●●●
不是因果关系,而是相关性。
大数据时代,我们不必知道现象背后的原因,而是让数据自己“发声”。我们不再盲目追求人们为什么要这么做。知道人们为什么这样做可能有用,但这个问题目前不是很重要。重要的是,我们可以通过大数据分析人们的相关行为。
相互关系
相关性的核心是量化两个数据值之间的数学关系:强相关性是指当一个数据值增加时,另一个数据值有可能增加;弱相关性是指当一个数据值增加时,另一个数据值几乎不变。相关性通过识别有用的相关性来帮助我们分析一个现象,而不是揭示其内在的运行机制。没有绝对的关系,只有可能。
人的直接目的是寻找因果关系。
人们的直接愿望是理解因果关系。我们习惯了信息的匮乏,所以习惯了在少量数据的基础上进行推理和思考。以前我们用实验来证明因果关系。就是通过是否有激励来观察结果是否与真实情况一致。但是,如果凡事都有因果,那么我们就没有决定任何事情的自由。如果说我们做出的每一个决定或每一个想法都是其他事物的结果,而这个结果是由其他原因造成的,以此类推,那么就不存在人类自由意志这种东西——所有的生命轨迹都只受因果关系控制——这显然是不正确的。
相关性和因果性并不矛盾。
相关性分析本身意义重大,也为因果关系的研究奠定了基础。通过找出可能有关联的事情,可以在此基础上进一步分析因果关系,如果有因果关系,可以进一步找出原因。大多数情况下,一旦我们完成了大数据的关联分析,不再满足于仅仅知道“是什么”,我们会继续更深层次的研究因果关系,找出背后的“为什么”。在小数据时代,我们会假装世界是如何运转的,然后通过收集和分析数据来验证这种错觉;大数据时代,我们将在数据的指引下探索世界,不再受限于各种假设;我们的研究从数据开始,因为数据,我们发现了以前从未发现的联系。
A.大量的数据意味着“理论的终结”:用一系列因果关系检验各种猜测的传统研究范式已经不再实用,现在已经被没有理论指导的相关研究所取代;
B.现在是一个海量数据的时代,应用数学已经取代了其他所有的学科工具,只要有足够的数据就能说明问题。如果你有一拍数据,只要掌握了这些数据之间的相关性,一切都迎刃而解;
C.《理论的终结》:所有的普适规律都不重要,但数据分析很重要,它能揭示所有的问题;但大数据并不意味着理论已死,因为大数据是在理论的基础上形成的。
●●●
大数据时代的业务转型
在一个可能性和相关性占主导地位的世界里,专业性变得不那么重要了;产业不会消失,但必须和数据表达的信息进行博弈。
数字化:一切都可以量化。
大数据的核心发展动力来自于人类对世界进行测量、记录和分析的欲望。为了获得可量化的信息,我们需要知道如何测量它;为了将量化的信息数字化,我们需要知道如何记录测量结果。现在我们经常混淆“数字化”和“数据化”这两个概念,但区分这两个概念其实很重要:
数据化:将现象转化为可以列表和分析的定量形式的过程;
B.数字化:将模拟数据转换成用0和1表示的二进制码;
数字化带来数据化,但数字化不能代替数据化;数字化是把模拟数据变成计算机课程的数据,与数字化有本质区别。
当方向变成数据时
1978见证了一场巨变。当时,组成全球定位系统(GPS)的24颗卫星首次发射成功。通过与技术手段的整合,GPS可以在没有任何专业知识的情况下快速且相对廉价地定位地理位置。地理位置信息的收集可能揭示事物的发展趋势;位置信息一旦数字化,新的用途就会雨后春笋般涌现,新的价值也就诞生了。
当通信变成数据时
社交网络平台不仅为我们提供了一个寻找和维护朋友和同事关系的场所,还将我们日常生活中的无形元素提取出来,转化为可以用于新用途的数据。数字化不仅可以将态度和情绪转化为可分析的形式,还可以转化人类的行为,这些行为很难跟踪,尤其是在庞大的社区及其亚人口环境中。
A.脸书将关系数字化——社交关系在过去一直是作为信息存在的,但从未被正式定义为数据,直到脸书“社交地图”的出现;
B.Twitter通过创新让人们可以方便地记录和分享自己零散的想法,让情感数据得以实现。
“永不枯竭”的数据创新
虽然数据在很长一段时间内都是有价值的,通常只被视为关联企业核心业务的一部分,或者被归为知识产权或个人信息这一相对狭窄的范畴,但在大数据时代,所有的数据都是有价值的。在我们这个时代,数据收集不再有固有的局限性。由于存储成本的大幅下降,保存数据比丢弃数据更容易,这使得以比以往更低的成本获取更多的数据成为可能。与物质的东西不同,数据的价值不会随着它的使用而降低,而是可以被不断处理,信息不会像其他物质产品一样随着使用而流失。数据的价值并不局限于某一特定用途,它可以被多次用于同一用途或其他用途。作者_Glen_本文转自简书,转载需授权。