大数据时代更关注数据的什么:什么是数据 数据技术
大数据时代更关注数据的什么:什么是数据 数据技术数据所能够记录的信息越全面,我们对过去发生的状况就会越清楚。文字的记录有其局限性,图片和声音的记录让事物在某时的状态所留存的信息量更多,能够为我们研究事物发生和发展规律提供更多的“证据”。因此,人们力图用更复杂的方法或者方式去记录数据,以留存更多的信息。就像我们发明了录音机、照相机和录像机,从而能够记录更多的信息。从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的数字化的记录”。通过这个记录,我们可以还原事物在该数据记录时的状态和发生的活动,因此我们能够通过数据去追溯当时的情景。什么是数据?每个人对数据的定义都是不同的。笔者曾经在一个公开课上提过一个问题:什么是数据?你是如何理解数据的?笔者发现300个人中至少有30种不同的理解。有人说数据就是数字;有人说数据就是信息;有人说数据就是财务数据;有人说数据就是报表;有人说数据就是类似GDP和CPI那样的数字指标;有人说数据就是互联网上
什么是数据?什么是数据技术?数据分类?
数据类型、数据结构和数据结构化、数据质量及其八个指标、数据处理与数据清洗
1.1 什么是数据?什么是数据技术
现在人人都在谈大数据,也在谈数据化管理,很多人把这两个概念混淆在一起,每个人对“大数据”和“数据化管理”的理解都不同。本书所说的企业中的大数据与现在大家都在谈的外部的“大数据”还是有区别的。外部的大数据包括互联网企业、电信企业以及各种富数据行业所公布的数据等,这些构成了企业外部环境的大数据;而本书所说的企业中的大数据则是企业经营和管理所需要的资源以及记录资源活动的数据。为了区分这两者,本书把企业记录经营管理活动所形成的数据称作“企业大数据”,以此来区别于人们常说的外部的“大数据”。
1.1.1 什么是数据
什么是数据?每个人对数据的定义都是不同的。笔者曾经在一个公开课上提过一个问题:什么是数据?你是如何理解数据的?笔者发现300个人中至少有30种不同的理解。有人说数据就是数字;有人说数据就是信息;有人说数据就是财务数据;有人说数据就是报表;有人说数据就是类似GDP和CPI那样的数字指标;有人说数据就是互联网上大家购物所形成的交易数据;有人说数据就是社交信息;有人说数据就是微博中大家的看法和观点……他们说的都对,因为这些都是数据,但这样的定义都不是完整的。为了统一,在开始讲解数据分析方法之前,我们需要对数据做出一个明确的定义,以便让大家在阅读本书时有一个共同的认知基础。
从字面意义上理解,“数据”由“数”和“据”组成。“数”指的是数值、数字、数字化的信息,或者以数值的形式存储的信息;而“据”则指的是“证据”或者“依据”。简单地从字面意义上来理解“数据”的定义就是:数字化的证据和依据,是事物存在和发展状态或者过程的数字化记录,是事物发生和发展留存下来的证据。如果说我们拿到了一份数据,这就意味着我们不仅仅拿到数值,还要理解这个数据。如果无法解读所获得数据的含义,那么只能称之为“数”,而不是“数据”。
例如,175cm是数值,而不是数据(见下图)。而如果说“小明的身高是175cm”,那么175cm就是数据。但是这个说法还是有所欠缺的,因为人的身高是不断变化的,为了精确时间,我们需要将以上例子表述为:“小明在某年某月某日某时的身高是175cm”,或者说“小明在其18岁生日时测量的身高是175cm”。因为既然是证据,那么就要有事物状态的“时间戳”,没有时间戳,这个数据就会变得没有“证据”性。
从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的数字化的记录”。通过这个记录,我们可以还原事物在该数据记录时的状态和发生的活动,因此我们能够通过数据去追溯当时的情景。
数据所能够记录的信息越全面,我们对过去发生的状况就会越清楚。文字的记录有其局限性,图片和声音的记录让事物在某时的状态所留存的信息量更多,能够为我们研究事物发生和发展规律提供更多的“证据”。因此,人们力图用更复杂的方法或者方式去记录数据,以留存更多的信息。就像我们发明了录音机、照相机和录像机,从而能够记录更多的信息。
如今,我们能够记录的信息越来越多,不仅仅是数值、文字、声音、图片和影像,未来记录信息的方式还会有更多的创新以及更多的变化(见下图)。当然,在这个过程中形成全球标准是需要时间的。例如,对于声音,我们有MP3等各种编码方式;对于图片,我们.jpg、JPG.jpg等各种编码方式;对于视频,我们有AVI、MP4、FLV等多种标准化的编码方式。在Web 1.0时代,我们常说“无图无真相”,而现在我们更加相信当时的“录像”,如今照相和摄像功能成了智能手机的标配,更多的视频网站发展起来,我们的活动被各种方式记录下来了。
随着科学技术的发展,数据概念的内涵也会不断发展,并继续演变。例如,当全息影像发展起来之后,人们的每个数据都会像“纪录片”一样被记录下来,数据的概念会进一步得到延展。本书中所使用的数据这个词的含义,就目前来讲,是一个相对比较广泛的含义,包括了数值、文字、声音、图像、视频等,只要是用数据化的方式记录下来的事物的发生和发展状态我们都叫作数据,不管其载体为何。
1.1.2 数据的依据性质比证据性质更重要
在远古时代没有文字记载,我们只能靠代代相传的故事和诗歌来推测历史;或者通过化石来研究过去到底存在什么和发生了什么。当有了文字记载之后,就有了更多的证据去推测和研究历史,从而对历史就了解得更加清楚了。
当有了历史数据后,科学家、历史学家就可以利用这些数据来研究历史,总结事物发生和发展的规律,用来指导我们的社会实践,这是人类科学进步的基本动力源泉。企业留存数据也是一样的道理,企业要把历史数据积累沉淀,然后不断分析和总结企业的发展轨迹和路径,研究过去的得失,不再重复同样的错误,固化最优秀的做法;通过对发展规律的探索,可以指导企业的经营和管理决策,让企业的经营决策更加符合市场的需求。
企业留存和积累的数据越多就越有价值。这些数据一方面可以当作证据,另一方面也可以用来研究规律,成为企业预测未来市场、形成商业洞察的依据。这里的证据和依据的含义差不多,证据强调的是过去,依据强调的是未来。很多企业在经营和管理过程中记录了大量的数据,而这些数据仅仅被企业用来当作一种证据,包括同客户签署的合同、财务记录的交易流水单、员工的上下班打卡记录等。证据只有在产生纠纷和产生疑问的时候才有价值。而依据则不同,如果企业能够充分利用数据、分析数据、挖掘数据背后的规律,找寻事物之间发生和发展的逻辑关系并能够指导企业未来的经营和管理活动,那么这些数据就成了依据。数据的“依据”价值远远大于“证据”的价值。
1.1.3 四大类技术推动数据技术(DT)时代发展
四大类技术的相互作用带我们进入了大数据时代。这四种技术包括:数据采集技术、数据存储技术、数据传输技术以及数据处理和数据挖掘技术。
(1)数据采集技术数据采集是指采集在事物发生和发展的过程中留存的数据。在过去20年中,数据采集技术获得了快速的发展,而更加重要的是,智能化、自动化的数据采集设备逐步普及。现在的数据采集终端越来越智能化和平民化,普及率也越来越高,一部普通的智能手机里就有将近20个智能数据采集元件。
(2)数据存储技术
20年前,我们最常使用的数据存储设备是磁带机、软盘等,一台计算机能够存储几十MB的内容就算是非常先进的了。而现在,一个普通的容量为1TB的计算机硬盘,价格还不足500元人民币;一部普通的有着十多个智能采集终端的低端智能手机,在20年前看来都是具有“海量数据”的存储能力。按照数据存储界的“新摩尔定律”,每隔18个月,人类存储的信息量就会翻一番,而数据存储设备的价格会降低50%。
(3)数据传输技术
互联网诞生还不足50年,却彻底改变了人类的生活方式以及企业的运作模式,并促生了很多超级企业。互联网和移动互联网的快速发展让带宽不断增加、成本不断下降、网络不断发达。
(4)数据处理和数据挖掘技术
随着数据量的不断增长,数据处理技术和数据分析与挖掘技术也在不断提升。在这些技术中可圈可点的包括分布式存储技术,如Hadoop;在微博兴起之后的非结构化数据处理技术;随着传输能力的提高得到快速应用的云存储技术等。
在12306网站刚刚上线时,因为购票人数太多,造成大量的访问请求无法及时处理,给服务器带来巨大的压力,网站一度瘫痪。后来经过同阿里巴巴合作,12306网站通过分布式算法,提高了响应请求的速度,虽然消费者需要不断刷新以获取新票源,但其有效地解决了高并发请求和响应的问题,这也是数据处理技术升级的一个案例。在“双十一”期间,淘宝能够在1秒内应付上亿次的数据查询和订单处理;亚马逊的AWS系统同时连接着200万台以上的服务器,这些技术的发展,为我们挖掘和使用巨量的数据提供了基础条件。
当然,现在的数据分析和数据挖掘技术相比数据量级的快速升级还相对滞后,虽然我们现在在数字数据和文本数据处理上有了较大的进步,但我们在声音的识别与查询,图片的识别与处理,视频资料的自动查询、处理和分析上还有很大的空白区域,仍然需要深度的技术开发或者探索。对于图片、视频、音频的搜索,仍然需要通过文字标签的形式来处理;而从图片中自动识别内容的相关技术,如车牌识别技术、人像识别技术等,才刚刚起步,离我们可以深度利用还有很长的一段路要走。
以上四大类技术在快速发展着,也在快速普及着,并且技术成本还在不断下降。数据自动采集已不再是大企业的专利,就连一个普通居民小区门口的停车管理系统都能自动识别车牌号并自动计费,而其安装成本不足万元;一家大型的商场耗资不足10万元就能够安装整套的Wi-Fi监控设备,从而可以随时随地地观测商场里持有智能手机的顾客的行动轨迹和行为模式,为商场优化布局、精细化管理,为商户选址和制定促销策略提供依据。在企业管理中,特别是在生产制造型企业中,对物料的追溯越来越便捷,有更多的智能终端技术可以采用,包括条形码、二维码、图像识别、监控录像、智能芯片等。
技术在革新,时代在变迁,在智能信息时代,人们的生活逐渐在“数据化”,而企业的运营管理活动也在被“数据化”。分析和挖掘数据是企业的管理者必须要掌握的基本技能,要充分利用数据掌控各种内部或外部信息,提高个人的影响力和控制力,从而为企业创造更大的价值。“信息即权力”,掌握信息越多的人,就会拥有更多的话语权。而信息来自对数据的加工,如果不能从数据中提取信息用于管理决策,那么采集的数据只会成为企业的成本;如果能够充分发挥数据的力量,在数据中挖掘价值,那么数据就会成为企业的资产。
全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有 如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!