大数据和云计算运用(大数据与云计算的关系)
大数据和云计算运用(大数据与云计算的关系)因此,云计算和大数据实际上是工具与用途的关系。云计算为大数据提供了有力的工具和途径,大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术都是云计算的关键技术;大数据为云计算提供了很有价值的用武之地。大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是IT部门,而是业务部门或企业高层决策者;其处理对象是各种数据;产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆
来源计算机大学生
自2009年以来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,也是炙手可热。大数据和云计算经常被人相提并论。那么,大数据和云计算之间是什么关系呢?
前几年,Intel公司针对200位IT经理的调查表明,近三分之二的企业将采用云计算作为关键业务系统的交付模式。GigaSpace的调查结果表明,在所有认为大数据处理具有重要意义的IT管理者中,有80%的公司考虑在大数据分析中采用一种或多种云交付模式。
所以,我们可以看到,云服务具有高度的灵活性,公司用户的需求能够获得最佳的IT服务方案;企业正将越来越多的数据存储于云环境中,这意味着海量数据的价值有待于企业来深入挖掘。例如,已有私有云环境的企业可以考虑自建大数据分析处理服务,也可以使用外部服务商提供的大数据分析云服务,或者是创建混合云来既能保护私有云中的敏感数据,又能利用外部公有云中的重要数据资源和分析处理工具。
大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。
在很多方面,大数据和云计算是有差异的。
云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,以节省企业的IT部署成本;云计算从根本上改变了企业的IT架构,其处理对象是IT资源、处理能力和各种应用;产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。
大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是IT部门,而是业务部门或企业高层决策者;其处理对象是各种数据;产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。
因此,云计算和大数据实际上是工具与用途的关系。云计算为大数据提供了有力的工具和途径,大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术都是云计算的关键技术;大数据为云计算提供了很有价值的用武之地。
从所使用的技术来看,大数据可以理解为云计算的延伸,大数据与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务。而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。
大数据并非完全依赖于云计算。反过来,云计算之上也并非只有大数据这一种应用。大数据本身是一个问题集,云技术才是解决大数据问题集最重要、最有效的手段。
大数据的价值日益受到重视,数据无疑已经成为信息社会日益重要的资源,人们对数据处理的实时性和有效性的要求也在不断提高。大数据的应用己经不局限于商业智能BI领域,在公共服务、科学研究等方面,大数据也发挥着巨大的影响力,而且应用面更宽。比如美国国家海洋和大气管理局尝试利用大数据方法协助进行气候、生态系统、天气和商业方面的研究;谷歌流感趋势则使用经过汇总的谷歌搜索数据来预测流感疫情。
大数据的意义并不在于大容量、多样性等特征,而在于数据的管理和分析而挖掘出的价值。如果在分析处理上缺少相应的技术支撑,大数据的价值将无从谈起。
就企业而言,大数据时代的经营决策过程已经具备了明显的数据驱动特点,这种特点给企业的IT系统带来的是海量的历史数据、复杂的数学统计和分析模型、数据之间的强关联性以及频繁的数据更新产生的重新评估等挑战。这就要求底层的数据支撑平台具备强大的通讯(数据流动和交换)能力、存储管理以及计算处理能力,从而保障海量的用户访问、高效的数据采集和处理、多模式数据的准确实时共享以及面对需求变化的快速响应。
传统的分析和处理技术在这些需求面前开始遭遇瓶颈,而云计算的出现,不仅为我们提供了一种挖掘大数据价值的工具,也使大数据的应用具有了更多可能性。借助“云”的力量,可以实现对多格式、多模式的大数据的统一管理、高效流通和实时分析,挖掘大数据的价值,发挥大数据的真正意义。
大数据处理首先是获取和记录数据;其次是完成数据的抽取、清洁和标注以及数据的整合、聚集和表达等重要的预处理或处理工作;再次需要一个完整的数据分析步骤,通常包括数据过滤、数据摘要、数据分类或聚类等预处理;最后进入分析阶段,在这个阶段,各种算法和计算工具会应用到数据上,以求能得到分析者想要看到的或者可以解释的结果。
这一整套处理流程涉及庞大的数据量,在各个不同阶段都会对传统的技术手段提出挑战。比如,海量的网络化设备、海量的在线用户、不间断的网络联接,都在时刻生成大量的、多格式的内容数据和状态信息,这些经由各种客户端(网页、应用或是传感器等)采集而来的信息数据,连同成千上万的访问和操作请求,会以高并发的方式向系统服务器施加压力。
为了避免由于服务能力的不足而造成服务请求排队的问题,一般都会用负载均衡技术将单个服务器的压力进行分摊,大幅提高服务性能。在数据采集时,也会通过在采集端部署大量的数据库来对系统性能提供支撑,然后对采集到的数据(包括各种结构化、非结构化和半结构化数据等)进行数据清理、去重、正规化以及相应的格式转换处理。在按照预定规则进行过滤后,输出到分布式数据存储系统中进行存储,为之后的分析和展示做准备。
在分析阶段,为了完成数据挖掘的目的,通常需要处理海量的历史数据,构建复杂的数学统计和分析模型(比如计算冬天的温度水平对特定厚度的羽绒服销量的影响),并针对大量的结果之间的关联性做出高效正确的处理,同时还要支持数据更新带来的重新评估。
在展示阶段,则应当隐藏诸如数据存储拓扑和数据存储结构等实现细节,对业务应用暴露规范的数据访问接口,对复杂的数据访问需求提供透明支撑,大大减小业务应用的构建难度。
上述这些复杂的需求对技术实现和底层计算资源提出了高要求。所以,为应对这些复杂的大数据处理工作,需要从服务器、网络、存储、软件等各个环节构建一个兼具高可用性和高可靠性的系统环境,提供端到端的全面解决方案。
传统的单机处理模式不但成本越来越高,而且不易扩展,并且随着数据量的递增、数据处理复杂度的增加,相应的性能和扩展瓶颈将会越来越大。在这种情况下,云计算所具备的弹性伸缩和动态调配、资源的虚拟化和系统的透明性、支持多租户、支持按量计费或按需使用,以及绿色节能等基本要素正好契合了新型大数据处理技术的需求。
云计算为典型代表的新一代计算模式,以及云计算平台这种支撑一切上层应用服务的底层基础架构,以其高可靠性、更强的处理能力和更大的存储空间、可平滑迁移、可弹性伸缩、对用户的透明性以及可统一管理和调度等特性,正在成为解决大数据问题的未来计算技术发展的重要方向。
基于云计算技术构建的大数据平台,能够提供聚合大规模分布式系统中离散的通信、存储和处理能力,并以灵活、可靠、透明的形式提供给上层平台和应用。它同时还提供针对海量多格式、多模式数据的跨系统、跨平台、跨应用的统一管理手段和高可用、敏捷响应的机制体系来支持快速变化的功能目标、系统环境和应用配置。
云计算使大数据应用成为可能。没有云计算的出现,大数据将仍是空中楼阁,缺乏根基和落地可能。如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具。没有云计算的处理能力,大数据的信息价值再丰富,或许也只能望洋兴叹。借助云计算技术,可以提高系统整体的弹性和灵活性,降低管理成本和风险,并且改进应用服务的可用性和可靠性。云计算不仅为大数据处理打造一个高效、可靠的系统环境,而且充分发挥云计算平台的优势,为大数据应用找到更多样化的出口。
从另外的角度来说,大数据也是云计算技术的一个最佳应用实践,随着不断解决大数据问题,云计算技术也不断发展。没有大数据的价值体现,云计算的效用也就失去了一块用武之地。
从整体上看,大数据与云计算是相辅相成的,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用,云计算是大数据成长的驱动力。另外,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理。
(1)从理论角度来看,二者属于不同层次的事情,云计算研究的是计算问题,大数据研究的是巨量数据处理问题,而巨量数据处理依然属于计算问题的研究范围,因此,从这个角度来看,大数据是云计算的一个子领域。
(2)从应用角度来看,大数据是云计算的应用案例之一,云计算是大数据的实现工具之一。
在《互联网进化论》一书中绘制了一幅互联网虚拟大脑结构图,并提出“互联网的未来功能和结构将与人类大脑高度相似,也将具备互联网虚拟感觉,虚拟运动,虚拟中枢,虚拟记忆神经系统”。根据这一观点,我们可以尝试分析目前互联网的四个概念------大数据、云计算、物联网和移动互联网与传统互联网的关系。
从图中可以看出:物联网对应了互联网的感觉和运动神经系统;云计算是互联网的核心硬件层和核心软件层的集合,也是互联网中枢神经系统萌芽;大数据代表了互联网的信息层(数据海洋),是互联网智慧和意识产生的基础,包括物联网,传统互联网,移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据。