快捷搜索:  汽车  科技

大数据热门技术(当下最热门的大数据技术及发展趋势)

大数据热门技术(当下最热门的大数据技术及发展趋势)7. 数据虚拟化:一种从各种数据源(包括Hadoop等大数据源和分布式数据存储)实时、近实时地传递信息的技术。6. 分布式文件存储:一种计算机网络,为了冗余和性能,数据通常以复制的方式存储在多个节点上。3. 搜索和知识发现:支持从驻留在多个源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息和新见解的工具和技术。4. 流分析:可以过滤、聚合、丰富和分析来自多个不同的活动数据源和任何数据格式的高吞吐量数据的软件。5. 内存数据结构:通过在分布式计算机系统的动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟访问和处理大量数据。

随着大数据分析市场迅速扩大,包括主流客户,哪些技术是最需要的,哪些技术具有较大的增长潜力? 答案可以在《TechRada:大数据,2016年第一季度》报告中初见端倪,一份新的Forrester研究报告评估了22项技术在整个数据生命周期中的成熟度和轨迹。这些热门大数据技术都是关于实时、预测和集成洞察相关的技术,这正是客户现在想要的大数据技术。

大数据热门技术(当下最热门的大数据技术及发展趋势)(1)

根据Forrester的分析,以下是我对十大最热门的大数据技术的一些分析:

1. 预测分析:软件和/或硬件解决方案,允许公司通过分析大数据源来发现、评估、优化和部署预测模型,从而提高业务绩效或降低风险。

2. NoSQL数据库:键值、文档和图形数据库。

3. 搜索和知识发现:支持从驻留在多个源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息和新见解的工具和技术。

4. 流分析:可以过滤、聚合、丰富和分析来自多个不同的活动数据源和任何数据格式的高吞吐量数据的软件。

5. 内存数据结构:通过在分布式计算机系统的动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟访问和处理大量数据。

6. 分布式文件存储:一种计算机网络,为了冗余和性能,数据通常以复制的方式存储在多个节点上。

7. 数据虚拟化:一种从各种数据源(包括Hadoop等大数据源和分布式数据存储)实时、近实时地传递信息的技术。

8. 数据集成:用于跨解决方案进行数据编排的工具,如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB。

9. 数据准备:软件可以减轻采购、成形、清理和共享各种杂乱的数据集的负担,从而加速数据在分析方面的有用性。

10. 数据质量:使用分布式数据存储和数据库上的并行操作,对大型高速数据集进行数据清理和充实的产品。

Forrester的TechRadar方法评估了每一项技术的潜在成功,而上述10项技术都预计将获得“重大成功”。此外,每种技术都根据其技术生态系统的发展水平处于特定的成熟阶段(从创建到衰落)。前8项技术被认为处于成长期,后2项技术被认为处于生存期。

Forrester还估计,这项技术进入下一个阶段所需的时间,而预测分析是唯一一个拥有“>10年”称号的预测分析,预计将“在增长后期通过均衡阶段在很长一段时间内提供高业务价值”。“上述第2至第8项技术预计将在3至5年内进入下一个阶段,最后2项技术预计将在1至3年内从生存阶段进入增长阶段。

最后,Forrester为每种技术提供了对其商业增值的评估,并根据不确定性进行了调整。这不仅基于潜在的影响,还基于来自实施和市场声誉的反馈和证据。Forrester说:“如果这项技术和它的生态系统处于发展的早期阶段,我们不得不假设它的潜在破坏和破坏要比一项更知名的技术更大。上述列表中的前两项技术被评为“高”业务增值技术,后两项被评为“中等”技术,其余都被评为“低”技术,这无疑是因为它们的新兴地位和不够成熟。

为什么我要将两个仍处于生存阶段的数据准备和数据质量技术添加到最热门的技术列表中呢?在同一份报告中,Forrester还提供了2015年第四季度63家大数据供应商的调查数据:

客户对下列每个功能的兴趣程度如何?(%回答“非常高”)

1. 数据准备和发现52%

2. 数据集成48%

3. 高级分析46%

4. 客户分析46%

5. 数据安全38%

6. 内存中计算37%

而Forrester预测 几个独立的供应商数据准备将生存 它认为这是“一个重要的功能实现民主化的数据 “或者说 数据分析 让科学家们花更多的时间在建模和发现见解和允许更多的业务用户和数据挖掘有乐趣。除了确保决策基于可靠和准确的数据之外,数据质量还包括上表中的数据安全性。弗雷斯特预计,随着公司将数据认证过程正式化,数据质量将在未来几年取得重大成功。数据认证工作力求确保数据符合预期的质量标准;安全;以及支持业务决策、业务绩效和业务流程的法规遵从性。”

“大数据”作为一个话题,已经成为主流受众的话题,这可能比之前任何一个技术流行语都要流行得多。这并没有帮助讨论这个无定形的术语,它被大众定义为“地球的神经系统”(参见我的咆哮),或者被技术观众定义为“Hadoop”。Forrester的报告帮助澄清了这个术语,将大数据定义为由22种技术组成的生态系统,每种技术都有其对企业和消费者的具体好处。

大数据,特别是它的一个属性,大容量,最近引发了一个新的一般性的讨论话题,人工智能。大数据集的可用性是深度学习(AI的一个子集)受到关注的原因之一,从识别互联网猫到击败围棋冠军。反过来,人工智能可能会导致收集和分析数据的新工具的出现。

弗雷斯特说:“除了更多的数据和更多的计算能力,我们现在已经扩展了分析技术,如深度学习和上下文语义服务,这使得人工智能成为解决更广泛的业务问题的理想工具。因此,Forrester发现有许多新公司在提供工具和服务,试图用模仿人类智能某些方面的机器来支持应用程序和流程。”

预测是困难的,尤其是关于未来的预测,但它是一个(相对)安全的赌注,在模仿人类智能元素的竞赛中,由谷歌、Facebook、百度、亚马逊、IBM和微软领导的,都有非常雄厚的财力,将在不久的将来改变我们所说的“大数据”。

大数据热门技术(当下最热门的大数据技术及发展趋势)(2)

那么,这些公司在购买哪些大数据技术呢?云计算 AWS非关系型分析系统是大数据技术投资的热门领域,认知软件也是如此。

值得关注的15大数据技术

提供大数据解决方案的技术供应商似乎数不胜数。目前特别流行的许多大数据解决方案都可以归为以下15类:

1. Hadoop生态系统

虽然Apache Hadoop可能不再像以前那样占据主导地位,但是如果不提到这个用于分布式处理大型数据集的开放源码框架,就几乎不可能谈论大数据。去年,Forrester预测,“在未来两年内,100%的大型企业将采用it (Hadoop和相关技术,如Spark)进行大数据分析。”

多年来,Hadoop已经发展成为一个包含相关软件的完整生态系统,许多商业大数据解决方案都是基于Hadoop的。事实上,锡安市场研究公司(Zion Market Research)预测,到2022年,基于hadoop的产品和服务的市场将继续以50%的复合年增长率增长,届时其价值将达到871.4亿美元,高于2016年的76.9亿美元。

关键的Hadoop供应商包括Cloudera、Hortonworks和MapR,以及领先的公共云都提供支持这项技术的服务。

2. SPARK

Apache Spark是Hadoop生态系统的一部分,但它的使用已经变得如此广泛,值得拥有自己的类别。它是Hadoop内部处理大数据的引擎,比标准的Hadoop引擎MapReduce快100倍。

在2016年的AtScale大数据成熟度调查中,25%的受访者表示他们已经将Spark投入生产,33%的受访者表示已经有Spark项目在开发中。显然,人们对这项技术的兴趣相当大,而且还在增长,许多提供Hadoop产品的供应商也提供基于spark的产品。

3.R

另一个开源项目R是一种编程语言和软件环境,用于处理统计数据。它是数据科学家的宠儿,由R基金会管理,并在GPL 2许可下可用。许多流行的集成开发环境(ide),包括Eclipse和Visual Studio,都支持这种语言。

一些对各种编程语言的流行程度进行排名的组织表示,R已经成为世界上最流行的语言之一。例如,IEEE称R是第五大最流行的编程语言,Tiobe和RedMonk都排在第14位。这一点很重要,因为这些图表顶部附近的编程语言通常是通用语言,可以用于许多不同类型的工作。对于一门几乎只用于大数据项目的语言来说,排名如此靠前说明了大数据的重要性以及该语言在其领域的重要性。

4. 数据的湖泊

为了更方便地访问它们庞大的数据存储,许多企业正在建立数据湖。这些大型数据存储库从许多不同的数据源收集数据,并将其以自然状态存储。这与数据仓库不同,数据仓库也从不同的数据源收集数据,但对数据进行处理并对其进行存储。在这种情况下,湖和仓库的比喻是相当准确的。如果数据像水一样,那么数据湖就是天然的、未经过滤的水体,而数据仓库更像是一堆放在架子上的水瓶。

当企业希望存储数据,但还不确定如何使用数据时,数据湖尤其具有吸引力。许多物联网(IoT)数据可能属于这一类别,物联网趋势正在数据湖的增长中发挥作用。

市场和市场预测,数据湖的收入将从2016年的25.3亿美元增长到2021年的88.1亿美元。

5. NoSQL数据库

传统的关系数据库管理系统(RDBMSes)将信息存储在结构化的、已定义的列和行中。开发人员和数据库管理员使用一种称为SQL的特殊语言来查询、操作和管理这些rdbms中的数据。

NoSQL数据库专门存储非结构化数据并提供快速性能,尽管它们不提供与rdbms相同的一致性级别。流行的NoSQL数据库包括MongoDB、Redis、Cassandra、Couchbase等;即使是领先的RDBMS供应商,如Oracle和IBM,现在也提供NoSQL数据库。

随着大数据趋势的发展,NoSQL数据库变得越来越流行。根据Allied Market Research的数据,到2020年,NoSQL市场的价值可能会达到42亿美元。但是,rdbms的市场仍然比NoSQL的市场大得多。

MongoDB:MonboDB是几个著名的NoSQL数据库之一。

6. 预测分析

预测分析是大数据分析的一个子集,它试图基于历史数据预测未来的事件或行为。它利用数据挖掘、建模和机器学习技术来预测接下来会发生什么。它通常用于欺诈检测、信用评分、市场营销、财务和业务分析等目的。

近年来,人工智能的进步极大地改善了预测分析解决方案的能力。因此,企业开始更多地投资于具有预测能力的大数据解决方案。包括微软、IBM、SAP、SAS、Statistica、RapidMiner、KNIME等在内的许多供应商都提供预测分析解决方案。锡安市场研究公司(Zion Market Research)表示,预测分析市场在2016年创造了34.9亿美元的收入,到2022年这个数字可能达到109.5亿美元。

大数据热门技术(当下最热门的大数据技术及发展趋势)(3)

7. 内存数据库

在任何计算机系统中,内存(也称为RAM)的速度都比长期存储快几个数量级。如果大数据分析解决方案能够处理存储在内存中的数据,而不是存储在硬盘上的数据,那么它的执行速度将大大提高。这正是内存数据库技术所做的。

许多领先的企业软件供应商,包括SAP、Oracle、Microsoft和IBM,现在都提供内存数据库技术。此外,Teradata、Tableau、Volt DB和DataStax等几家规模较小的公司也提供内存数据库解决方案。MarketsandMarkets的研究估计,2016年内存技术的总销售额为27.2亿美元,到2021年可能会增长到65.8亿美元。

8. 大数据安全解决方案

由于大数据仓库对黑客和高级持续性威胁具有很大的吸引力,因此大数据安全成为企业越来越关注的问题。在AtScale的调查中,安全是与大数据相关的第二大增长最快的关注领域。

根据IDG的报告,最流行的大数据安全解决方案包括身份和访问控制(59%的受访者使用)、数据加密(52%)和数据隔离(42%)。数十家供应商提供大数据安全解决方案,来自Hadoop生态系统的开源项目Apache Ranger也吸引了越来越多的关注。

9. 大数据治理解决方案

与安全概念密切相关的是治理概念。数据治理是一个广泛的主题,它包含与数据的可用性、可用性和完整性相关的所有流程。它为确保用于大数据分析的数据是准确和适当的提供了基础,并提供了审计跟踪,以便业务分析师或高管能够看到数据的来源。

在NewVantage Partners的调查中,接受调查的《财富》1000名高管中有91.8%的人表示,公司治理对他们的大数据计划至关重要(52.5%)或重要(39.3%)。提供大数据治理工具的供应商包括Collibra、IBM、SAS、Informatica、Adaptive和SAP。

10. 自助服务功能

由于数据科学家和其他大数据专家供不应求,而且工资很高,许多组织都在寻找大数据分析工具,让企业用户能够自我服务,满足自己的需求。事实上,一份来自Research and Markets的报告估计,自助商业智能市场在2016年创造了36.1亿美元的收入,到2021年可能会增长到73.1亿美元。Gartner指出,“现代BI和分析平台在过去几年出现,以满足可访问性、敏捷性和更深层次的分析洞察力等新的组织需求,将市场从it主导、记录系统报告转向业务主导、敏捷分析(包括自助服务)。”

为了利用这一趋势,许多商业智能和大数据分析供应商,如Tableau、微软、IBM、SAP、Splunk、Syncsort、SAS、TIBCO、Oracle等,都在他们的解决方案中增加了自助服务功能。时间会告诉我们,这些产品中是否有一种或所有产品是真正可供非专业人士使用的,以及它们是否能提供企业希望通过大数据计划实现的业务价值。

11. 人工智能

虽然人工智能(AI)的概念几乎和电脑一样存在了很久,但这项技术直到最近几年才真正可用。在许多方面,大数据趋势推动了人工智能的发展,尤其是在该学科的两个分支:机器学习和深度学习。

机器学习的标准定义是,它是一种技术,使“计算机能够在没有明确编程的情况下学习”。在大数据分析中,机器学习技术允许系统查看历史数据、识别模式、构建模型和预测未来结果。它也与预测分析紧密相关。

深度学习是一种机器学习技术,它依赖于人工神经网络,使用多层算法来分析数据。作为一个领域,它有很大的潜力允许分析工具识别图像和视频中的内容,然后进行相应的处理。

专家表示,这一领域的大数据工具似乎即将迎来戏剧性的腾飞。IDC预测,“到2018年,75%的企业和ISV开发将至少在一个应用程序中包含认知/人工智能或机器学习功能,包括所有的商业分析工具。”

拥有与大数据相关工具的领先人工智能供应商包括谷歌、IBM、微软(Microsoft)和亚马逊网络服务(Amazon Web Services),还有数十家小型初创公司正在开发人工智能技术(并被大型技术供应商收购)。

12. 流分析

随着组织对大数据分析解决方案的能力越来越熟悉,它们开始要求越来越快地访问洞察。对于这些企业来说,能够在创建数据时分析数据的流分析是一种圣杯。他们正在寻找能够接受来自多个不同来源的输入、处理它并立即返回洞见(或尽可能接近洞见)的解决方案。当涉及到新的物联网部署时,这是特别可取的,这有助于推动流媒体大数据分析的兴趣。

一些供应商提供了承诺提供流分析功能的产品。它们包括IBM、Software AG、SAP、TIBCO、Oracle、DataTorrent、SQLstream、Cisco、Informatica等。MarketsandMarkets认为流媒体分析解决方案在2016年带来了30.8亿美元的收入,到2021年可能会增加到137亿美元。

13. 边缘计算

除了激发人们对流媒体分析的兴趣外,物联网趋势还引发了人们对边缘计算的兴趣。在某些方面,边缘计算是云计算的对立面。边缘计算系统不是将数据传输到集中的服务器进行分析,而是在离数据产生地非常近的地方进行分析——在网络的边缘。

边缘计算系统的优点是它减少了必须通过网络传输的信息量,从而减少了网络流量和相关成本。它还减少了对数据中心或云计算设施的需求,为其他工作负载释放了容量,并消除了潜在的单点故障。

虽然边缘计算市场,尤其是边缘计算分析市场仍在发展,但一些分析师和风险投资家已经开始把这项技术称为“下一个大事件”。

14. 区块链

区块链也是有远见的分析师和风险投资家的最爱,它是比特币数字货币背后的分布式数据库技术。区块链数据库的独特之处在于,一旦写入了数据,就不能在事后删除或更改。此外,它具有高度的安全性,这使得它成为银行、保险、医疗、零售等敏感行业大数据应用的最佳选择。

区块链技术仍处于起步阶段,用例仍在开发中。然而,包括IBM、AWS、微软和多家初创公司在内的一些供应商已经推出了基于区块链技术的实验性或介绍性解决方案。

大数据技术,区块链.区块链是分布式账本技术,为数据分析提供了巨大的潜力。

15. 规范的分析

许多分析师将大数据分析工具分为四大类。第一种是描述性分析,简单地描述发生了什么。下一种类型是diagnostic analytics,它更进一步,提供了事件发生的原因。第三种类型是前面深入讨论过的预测分析,它试图确定接下来会发生什么。这是目前市场上大多数分析工具所能达到的最复杂的程度。

然而,还有第四种类型的分析甚至更加复杂,尽管现在很少有具有这些功能的产品可用。说明性分析为公司提供建议,告诉他们应该做什么才能得到想要的结果。例如,虽然预测分析可能会向公司发出特定产品线的市场将会下降的警告,但是规定性分析将分析针对这些市场变化采取的各种行动,并预测最有可能的结果。

目前,很少有企业投资于规定分析,但许多分析师认为,在组织开始体验预测分析的好处后,这将是下一个大的投资领域。

大数据技术的市场是多样化和不断变化的。但或许有一天,预测和规定性分析工具将为大数据的未来发展以及企业应该如何应对提供建议。

猜您喜欢: