您当前的位置:首页 > 北塔知识库

如何应对大数据洪流

时间:2013-04-02

摘要:
对存储容量复杂而无止境的需求,让存储管理员感到十分头疼。以下我们将为大家介绍一些如何应对数据洪流的方法。
 关键字:大数据

对存储容量复杂而无止境的需求,让存储管理员感到十分头疼。以下我们将为大家介绍一些如何应对数据洪流的方法。

以往只有科研人员、互联网巨头,以及亚马逊、推特、脸谱和Shutterfly等社交媒体巨头面临数据洪流的问题,但是现在越来越多的企业开始尝试通过大数据挖掘来发现手中所掌握的有价值信息,并以此获得竞争优势。如今,沃尔玛、金宝汤、辉瑞默克和Wawa连锁便利店正在为他们的大数据制订一套宏伟的计划。

为了更快地回应客户,更好地追踪客户信息,以及更迅速地向市场导入新产品,许多公司开始投资大数据分析。

市场研究机构IDC存储分析师Ashish Nadkarni称: “对于身处互联网时代的任何公司来说,如果他们不这样做,他们的竞争对手就会先下手为强。”

目前所有机构都被来自内部和外部的数据所淹没。在这些数据中,许多数据是实时传输过来的,又有许多数据只会被用上几分钟、几小时或是几天时间。

市场研究公司Aberdeen Group表示,因此带来的存储需求的增长对大型企业来说尤为棘手。在这些大型企业中,从2010年至2011年,结构化和非结构化数据所需要的存储容量平均增长了44%。无论多大规模的公司,数据存储需求每隔2.5年就会翻一番。而且对视频存储、电子表格、格式化数据库和纯非结构化数据进行优化需要不同的工具。

Aberdeen 集团虚拟化和存储分析师Dick Csaplar 称:“能够让存储方面的花销不随存储需求增长而增长是一个挑战。”能够帮助主流大数据用户避免陷入这一恶性循环的技术有存储虚拟化、去重和存储分层技术。对于科研人员、社交媒体网站与仿真项目开发人员等大数据重度用户,面向对象的和关系型数据库存储都是不错的选择。

与内部日常存储平台相比,以易于访问的格式存储PB级(和更大规模)数据所需的系统在设计上要更为复杂。以下是专家对管理和存储大数据提出的一些建议。

分析数据类型

所需的存储类型取决于要分析的数据类型与数量。全部数据均有一个保存期限。例如,股票报价只在价格变动前的一或两分钟内重要。棒球比赛得分对于人们来说,只需要保存24小时或是直到下一场比赛前。这一类型的数据在最需要的时候应当保存在主存储器中,随后即可以转移至廉价的存储器内。多年来的观察已经证明了这一理念,即被长期存储的数据通常并不需要存储在容易被访问到的主驱动器上。

分析存储容量

在存储大数据时,企业需要的存储容量和类型取决于所需要存储的数据大小和这些数据的使用时限。

在大数据分析中涉及三种类型的数据。Nadkarni称:“它们能够将来自多个来源的数据每秒源源不断地传输给你,在这些数据失去时效性之前,时间切片应当为数分钟。”这类数据包括天气、交通、社交网络上的趋势话题和关于全球事件的Twitter等更新信息。

大数据还包括了那些休眠数据或是公司为了适度使用而生成和控制的数据。

数据传输需要快速的捕获和分析能力。Nadkarni称:“一旦分析了它们,企业就不再需要它们了。但是对于休眠数据或被控制的数据,应当将它们存储起来。”

选择最适用的存储工具

对于那些刚开始涉足大数据存储和分析的公司,行业观察人士建议采用将所有的存储放在一个保护伞下的存储虚拟化技术、去重压缩数据技术和分层存储方案,以确保最有价值的数据被存储在最容易被访问的系统中。

存储虚拟化提供了一个软件抽象层,让用户无法找到物理设备,并且允许所有设备作为一个单一的池被管理。尽管服务器虚拟化已经成为了目前IT基础设施中的一个成熟组件,但是存储虚拟化仍然未被广泛接受。

在2012年2月份,Aberdeen对106家大型公司进行了调查。结果显示,仅有20%的受访者表示他们拥有一个单独的存储管理应用。平均下来,3个管理应用对应3.2个存储设备。

尽管如此,许多存储厂商并不愿意让自己生产的设备接受其他厂商产品的管理。Csaplar说:“存储虚拟化非常复杂,并且极为耗时。因此,它们无法像服务器虚拟化那样被广泛接受。”相反,许多存储管理员正在关注针对第三或第四层存储的云解决方案。因为云方案能够更为容易地在不同基础设施之间转移数据,同时可以降低存储成本。他补充说:“许多公司已经这么做了,并且得到了良好的效果,但这距离人们的期望值还存在一定的差距。”

Csaplar希望看到,随着网络连通性的改善,成本的下降,以及传输过程中数据加解密能力的提升,云存储和其他基于云的计算资源的使用率在不久的未来将出现增长。他说:“有了云,就可以从运营预算中结算每月的账单而无须单独的资金预算。”

去重与压缩

通过去重技术,管理员能够降低所需的存储空间。由于数据压缩工具可识别出各个文件中的重复字符串,并且每个文件仅存储一份拷贝,因此去重过程可以消除冗余数据。

那么这样一来可以降低多少存储需求呢?Aberdeen的调查报告显示,13%的受访者表示,他们将数据大小降低了50%。另有约13%的公司表示,高度重复的结构化数据减少了30%至50%。

存储分层

一旦公司确定他们将分析哪些数据,存储管理员就能够将最新和最重要的数据放在速度最快、可靠性最高的存储介质上。随着数据的时效性越来越差,这些数据可以被转移到速度较慢、价格较便宜的存储上。具有存储分层程序自动化功能的系统正在受到关注,但是还没有被用户广泛采用。

在制订存储等级时,管理员必须要考虑存储技术、设备的速度,以及保护数据安全的RAID的形式。

失效备援的标准解决办法是复制,通常以RAID阵列的形式进行复制。在线照片分享网站Shutterfly的高级副总裁兼首席技术官Neil Day指出,如果数据的规模过于庞大,那么RAID所产生的问题会比其解决的问题还要多。由于允许用户无限量地存储原始分辨率的照片,因此,目前该网站存储的数据已经超过了30PB。

在传统的RAID数据存储模式中,每份数据的拷贝都被做成镜像存储在阵列中的多个磁盘上,以确保数据的完整性和可靠性。不过,这也意味着所存储和被做成镜像的每份数据在大小方面都翻了五倍。随着RAID阵列所使用的驱动器容量越来越大——从密度和能耗方面看,目前,3TB的驱动器最具吸引力——将故障驱动器上的内容完整复制到新驱动器上所需要的时间正变得越来越长。

Shutterfly最终选择了纠删码技术。通过该技术,每片数据能够被分成小数据块,并分散存储在不同的磁盘驱动器或服务器内,而这些小块本身并没有意义。任何时候,即使由于驱动器故障导致多个小数据块遗失,其余的部分小数据块也可以完整复原数据。换句话说,不再需要创建多份数据拷贝,单一实例能够确保数据的完整性和可靠性。由于纠删码技术是一种基于软件的技术,因此这种技术能够与商业化硬件一起使用,甚至可以降低大规模部署的成本。

Cleversafe是最早的纠删码软件厂商之一。该公司通过添加位置信息研发了一种被称为分散编码的技术,允许用户在地理上相互独立的地方,如多数据中心内存储小数据块或是数据切片。

超级大数据用户

像Shutterfly这样有着海量存储需求的公司必须提前考虑块存储。Nadkarni称:“在谈论PB级海量数据集时,企业必须要开始关注对象存储或分布式文件系统了。可以考虑EMC的Isilon集群存储和戴尔Fluid文件系统等商业解决方案或是开源方案。它们必须能够以更低的成本存储数据,并且能够提供更优秀的性价比。此外,它们还要具备可扩展性。”

他补充道,商业软件的用户常常会存储一些用完即弃的一次性数据,并且几乎没有后处理需求。

不再需要存储管理员

在正确部署后,存储虚拟化、去重、存储分层和纠删码技术可降低企业对管理人员的需求,因为这些工具能够让通过单一虚拟管理平台管理数据。在Shutterfly的案例中,自动化存储基础设施允许公司降低维护人员的增长速度,随着公司日常维护工作的减少,管理员可以将更多的时间花在一些具有前瞻性的项目上。

Nadkarni称,在一些案例中,大数据项目由一些特殊团队完成,而不是传统的IT员工。“这些项目由公司的业务部门负责掌管与运营,因为IT基础设施在灵活性上无法支持大数据环境,或是没有掌握大数据所需要的相关技能。”

“在这些项目中可能没有存储管理员的身影,或者他们只扮演一个非常小的角色,所有的工作都将由系统人员完成。”

未来发展趋势

Nadkarni认为将计算层转移至数据层之中的概念将会流行起来。“应当关注由Cleversafe提供的解决方案,以及其他存储提供商提出的在存储层中植入计算功能的解决方案。目前我们再也无法轻易地将数据转移至计算层。可以说这实际上已经是不可能的了,尤其是当需要在数据失去时效性之前只有几分钟时间分析它们的情况下。所以为什么不将计算层转移至数据存储层之中呢?”

Cleversafe针对Shutterfly等大数据重度用户提供了一个高端的Hadoop解决方案,不过他们目前正在尝试将其变成一个通用解决方案。Nadkarni称:“Cleversafe打破了从一家厂商那里采购计算力,再从其他厂商那里采购应用存储的模式。为了在主流企业中获得成功,公司的业务部门必须要开拓思路。我认为它们最终将会受到广泛认可,因为目前模式的效率并不适合大数据的需求。”

他补充道:“大数据是公司保持竞争优势的工具。为了最大限度地利用手中的数据,公司必须要调整处理程序和使用方式,以便更加迅速地从这些数据中挖掘出它们所蕴含的价值。”

Csaplar警告说:“在投资新的大数据存储基础设施之前,公司必须要做好调查研究和前期准备工作。仔细研究它们,多与那些已经部署了大数据存储基础设施的公司进行沟通。大数据存储基础设施并不是什么尖端的东西,与已经部署了它们的人进行沟通,可以让你在部署过程中避免犯下相同的错误。”(更多内容详见: http://www.cnw.com.cn/P/4729

Hadoop不再是唯一的选择

目前,“大数据”概念的范围得到了很大程度的延伸。以前,大数据这一术语指那些对科研人员和社交媒体网站等高级用户频繁查询、迅速做出响应的复杂数据。如今,大数据这一概念中包括了大多数公司必须存储的海量结构化或非结构化数据。

尽管Hadoop和Cassandra开源系统是大数据存储和分析的理想选择,但是目前许多厂商已经开始在调整他们的存储系统,以应对数以PB计的数据,以及提供更便捷的分析方法。

IBM 存储产品营销管理策略副总裁Ed Walsh 称:“以往大数据是顶级大型公司才使用的工具,现在几乎所有的公司都在利用大数据从数据中获得洞察力。你最好有一个高效的存储,否则成本将非常庞大。此外,相关的应用也要具有良好的性能,并且能够动态调整。”

IBM花了数年时间研发了一套包括Hadoop在内的高性能存储与分析产品,以及相关技术。IBM在去年六月份正式向市场推出了一套名为IBM智能存储的存储与分析产品。IBM还表示,这是他们首套整合了Platform Computing公司软件的解决方案,旨在服务更多的企业客户。IBM在2012年年初收购了技术和分布式计算管理软件制造商Platform Computing公司。

Walsh 表示:“我们这么做的原因是因为我们拥有一套非常完整的产品组合。这套产品不再像以往那样复杂,它们可以帮助用户更加全面地洞察发展趋势,让用户知道他们应当尝试利用手中的数据做哪些工作。”

 

本文转载自企业级IT信息服务平台-网界网-CNW.com.cn
原文地址:http://www.cnw.com.cn/weekly/htm2013/20130301_264872_2.shtml

 

【推荐阅读】

网管软件专区

网络管理维护技巧:实现VLAN环境下DHCP服务

网管员技巧:学会限制路由器多台电脑上网

网络管理维护技巧:路由器故障排除技巧

IT运维管理专区

本文来自互联网,仅供参考

北塔软件BTNM产品 免费试用

相关文章

产品中心
北塔BTSO 智慧运维平台
新一代运维管理软件,智能化、自动化成就智慧运维..
北塔BTDO业务保障系统
从网际数据流量角度分析业务、保障业务、守护业务...
EMonitor监控管家
轻量级自动监控管家,服务中小企事业单位...
解决方案