大数据平台解决方案模板(10篇)

时间:2022-06-23 13:06:21

导言:作为写作爱好者,不可错过为您精心挑选的10篇大数据平台解决方案,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

大数据平台解决方案

篇1

数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。

通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案

EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。

EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。

杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。

EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。

方案点评

EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。

HDS UCP:统一平台 应用优化

HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”

大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。

谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。

大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”

谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。

HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。

HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。

方案点评

其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。

HP StoreAll :快速部署 极速搜索

中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。

第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”

另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。

目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。

惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。

如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。

方案点评

惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。

NetApp:统一架构 无限扩展

如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。

对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。

无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。

在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。

NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。

具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。

带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。

内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。

NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。

用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。

方案点评

NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。

曙光XData:高度集成 贴近行业

关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。

首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。

其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。

最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。

从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。

针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。

“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”

曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。

针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。

曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。

篇2

10月18日,在微软公司大数据媒体日活动现场,微软分享了其在大数据领域的最新研究成果和解决方案,来自国内的银行、汽车、交通运输、医疗卫生和零售业用户分享了其应用体验。

大掌控、大智汇、大洞察

在大数据成为流行词之前,微软便已着手于大数据的应用与研发,例如微软Bing的高质量搜索结果,便是通过分析超过100PB的数据得到的。微软大数据解决方案的目标,是让所有用户都能获得来自任何数据有价值的洞察力。

微软大中华区副总裁兼市场战略部副总经理、大中华区首席云战略官谢恩伟介绍,为了实现这一目标,微软为大数据解决方案制定了全面的战略——大掌控、大智汇、大洞察。

大掌控,即“支持所有数据类型的现代化的管理层”。微软大数据解决方案的数据管理平台可以无缝地存储和处理包括结构化、非结构化和实时数据在内的所有类型的数据。微软推出的HDInsight是一种适合企业使用的、基于HDP的Hadoop服务,它将Windows的简易性和可管理性带给Hadoop,提供了结合Hadoop的扩展平台,并为大数据提供了灵活且可扩展的云。

大智汇,即“搜索并结合广泛数据,进行先进分析与精炼,从而提高数据价值的富集层”。微软大数据解决方案,通过将数据和模型与公开的数据服务相结合,实现了突破性的数据发现,例如自动发现与共享防火墙外部的和第三方的数据源等。

大洞察,即“用户熟悉的工具可为用户提供具有直观洞察力的洞悉层”。微软大数据解决方案可以使客户通过熟悉的由Hive add-in for Excel生成的Excel界面,从Hadoop功能中获取有价值的洞察力,也可经由企业熟悉的BI工具,如SQL Server 分析服务、PowerPivot和通过Hive Open Database Connectivity 驱动生成的Power View来分析Hadoop中的非结构化数据。

数据分析结果要“傻瓜化”

“我们要将挖掘与分析的结果直观呈现,转换为用户真正需要的有价值的洞察力。” 微软全球高级副总裁、大中华区董事长兼首席执行官贺乐赋说。

篇3

大数据不一定是复杂的分析

许多人一提到大数据,首先想到的是复杂的数据分析。这让有些希望采用大数据分析工具的用户产生了畏难情绪,也让有些用户产生了误解,认为大数据分析只是那些拥有复杂业务流程和海量数据的大企业的事。市场研究机构麦肯锡的研究人员表示:“要创造新的重大价值,并不一定要采用复杂的大数据分析方法,有时只要能保证数据的可用性或对数据应用进行基本的分析,就能获得所需的重要价值。”

不同的企业或一个企业内部不同的部门对数据分析和数据价值的理解都不相同。企业处于不同的信息化发展阶段,也会设定不同的数据分析目标,采用不同的数据分析工具。正是基于此,戴尔率先提出了大数据成熟度模型。戴尔公司全球企业级解决方案副总裁Cheryl Cook表示:“这一模型已经得到了业内许多分析机构的认可。所有行业以及所有数据应用都适用于此模型。”

如下图所示,大数据成熟度模型分成五个阶段。第一个阶段,数据处于混乱状态,数据存储无章可循,数据难以访问,企业的信息系统处于高风险状态。第二个阶段,实现数据的保留。在这个阶段,企业被动地对数据进行存储。数据虽然经过一定的处理,但还不具有高质量,数据的访问也会受到一定限制。第三个阶段,实现存储的优化。在这个阶段,通过对存储系统的进一步优化以及基于策略的控制与管理,用户可以逐步发现数据的价值。第四个阶段,实现简单的分析。在存储优化的基础上,用户可以进行数据建模和简单的数据分析,对归档数据进行搜索等。第五个阶段,实现复杂的分析。在这个阶段,大数据分析工具将得到充分应用,用户可以进行比较复杂的建模、分析和决策。经过上述五个阶段,曾经杂乱无章的数据也将经历从数据到信息再到知识的转变过程,最终成为企业决策的重要依据。

这个大数据成熟度模型可以解答人们对于大数据应用的几个疑惑。第一,用户使用大数据分析工具,并不意味着一定要进行复杂的分析。举例来说,处于存储优化阶段的用户就可以实现无障碍的数据访问,并能获得所需的数据价值。第二,大数据的应用要经历一个逐步完善的过程,必须循序渐进,先做好数据存储和优化,然后再进行数据分析。第三,大数据解决方案通常包括两个部分:一是大数据保留解决方案,二是大数据分析解决方案。将两类解决方案有机地结合在一起,才能有效降低大数据分析应用的成本,更好地挖掘数据的价值。Cheryl Cook表示,戴尔可以提供上述两种解决方案。一方面,戴尔可以提供针对结构化和非结构化数据的大数据保留解决方案,主要包括存储虚拟化与整合、应用程序优化、数据保护、灾难恢复以及数据保留与管理解决方案;另一方面,戴尔还能提供支持Hadoop、Cloudera等开源软件的大数据分析解决方案。

记者曾与包括大庆油田、太平洋保险公司等在内的一些用户进行过交流。它们目前都没有计划部署大数据应用。“从全球范围来看,大数据应用还处于起步阶段。”戴尔亚太及日本地区商用事业部企业解决方案副总裁Philip A. Davis表示,“与云计算兴起时一样,可能要经过两三年的市场培育,用户才能逐渐接受大数据应用。”

中国东方航空股份有限公司信息部总经理严振红介绍说:“在大数据的概念出现以前,我们就在做客户数据、经营数据的分析工作。但是客户数据库、经营数据库等都是相互独立的,数据不能共享。现在,我们要做的是将这些系统的数据整合起来,统一进行分析。”

Hadoop不是万能的

简单来说,Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop最独特的优势在于为用户提供了一个分布式的、高容错的文件系统和加速数据处理的办法。随着Web 2.0、社交网站的大规模兴起,人们需要一个高效的处理非结构化数据的平台。Hadoop正好可以满足人们的需求。有些人甚至在Hadoop和大数据之间划上了等号。Hadoop能够解决大数据应用的所有难题吗?

“Hadoop是一个复杂的工具套件。如果没有厂商或专业技术人员的帮助,用户自己部署Hadoop是一件十分困难的事。目前,Hadoop的应用并不普及。互联网用户是最早采用Hadoop平台的。”Philip A.Davis表示,“如果想让大数据解决方案充分发挥其作用,就必须搭建一个高效的信息基础架构,实现信息基础架构的自动化、智能化,同时提高其可管理性。”

Hadoop的应用是有一定技术门槛的。如今,许多IT厂商都推出了基于Hadoop的解决方案包,其目的是帮助用户简化Hadoop的部署与应用。Philip A.Davis表示:“戴尔提供的基于Hadoop的大数据分析方案可以将Hadoop的部署周期从原来的两个月缩短至两天。”

VMware全球高级副总裁范承工也认为,由于缺少精通Hadoop技术的专业人才,Hadoop的部署对于用户来说是一件费时费力的事。如今,VMware可以将Hadoop部署在虚拟化架构之上,将部署工作从半自动化变为全自动化,从而减少了人工干预,使得Hadoop的部署变得更加简单,也不容易出错。

“很多中国企业的CIO认为,大数据解决方案是有价值的,但实施起来确实有许多困难。”戴尔全球副总裁、中国区大型企业及公共事业部总经理容永康举例说,“国内懂得在Hadoop上进行开发的专业技术人员非常少。一些金融行业的用户很想现在就部署大数据解决方案,但是苦于找不到既懂Hadoop技术,又懂得金融业务的专业人才。”

Informatica首席技术官James Markarian表示:“在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop跨越不同平台,用户需要将Hadoop作为其IT大环境中的一部分来管理,并通过Hadoop重复使用他们的开发技巧、资产及数据,同时还要统筹管理全部数据。”

在美国市场上,70%的大数据应用处理的还是结构化的数据。从技术的角度看,虽然Hadoop也能处理结构化的数据,但是目前基于Hadoop的大数据分析解决方案主要还是用于处理非结构化的数据。因此,用户处理结构化数据和非结构化数据通常是用两套不同的分析工具。这种混合的大数据处理模式是一种普遍现象。

从未来的发展看,非结构化数据的快速增长是大数据分析的主要驱动因素。从这个角度讲,Hadoop的应用前景还是十分广阔的。

篇4

各行各业都能用得上大数据,只是对大数据重要性的意识程度不同:凯捷咨询(Capgemini)的调研结果显示,76%能源和自然资源行业的高管相信公司是数据驱动的,在医疗医药行业和生物科技行业这个数字为75%,在金融行业为73%。包括英特尔在内的有能力提供大数据解决方案的IT厂商正在努力让各行各业的企业切实感受到大数据的魔力。

能否置身事外?

随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。

近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。

别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。

安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。

赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。

大数据这场盛宴上,哪个行业也不愿意没有一席之地。

谁能站出来?

大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。

然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。

有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。

英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。

英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。

对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。

O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。

延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”

除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。

行业侧重点

英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。

篇5

在云计算、大数据时代,企业更需要以互联网的思维方式构建面向未来的分布式应用,这就需要一个全新的技术架构。从这个角度说,FusionCube融合一体机解决方案与面向大数据应用的SAP HANA相得益彰。

“SAP HANA是一个能够充分挖掘和体现大数据价值的解决方案。与传统的数据分析、商业智能解决方案不同,SAP HANA提供了一整套模型和工具,可以通过对大数据的分析预测未来的业务发展,给企业带来新的商机。”任志鹏分析说,“针对SAP HANA,华为提供了一个创新的技术平台FusionCube,将计算、存储、网络有机地结合在一起,并融合了华为分布式存储引擎以及云管理软件,使得大数据的实时分析与处理可以达到更高的水平。”在TPC-H测试中,华为FusionCube 刷新了基于Sybase IQ的集群性能世界记录,充分展示了其融合架构带来的性能优势。

大规模定制是云计算、大数据时代的一个典型特征。许多企业客户都需要厂商提供基于其个性化需求定制的解决方案。今天,针对不同企业的不同需求,华为提供了支持单节点HANA的RH5885方案和多节点HANA的FusionCube方案。任志鹏介绍说:“SAP HANA对基础设施有很严格的要求。华为FusionCube for HANA一体机具备更快的同步写性能、更低延时和更高的读写带宽,以及很好的线性扩展能力。FusionCube可实现一站式交付、家电化安装,并能按需灵活扩展应用,运维非常简单。”

华为FusionCube for HANA一体机已经在许多行业得到了应用。以金融行业为例,FusionCube for HANA在包括银行小微贷项目等在内的新兴业务中得到了成功应用。华为内部还成立了一支技术团队,专门负责支持SAP HANA。

交付“三位一体”

华为进军IT领域后始终坚持“被集成”的策略。因此在IT解决方案的推广过程中,华为与集成商、分销商一直保持紧密合作。华为FusionCube for HANA一体机就是通过富通集团在中国市场上进行销售的。“华为、SAP与富通集团基于FusionCube for HANA实现了三位一体的交付。”任志鹏表示。

篇6

尽管当前很多企业都在积极采用大数据分析技术和解决方案来变革业务模式,提升企业的核心竞争力,但是很多企业都对自身的大数据项目并不满意。全球领先的基准研究和咨询机构Ventana Research的研究@示,79%的企业用户不具备运用高级分析技术的必备技能。

姜欣介绍,今年Teradata通过《经济学人》杂志在全球所做的一个调研结果显示,在大数据利用方面,企业主要存在以下三方面问题:第一,数据整合问题,57%的被访企业认为难以获取重要的业务数据;第二,数据应用问题,42%的受访企业认为数据过于繁杂,应用不够友好;第三,数据治理问题,75%的受访企业为因异构数据而浪费时间感到困扰。

“我们目前推出的解决方案和技术,就是为了解决以上三方面问题。”姜欣介绍说,为此Teradata提出了五级转型战略:

其一,坚定地走一体化数据分析平台的道路,不断完善一系列平台产品,其中包括最近推出的Teradata IntelliFlex数据仓库架构和Teradata Aster大数据探索平台

其二,全面向云转型,支持私有云、公有云和托管云等多种部署方式,并在这种云生态下提供咨询和开发部署服务。

其三,打造分析生态系统,将统一数据架构(UDA),以及Unity、QueryGrid和Listener等工具整合起来,形成一个大数据生态,并在这个生态下提供咨询和实施服务。

其四,从完全技术中立的角度为客户提供大数据咨询服务,如大数据战略规划服务、敏捷开发咨询服务、数据建模服务。

其五,坚持客户至上而非产品至上,用多元化的产品全面满足客户需求,帮助客户挖据数据价值。

由此可见,Teradata在大数据领域,除了不断完善产品和技术以外,还不断强化咨询服务能力。

推出无边界分析功能

作为Teradata多年的老客户,瑞典最大的工业企业集团沃尔沃汽车公司从2006年开始建立数据分析平台。一直以来,沃尔沃汽车公司面临的一个问题,就是数据散布在超过30个系统中。公司的整合数据存储库和数据模型中,除了有客户、经销商、车辆与车辆配置信息、质保和故障诊断等数据外,还有很多外部数据。这些数据有结构化数据,也有非结构化数据。

沃尔沃汽车公司亟须一个弹性好、敏捷性高的平台来处理所有这些数据。为此,沃尔沃汽车公司部署了Teradata统一数据架构,将所有需要处理的数据全部整合起来进行处理,从而解决数据孤岛和数据治理混乱问题。在部署了Teradata统一数据架构后,沃尔沃汽车公司构建了全球统一的敏捷的数据驱动环境,从而可以借助可靠的数据分析结果降低运营成本,提高盈利能力和客户满意度;形成基于事实的决策机制和文化,使得公司更加开放和透明;有效支撑“数据创客”活动,员工和合作伙伴可以基于数据平台开发数据产品。

沃尔沃汽车公司成功应用Teradata统一数据架构的案例,是Teradata新推出的无边界分析功能的一个应用典范。据悉,Teradata无边界分析打破了过去在进行数据分析时单一系统、单一技术分析的界限,突破时间、地点,以及所需数据和平台的限制,帮助企业高效完成数据分析工作。

Teradata无边界分析功能通过最新版本的Teradata QueryGrid软件和可以自动协调多系统Teradata环境的Teradata Unity软件来实现。其中,Teradata Unity软件具有高可用性特点和工作负载分配功能,从而确保用户在权限范围内可随时访问相关数据和分析。全新升级的Teradata Unity具有强大的跨系统功能,可进一步消除分析环境界限。

电子专业制造服务公司伟创力公司数据与分析团队主管森迪尔(Sendil Thangavelu)认为,采用多个分析引擎来分析来自多个数据存储库的数据以获得更全面、可视化的分析结果,将成为企业强化竞争优势的重要因素。“我们的Teradata数据管理环境已经非常卓越,但我们一直还在寻找解决方案来提高我们的能力。Teradata的无边界分析概念与我们的企业发展方向不谋而合。”森迪尔补充说。

推出快速分析咨询服务

姜欣告诉记者,2015年年底,Teradata总结出了在新形势下具有较强竞争力的新型企业――技术感知型企业。技术感知型企业应具有敏捷平台、行为分析、协同思维、自助应用和自动决策五大核心能力。

姜欣表示,技术感知型企业对内能够提供数据洞察能力,实现数据驱动流程,提升运营的ROI;对外可以整合数据价值,创新数据盈利模式,实现信息运营。

但是,成为技术感知型企业并不容易。为了帮助客户更加顺利、快速地成为技术感知型企业,Teradata还推出了Teradata RACE(快速分析咨询服务)和Teradata业务价值框架。据介绍,RACE是一套敏捷、技术中立的方法论,能够帮助客户在正式投资前了解分析解决方案的潜在业务价值。不仅如此,借助丰富的行业经验和专业的数据分析技术,Teradata还可以帮助客户将项目实施所需时间从数月缩短至6~10周。

据悉,作为Teradata RACE服务的核心,Teradata业务价值框架是Teradata从数千次与客户成功合作中积累的丰富经验的结晶。该框架通过发现切实有用的分析解决方案,帮助客户更快地从分析和数据技术投资中获取回报。

值得一提的是,随着物联网传感器数据等新型数据源的不断出现,新分析技术的不断涌现,用户部署和应用分析解决方案的难度越来越大。但依托适用Teradata业务价值框架详尽的可视化信息,接受RACE服务的客户可以在实施分析解决方案时,掌握清晰的路线图,了解该项目在何时、以怎样的方式带来投资回报。

姜欣介绍,RACE方法包含三个主要阶段:

第一阶段,沟通(Align)。Teradata的分析业务咨询顾问以业务价值框架作为出发点,帮助客户发现最具潜在价值的业务案例,并对准该业务案例开展工作,确认支持该使用案例关键数据资产的可用性。

第二阶段,创建(Create)。Teradata的数据科学家为选中的业务案例载入并准备数据,开发新分析模型或调整既有模型。本阶段数据科学家会与业务发起人对方案进行多次快速迭代,以确保分析结果能带来预期业务效果。

第三阶段,评估(Evaluate)。Teradata的分析业务咨询顾问分析结果,评估部署分析使用案例的潜在投资回报率,并为客户设计、部署方案。

篇7

收购加速能力提升

在IT界,一直以来都不乏通过对具有先进技术的公司的收购,来迅速提升本公司能力的案例,对于以往以PC等终端设备见长的戴尔来说,要想转型进军企业级市场,收购无疑是一条快速实现目标的捷径。从2008年开始,戴尔就将目光投向了在存储、网络、安全、软件、服务等领域有特色的厂商,开始了有计划、有步骤的收购行动。

至今,戴尔已经收购了20多家厂商,其中不少很成功的收购为业界所津津乐道。例如对存储厂商EqualLogic的收购,两年时间就使其业绩达到10亿美元,而用户数增加了8倍;2010年年底收购的智能存储厂商Compellent,使戴尔的存储解决方案上了一个台阶,Compellent的“流动数据”理念现在已经成为戴尔存储的设计理念;对咨询服务厂商佩罗的收购更是填补了戴尔企业级咨询服务的空白,使戴尔的解决方案成为名副其实的“端到端”,并有效地带动了戴尔其他产品线的销售。

正是这一次次的收购,使戴尔迅速转型,业绩不断提升,在当今云计算和大数据时代,也有了更多的话语权。戴尔全球企业解决方案事业部副总裁Cheryl Cook认为,戴尔在大数据方面拥有创新性的解决方案,不仅可以为用户节省大笔资金,同时可提供极高的价值。她认为,大数据从开始到成熟分为5个阶段,即从混乱、保留、优化到简单分析、复杂分析。在这5个阶段里,戴尔针对前3个阶段,可提供大数据保留解决方案;而对于后两个阶段,戴尔则拥有大数据分析解决方案。Cheryl Cook认为,戴尔创新性的解决方案可处理成熟度模型范围内的结构化、半结构化和非结构化内容,她特别说道,戴尔将利用Hadoop,并与从事Hadoop开发的Cloudera公司合作,为用户提供大数据分析解决方案;而在大数据保留解决方案中,戴尔将充分发挥在存储方面的优势,通过存储虚拟化和整合、应用程序优化、数据保护、灾难恢复以及数据保留和管理等技术,为“流动的数据”提供存储和保护。

深谙用户需求

在戴尔2012年高层客户峰会上,戴尔服务部首席创新官James Stikeleather就“IT的未来”进行了演讲,他认为,企业IT未来将面临着来自IT价值、所有权和角色等方面的五大根本性变化,这些变化包括:信息超越流程、IT嵌入在业务服务之中、外部化的服务交付、企业合作伙伴的责任更大、减弱的独立IT角色。

作为IT解决方案供应商,戴尔同样也是一家企业,James Stikeleather认为,在当今这个转型的时代,戴尔已经成功地转型成为高效企业,它将战略性支出从2008年占IT预算的20%提高到今天的52%。这期间,戴尔的IT经过了标准化、简化、自动化,并最终实现云,比如将97%的系统迁移到x86平台;大力推进虚拟化,从而减少了6000台服务器;仅用一个控制台就可管理13万台服务器和客户端;运用云平台聆听客户的声音、信息和进行交互。这些举措使戴尔更加了解用户,更有针对性地为用户提供适合的解决方案,真正解决用户的问题。

篇8

产品与方案:

集聚业界最强资源

正如很多业内专家所说的那样,存储和安全是大数据迫切需要考虑的首要问题。

从海量数据产生的角度,以前数据量都是以GB或者TB记的量级。但如今,情况发生了改变,过去可能多年才能累计产生的数据量,现在可能只用很短时间就会积累起来,一些单位每年产生的数据量就可能达到几十TB,甚至不久的将来就会升级到PB级的数据量,将会占用越来越多的存储空间。

在解决海量数据的存储问题的同时,企业还必须要解决数据的安全性和可靠性等问题。所谓数据的安全性是指数据在任何情况下的可访问性,不会因为人为或自然的因素导致数据不可访问;数据的可靠性意味着即便是在极端情况下,数据发生损坏或丢失,仍有数据可被恢复或直接访问。

显然,解决这些问题必须要靠质量过硬的产品与解决方案。为此,长虹佳华近年来持续在云计算安全和大数据方面进行探索和投入,并且取得了很大成果:

在产品方面,长虹佳华以存储和服务器类产品为主,涵盖HDS、博科、昆腾、EMC、IBM等十余家全球知名、领先的数据存储业务服务商;在解决方案方面,长虹佳华帮助商为多种特定的行业用户提供行业解决方案,并且可以针对用户的不同需求提供定制化的解决方案,从而更加凸显了长虹佳华的综合实力;

在服务方面,长虹佳华并不仅仅重视售后服务,而是为用户提供包括培训、环境测试、技术支持在内的售前、售中、售后的一站式服务。以存储产品为主导构建增值业务群,如今已成为长虹佳华的既定战略。

近几年来,长虹佳华在原有合作伙伴的基础上,进一步与赛门铁克、Radware、博世、迈普等国内外知名品牌紧密合作,集聚了强大的产品与解决方案资源,整体解决方案能力和产品组合能力大大增强,进一步提升了长虹佳华“以数据为核心”的增值分销业务的服务能力。

CDSClub与云计算体验

暨培训中心:为数据安家

CDSClub与云计算体验暨培训中心,一直是长虹佳华享誉存储分销行业的代表之作。CDSClub一方面从技术整合出发,另一方面从渠道伙伴支持出发,两者相结合,就为大数据的应用与销售安下了最好的“家”。

CDSClub是从长虹佳华成功运作数年的SANClub升级而来,其主要功能是给特定的行业提供定制化的数据方案。升级后的CDSClub并不是仅仅局限于SAN架构一种主流技术,而是实现了跨平台的技术整合,使最终的数据方案更贴近实际应用,服务更统一,并且更有针对性。同时,方案的适用性也得到了极大提高。

目前处于国内领先地位的长虹佳华云计算体验暨培训中心,为渠道合作伙伴的数据方案、系统集成提供了演示、测试的广阔平台,对于渠道合作伙伴需要的不同产品组合应用测试、各类定制方案演示等都可轻松实现,是对渠道技术需求的极大补充支持。同时,该中心还充当起长虹佳华对合作伙伴及行业客户进行技术培训、资质认证以及设备服务的支持平台角色。

大数据浪潮正汹涌来袭,与互联网领域其他变革一样,这绝不仅仅是一场信息技术领域的革命,更是在全球范围内加速企业创新、引领社会变革的利器。现代管理学之父德鲁克有言:预测未来最好的方法,就是去创造未来。瞄准大数据的存储业务,长虹佳华正在向最强营销服务提供商迈进……

分销业务业绩骄人

篇9

大数据主要包括大交易数据、大交互数据和大数据处理。数据集成的功能是收集数据、探查数据和集中管理数据,从而进一步提高数据的质量。Informatica的数据集成软件可以辨别哪些数据是合规的,并提取出来,实施统一管理和统一复制。Informatica公司高级副总裁兼首席信息官托尼·杨(Tony Young)表示,针对Hadoop大数据处理平台,Informatica的数据集成软件主要负责做好以下几件事:解析和准备数据,探查和发现数据,转换和清洗数据,监控Hadoop平台中的数据。随着云计算应用的逐渐普及,数据碎片日益增加,而移动计算、社交计算的快速发展也增加了数据访问和管理的复杂性。在这种情况下,保证数据的合规性、一致性和准确性就显得尤为重要。数据集成不仅可以轻松实现上述目标,而且可以在数据整个生命周期的管理中起到监督和调整的作用。

在数据管理产品趋向融合的今天,数据集成软件会不会也被集成到一些综合性的管理解决方案中呢?

托尼·杨表示:“Informatica之所以能够保持快速成长,一个关键的因素就是始终保持中立的地位。我们的数据集成软件可以与其他所有应用和管理软件平台相集成,比如微软、SAP等厂商的产品。”

大数据促进业务增长

“数据分析是今后企业在竞争中保持优势的一个主要手段。如果你现在不认真对待大数据,那么竞争对手就有可能超过你,并取代你。”托尼·杨表示,“大数据与SOA(面向服务的体系结构)不同。SOA不能直接给企业带来商业价值,而大数据与企业的业务绩效直接相关。企业的CIO必须重视大数据的处理与应用。”

篇10

一项由惠普主导的调查表明,亚太地区60%的受访企业表示今年将把至少10%的IT创新预算用于大数据,而在中国这一数字为56%。三分之一的亚太地区和中国受访企业还坚信,大数据是其最大的差异化竞争优势。然而,调查却发现,近一半的亚太地区受访企业所实施的大数据计划都失败了,而在中国,这一数字为55%。很显然,大数据中蕴含着巨大的商业价值,然而驾驭大数据不是一件容易的事,并不是所有企业都具备像Google一样“玩转”数据的基因与技术储备。许多行业除了需要做好大数据思维上的转变之外,还需要有不同工具来进行大数据的处理与分析。

通过对收购的Vertica、Autonomy、ArcSight等产品进行优化整合,惠普在融入Hadoop等大数据技术的基础上打造了大数据分析平台HAVEn。“HAVEn平台提供了大量的应用开发接口(API),惠普希望通过HAVEn与合作伙伴共同打造一套完整的大数据分析生态系统,让更多应用解决方案落地到行业。它可以充分利用惠普的分析软件、硬件和服务,创建新一代为大数据准备的分析应用和解决方案。” 惠普公司软件集团大中华区总经理于志伟表示,“同时,HAVEn平台还支持各种主流硬件平台,为客户提供最佳的投资回报(Return On Investment)与信息回报(Return On Information)。”

不只是软件平台