企业数据存储方案模板(10篇)

时间:2022-03-15 03:46:51

导言:作为写作爱好者,不可错过为您精心挑选的10篇企业数据存储方案,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

企业数据存储方案

篇1

1 引言

在电力行业,坚强智能电网的迅速发展使信息通信技术正以前所未有的广度、深度与电网生产、企业管理快速融合,信息通信系统已经成为智能电网的“中枢神经”,支撑新一代电网生产和管理发展。目前,电网公司已初步建成了国内领先、国际一流的信息集成平台。随着各地集中式数据中心的陆续投运,一级部署业务应用范围的拓展,结构化和非结构化数据中心的上线运行,电网业务数据从总量和种类上都已初具规模。随着后续智能电表的逐步普及,电网业务数据将从时效性层面进一步丰富和拓展。电网业务数据将跨入海量数据时代,如何处理这些海量数据已成为电力企业信息管理首要解决的问题。而在海量数据的处理中,如何有效地保存和恢复数据就成了这些问题当中的首要问题。

2 海量数据特征

海量数据按照数据结构来进行划分,可以划分为结构化数据和非结构化数据两大类。

(1)结构化数据:简单来说就是数据库, 即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等

(2)非结构化数据:相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)

按照数据的时效性而言,海量数据又可划分为实时数据和离线数据两类。

实时数据:实时数据一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。

离线数据:对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。

3 企业海量数据存储现状

3.1 海量数据导致存储成本、维护管理成本不断增加

大型企业都面临着业务和IT投入的压力,与以往相比,系统的性能/价格比更加受关注。GIGA研究表明,ROI(投资回报率)越来越受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔IT开支之一。另一方面,海量数据使DBA陷入持续的数据库管理维护工作当中。

3.2 海量数据缺乏快速备份与灾难恢复机制

传统的数据库备份技术,如通常采用的磁带备份方式,不能运用于海量数据,因为磁带备份将使备份时间增加,需要几小时-几天,不仅影响了生产,而且增加了备份的难度,使得备份/恢复变得缓慢而且不可靠,几乎无法在固定的时间窗口完成备份工作。另外,第三方备份软件隐含的成本代价如成本开销、复杂度、昂贵的实施等也是企业需要考虑的。因此海量数据安全显得异常重要,只有通过引入有效的备份、方便高效的备份恢复技术,才能满足海量数据安全的需要。

4 存储解决方案概述

在海量数据存储中我们主要考虑的是大数据的存储,虽然现行的商业平台也能满足非结构化数据的存储,但问题主要出在系统可扩展性和建设费用上。对于庞大的非结构化数据存储产生的I/O瓶颈问题和昂贵的服务器价格不得不使我们另谋出路。

Hadoop的分布式文件系统HDFS出现恰好解决了商业平台中的I/O瓶颈和服务器价格昂贵问题。Hadoop的优势体现在以下几个方面:

(1)Hadoop依赖于低端服务器甚至是普通计算机,相对于商业平台的高昂成本,它的成本要低得多,几乎可以说任何人都可以使用它,哪怕是信息化成本预算较少的小微企业;

(2)HDFS与Map/Reduce紧密集成是Hadoop分布式计算的存储基石。它有自己明确的设计目标那就是支持大的数据文件大至T级,并且这些文件以顺序读取为主,以文件存/读的高吞吐量为目标。在使用HDFS分布式文件系统存储非结构化文件后,将提高我们系统的存储文件速度;

(3)HDFS的数据恢复能力也保证了系统的安全可靠性,可靠性体现在它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

(4)同时支持存储节点的热插拔和可以在普通PC机上存储非结构化文件,这不但提高了系统的扩展灵活性,还大大降低了企业在硬件方面的投入

5 应用架构

在本存储解决方案中,我们选择了Hadoop作为数据文件存储机制,Hadoop中的HDFS存储数据可以选择普通的PC机器作为数据节点,这大大的降低了存储数据所需要昂贵存储设备价格,并且在数据存储过程中,HDFS拥有很好的数据容灾机制。

6 HDFS

Hadoop的存储主要使用HDFS来进行管理,HDFS是一个分布式文件存储系统。HDFS起源于Apache Nutch Web 搜索引擎项目。

对于HDFS分布式文件系统中的块进行抽象会带来很多好处:

(1)文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块不需要存储在同一个磁盘上,因此他们可以利用集群上的任意一个磁盘进行存储。

(2)使用块抽象而非整个文件作为存储单元,大大的简化了存储系统的设计。简化是所有系统的目标,但对于故障种类繁多的分布式系统来说尤为重要。

(3)块非常适合用于数据备份,进而提高数据容错能力和可用性。

6.1 HDFS架构

6.2 HDFS文件存储方式使用大块的原因

HDFS的块比磁盘大,其目的是为了最小化寻址的开销。如果块设置的足够大,从磁盘传输数据的时间可以明显的大于定位这个块开始位置所需的时间。这样,传输一个由多个块组成的文件的时间取决于磁盘的传输速率,由此可见适当的设置磁盘块空间大小可以加快数据读写效率。

6.3 HDFS的集群管理模式

HDFS集群有两类节点,并以管理者――工作者模式运行,即一个namenode(管理者)和多个datanode(工作者)。管理者管理文件系统的命名空间,它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像和编辑文件日志。工作者也记录着每个文件中各个块所有在的数据节点信息,但它不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。

6.4 HDFS文件写入方式

客户端通过调用HDFS类DistributedFileSystem对象调用create()函数来创建文件,在此时文件系统的命名空间中创建了一个新文件,但该文件还没有相应的数据块。管理者(namenode)执行各种不同的检查确保当前创建的文件不存在,并且客户端有创建该文件的权限,如果检查通过则创建新文件记录;否则,文件创建失败并抛出异常。在客户端写入数据时,数据被分成一个个的数据包,并写入内部队列,HDFS的DataStreamer处理数据队列,它的责任是根据工作者(datanode)的队列列表要求管理者(namenode)分配适合的新块来存储数据备份。如下图

7 实现功能

海量数据存储部分主要包含了三部分的功能:数据采集、数据存储与备份、数据分析,如图所示:

7.1 数据采集

海量数据存储采用开放上传接口的方式进行被动数据采集,各业务平台通过向上传接口传递业务平台标识、文件信息标识和文件信息的二进制流的方式将文件打包传送到非结构化数据管理平台,非结构化数据管理平台通过业务平台标识对传输过来的文件进行分类解码存储。

7.2 数据存储与备份

海量数据管理在接收到各业务平台发送过来的文件后,根据业务平台标识在HBASE中生成文件信息数据,同时将文件存储至HBase中。

7.3 数据分析

基于已存储的数据,可以分析各业务平台的数据量,数据高峰的周期,从而适时调整数据存储策略,为不同的业务应用制定不同的存储计划,充分体现系统存储的灵活性,提升海量数据的存储效率。

篇2

大数据的核心价值是如何把数据变成商业价值。

大数据存储,可以认为是存储厂商基于现有大数据应用的特点进行优化的解决方案。

记者不久前去香港出差,刚下飞机就收到招商银行发来的一条短信,内容是告之香港有哪些商场在举办促销活动。不知道这是巧合,还是招商银行利用大数据的新成果,但是可以肯定,利用大数据分析可以为客户提供定制化的服务,实现精准营销。大数据正在改变企业业务模式,也让人们的生活变得更加便利和丰富多彩。

存储必须整合

大数据存储是一类单独的产品吗?赛迪顾问高级分析师陈靓并不这么认为:“把大数据软件与存储进行整合,就称为大数据存储,未免有些牵强。如果非要说出大数据存储的特征,那么我认为它至少应该能让大数据的‘4V’发挥出应有的效果,满足大数据对性能和扩展性的要求。”

“与其说大数据存储是一类产品,不如说它是下一代的存储架构。这种架构可以将传统的DAS、SAN和NAS有效地整合起来,以满足上层计算平台的要求。”Forrester Research首席咨询分析师戴昆表示,“大数据存储本身的性能与传统企业级存储并没有显著差异,它主要依赖于上层计算平台的分布式并行处理能力,但其扩展性一定要强。”

“在中国市场上,大数据应用还没有真正落地,许多用户谈的还是BI(商业智能)。而从国外的实践看,BI只是大数据的一部分,属于大数据的起步阶段,真正的大数据应用是近实时或实时的数据分析。”中桥调研咨询首席分析师王丛告诉记者,“计算、存储、网络等都与大数据的价值有关。大数据存储并不是一类单独的产品,它也可以通过类似公有云或私有云的方式提供给用户。应用和数据量的增加,对数据的存取提出了更高要求。因此,并行存储能力的增强对大数据存储来说非常重要。”

EMC Isilon存储事业部总经理杨兰江表示,大数据存储有很多实现方式,不过它应具备以下特性:海量数据存储能力、全局命名空间、支持标准接口、读写性能优异、易于管理维护、基于开放架构、多级数据冗余、多级存储备份等。

“存储产品并不像网络产品那样有严格的界线,因此很难将大数据存储单独划分出来。其实,大数据存储并不是只有分布式存储这一种方式,传统的存储也可以成为大数据存储解决方案的一部分。”华为存储产品线市场总监经宁解释说,“华为将大数据存储当成相对独立的一类产品,主要是从产品的主定位角度考虑的。华为有针对企业级应用的高端存储,也有针对中小型用户的通用存储,当然还有专门为大数据优化的分布式、可横向扩展的大数据存储。”

目前,业内并没有关于大数据存储产品的通用定义,但是综合考虑厂商的产品以及用户的需求,可以简单概括出大数据存储的特征:首先,大数据存储必须能够支持全类型数据,包括结构化、半结构化和非结构化数据,实现统一数据支持;其次,在保证可靠性的基础之上,大数据存储必须具备线性扩展能力,同时还要具有很强的批处理和实时处理能力;最后,在系统达到一定规模后,大数据存储平台的易用性和可管理性也是不可或缺的。

在大数据处理过程中,用户发现性能的瓶颈并不在计算层面,而在于海量数据的上传和下载。因此,极高的数据加载速率是大数据存储必须具备的特性。大数据解决方案通常包含数据存储、计算及分析,存储是大数据基础架构中的一部分。

凸显高性能、可扩展

对中国用户来说,大数据应用落地的关键是如何更好地让企业的IT决策者和架构师理解业务需求,建立适合企业业务特点的数据应用场景和数据管理架构,更好地利用企业现有的数据资产,而非盲目地进行所谓的大数据投资。“用户首先要考虑的是什么样的大数据应用才能为企业带来合理产出,其次再考虑大数据平台和存储,切勿本末倒置。”戴昆表示。

赛迪顾问的研究发现,中国使用大数据存储比较多的行业是电信、互联网、金融等,其他行业大多还在观望及测试中。中国用户对于大数据存储的需求首先是可靠和稳定,金融行业的用户非常重视这一点;互联网用户则要求大数据存储具有很高的I/O吞吐能力;电信行业的客户更青睐高性价比的大数据存储设备。

中国惠普有限公司企业集团存储产品部存储架构师张楠表示,很多中国用户会追求大容量和高性能,忽略了大数据存储本身应该具有的其他属性,这让用户在实际应用中很容易遇到一些障碍,比如无法将存储与大数据平台进行对接,无法在业务中充分发挥大数据存储的价值等。究其原因,主要障碍在于有些大数据存储产品没有开放的接口协议, 没有针对用户的大数据应用场景进行特别优化, 没有提供用户容易接受的易用管理方式等。

存储的高可扩展性、高可用性和并行处理能力是企业评估大数据存储最重要的三个因素。高可扩展性可以确保企业的IT能够随着数据量的增长和性能需求的提高进行扩展;高可用性能够保证大数据分析过程的平稳和无间断运行;高并行处理能力则能够确保在大数据处理过程中同时进行更多数据的处理,高效地完成数据分析,同时缩短产品或技术的上市周期。低延迟、自动分层存储以及对10GbE网络的支持等也是用户评估大数据存储的重要考核因素。

“如何管理好大数据真的是一个大问题。从IT的角度看,我们还缺乏能够展现数据价值的行之有效的手段。数据作为一种资产,如何被长期、高效、经济地保存也是一个问题。”华为海量存储产品线总经理袁远表示,“大数据提出了一个新的方法论——以数据为中心,而不是以应用为中心。以数据为中心,就要考虑数据的来源,如何以更低的成本存储和管理数据,谁有权利获得哪些数据,对数据进行分析前必须进行模型化的抽象等。大数据需要新的工具、新的管理思路和方法,同时还要对技术架构进行创新。”

欧洲核子研究中心(CERN)创建的OpenLAB旨在通过部署全球领先的IT系统和解决方案,将全球大型强子对撞机(LHC)行业的资源、研究成果汇集在一起。持续快速增长的海量科研数据对CERN的存储系统在可扩展性、可靠性等方面提出了严峻挑战,这也促使CERN开始评估新的存储技术。最终,CERN选择了华为UDS云存储系统,并在三个月内完成了安装调测和基准性能的评估。测试结果显示,UDS创新的软硬件和系统非常适合海量数据存储的业务要求,这让CERN可以在未来轻松应对EB级数据量的挑战。

谈到华为大数据存储解决方案的特色,经宁概括说:“我们能更好地把握大数据的本质需求,并依靠自主研发能力,在IT架构上实现创新,将计算与存储进行有机结合。我们还基于自己的大数据存储平台,提供了多种类型的接口,便于与应用衔接。”从产品研发的角度看,华为将重点放在了软件方面,硬件则采用了开放的标准化的存储服务器架构。在2013年华为云计算大会上,华为与中央电视台正式签署合作协议,在大数据存储领域建立战略合作关系,为媒资行业提供领先的技术和应用模式。双方计划联合开发自适应、深度节能的高密度、大容量的媒资存储系统。

面对大数据的需求,存储永远不变的是对数据可靠性、性能、可扩展性和效率的追求,而有可能发生改变的是为了提高效率、节省消耗,存储可以变得更加灵活,也可以考虑与计算进行融合等。不管存储如何变化,用户对高性价比的需求始终不变。

数据收集和存储是大数据分析的第一个环节。在大数据时代,应用数量、数据量和使用者数量的增长,对存储IOPS以及OLTP和OLAP的要求越来越高,具体表现在现有的存储已不能满足业务关键型应用的需求。中桥调研咨询针对中国用户的调研数据显示,FC SAN仍是企业级用户(42.1%)和中型企业(34.0%)的首选,远高于其他存储类型的占比。这是因为FC SAN对OLTP和OLAP的性能稳定性优于其他存储技术。这一调查结果也显示,目前中国用户大多处于大数据分析的第一阶段,其工作以存储和IT架构的整合和优化为主。王丛分析说,随着Hadoop和MapReduce的不断普及,中国用户将逐步进入近实时和实时分析阶段,节点式存储的占比会随之增加。

打通行业价值链

华为的金字塔型“4V”理论具体来说,第一步,要建立一个高效的存储架构平台,它既能处理大量的小文件,也能处理单体较大的文件。第二步,这个存储平台要具备极高的处理性能。第三步,这个存储平台要能处理多样化的数据,包括结构化和非结构化数据。只有通过前面三步打下的基础,企业用户才能进入最后一步,在一个高效的专门为大数据构建和优化的平台上进行数据分析和挖掘,并最终获得所需的价值。

经宁表示:“如果仔细甄别,大数据与海量数据还是有差别的,毕竟大数据不仅仅是指数据量大,还包括处理、分析和挖掘等过程。从表面上看,大数据的‘4V’特征是并列的关系,但实际上这些因素之间还是有层次性的。我们提出的大数据金字塔模型,可以更好展现大数据价值的实现过程。”

华为倡导构建高效的大数据存储平台,而其中的高效又是如何来衡量的呢?高效的第一个衡量指标就是性能。性能是大数据存储平台的基石之一,没有性能的保证,大数据系统无异于空中楼阁。其次,大数据强调的是简化使用,提高效率。最后,高效的大数据存储平台应该采用融合的技术架构。以华为OceanStor 9000大数据存储系统为例,它采用华为首创的全融合创新架构,可以实现存储、分析和归档的融合,同时具有很强的横向扩展能力,最大可扩展至288节点,单一文件系统可支持40PB容量。分析功能是指OceanStor 9000中内置了分布式数据库,能完成数据的快速检索和查询,以支持上层应用。

华为一直坚持“被集成”的策略,这在大数据领域同样适用。华为的大数据存储平台可以提供开放的接口,方便与BI软件和应用软件连接,进一步提高查询效率。在OceanStor 9000这样的融合平台之上,用户还可以根据业务的情况灵活添加相关的功能模块。“在大数据方面,我们主要从垂直行业切入,与行业ISV紧密合作,为金融、电信运营商、媒体、智慧城市、石油勘探等领域的用户提供端到端的大数据存储解决方案。”经宁说,“虽然我们已在大数据存储市场上取得了丰硕的成果,但是我们更看好大数据存储市场未来的潜力,因为其增长速度远高于传统存储市场。”

篇3

产生这一变革需求的原因除了市场需求因素之外,陆续出现的一些困扰数据存储行业发展的因素也是重要原因。在过去,由于用户对存储应用需求的复杂性和个性化,具备整体解决方案能力的厂商占据了明显的市场优势,打造整体解决方案能力也就成为存储业界竞争的焦点。但在网络信息化的新寻求之下,过去那些具备独特优势的厂商很难在“存储设备+网络服务器+软件+服务支持”的整体解决方案框架下提出整体解决方案。其中,高额的成本是最重要的原因。对于很多具有突出专业优势的企业来讲,通过寻求合作降低成本似乎成为惟一的途径。

中国存储市场很长时期以来是电信、金融行业的重点服务对象,其采购量占据了2/3以上。但自2002年开始,更多的行业涉足存储应用,而且从应用的范围看,不仅仅限于传统的备份和容灾,在广度和深度上有更多延伸,如广电的媒体多级存储,监控的视频图像存储,气象、石油和航天的海量数据存储等。而且,随着各企业单位对业务数据保护意识的加强,中小数据规模的用户,如政府、军队、教育、商业、制造业和中小企业等也开始加大了在存储方面的投入。据CCID预测,从2004年开始,五年内中国存储市场会以10%一20%的年增长率递增。2004~2008年中国外部磁盘存储系统市场销售量将以64,4%的年复合增长率快速增长。到2008年,外部磁盘存储系统销售额及销售量分别达到103.3亿元人民币和82436.4TB,存储软件2007年的销售额将接近25亿元。

虽然市场的细分带来了更多的机会,但同样也使得竞争变得更加激烈。事实上,在数据存储“存储设备+网络服务器+软件+服务支持”这条产业链上,并不都是很容易切人的。

篇4

云存储可以充分利用现有硬件的存储能力,分布计算,提高存储能力,云存储分为公有云存储和私有云存储,对企业客户来说,使用公有云存储最大的顾虑是数据安全,但是私有云存储就能很好的解决这个问题。

实体存储是存储行业的大趋势,主要原因是非结构化数据的飞速增长或传统数据存储的局限性。在选择私有云储存时要考虑云存储的技术实现,选择基于实体存储解决方案的产品。这里以企业云盘为例,介绍企业在文档和数据存储方面的管理。

在技术解决方案上,企业云盘一般分三层,最底层是硬件资源和云管理平台,充分利用公司现有的存储硬件。中间一层是云存储核心部分,实现云存储的数据管理,基于实体存储的设计思路,突破操作系统对文件管理的局限性。商务逻辑为企业用户定制,含企业特有的模块和功能。最上面的一层是应用层,荣之联提供不同终端的软件供用户安装,终端软件和云存储对接,做数据交换。对员工而言,终端软件就是企业云盘。

那站在企业的角度来看,运用企业云盘这种私有云存储能给企业带来怎样的好处了呢?

1.数据更加安全高效:私有云存储是部署在公司的防火墙内,受公司的安全机制管制,还能轻松管理每个员工的读写权限。同时文件分享可以让员工在无VPN的情况下读写文档,公司内部无需安装文件服务器,而且企业云盘拥有去重的功能,对硬件资源的利用更充分,大大减少硬件资源的浪费。还能支持各移动终端进行移动办公,无须担心数据同步问题。

2.文档分享、搜索更快捷:群组概念提供更灵活的分享途径。员工可以创建项目组、兴趣组、部门组、公司组。群组的概念让文件分享更加有针对性。企业文档被集中管理,员工可以在创建的不同层面上做搜索。

3.更优的用户体验:企业云盘和用户的电脑无缝集成。用户无需改变使用习惯就可以充分享受云存储的好处。备份,同步自动在后台进行,优化的算法也充分利用网络带宽。用户也可自设上传下载的速率。同时荣之联创新的分布式部署极大降低对带宽的要求。用户的数据首先是存放到最近的服务器,读写更快捷。

4.审计和版本管理:云盘自带审计和版本管理功能,可以轻松地恢复到以前的版本。

5.API 支持:企业云盘可以部署为云存储。企业内部的应用可以直接调用云存储的API来读写数据。是真正意义上的企业私有实体存储(Object Storage) 。

篇5

现阶段我国常见的XBRI数据存储方式主要包括:文件系统存储、关系数据库存储、原生数据库存储。目前运用最为广泛的XBRL数据存储方式是以关系数据库存储XBRL文档,可以分为CLOB字段存入关系数据库和拆分方式存入关系数据库,其中以拆分方式存入关系数据库最为常见。以拆分方式存入即将XBRL文档分解映射到关系数据库的多张关系型表中。采用该种方式保证了数据的安全性和完整性,且易于数据查询、挖掘和数据的深加工,是目前广泛应用的XBRL数据存储方案。但此种方式也存在弊端:一是难以映射复杂的XBRL实例文档,且其维护极其复杂。二是对于XBRL文档完整性的体现荡然无存。三是这种分解的方式会耗费数据库服务器的大量CPU和内存资源。四是这种方式破坏XBRL文档内部的关联关系,容易造成XBRL数据失真。尽管以关系数据库存储技术进行XBRL数据存储的存储方案,在目前市场上有着坚实的地位和强大的软件支持,然而因信息管理技术不断进步而涌现的诸多问题,将会是关系型数据库所不能承受的生命之重。

二、新一代XBRL数据存储方式――混合数据库存储

在关系型数据库所主宰的坚固世界正在逼近变革的临界点上,根据“螺旋式”上升的法则,混合型数据库孕育而生。本文拟将基于混合数据库,就一个商品销售信息的存储为例,从下述方面来探讨混合数据库存储技术所具备的优质功能特性。(1)逻辑存储。创建同时包含传统SQL数据类型列和新的XBRL数据类型列的表。列表没有制定XML数据的内部结构,原因是XBRL文档是自我描述的,混合型数据库对XBRL数据存储时,只需验证其是否符合XBRL分类标准及规范。这种宽松的方式给用户提供了很强的灵活性,更容易存储包含不同属性和内部结构的XBRL文档集合,从而保证了XBRL数据的完整性与准确性。(2)物理存储。以树和节点作为模型来存储和处理XBRL数据,采用经过解析的格式来反映原始XBRL文档的层次结构,混合型数据库将用模式类型信息对XML层次结构中的所有节点进行标注,从而保证了XBRL数据的内部网状关联以及XBRL数据的层次性、多维度性。(3)索引。采用的是SQL DDL语句创建XBRL索引。该索引方式显著提高了数据库查询和应用程序的性能,减少为返回查询结果集而必须读取的数据量,同时具有标示性,可以确保数据的准确性。(4)查询语言。程序员可以使用SQL或XQuery搜索数据,应用程序可以自由地使用这两种语言的语句,而且一个查询语句可以结合使用SQL和XQuery。此外,混合型数据库有两个查询语言分析器:一个用于XQuery,另一个用于SQL。这两种语言编写的查询都能高效地重写查询操作符以及选择低成本的数据访问计划。

混合数据库的核心价值体现在,能将关系性数据库引擎和XML数据库引擎连接起来,采用“双核”引擎机制,除了支持表数据模型之外,还支持XML文档的层次化数据模型,使用户能够同时管理好两部分的数据内容。同时,使用SQL和XQuery来查询和处理这两种形式的数据,既保留了关系型数据库的优势,又融入了XML对复杂数据管理的层次性、灵活性。因此,可以得出结论,采用混合数据库技术进行XBRL数据存储,是一种最为理想的XBRL数据存储方案,将成为企业XBRL财务信息集成管理体系运用的核心关键技术。

三、企业级XBRL财务信息管理体系架构

篇6

该企业有2个厂区,其间通过光纤直连,厂区间直线距离3km。东厂区机房提供核心网络支撑,运行核心ERP系统和PLM全生命周期管理(设计图纸管理)系统,采用存储阵列提供数据存储,其他业务系统有CAPP等,采用服务器自带的存储空间存储数据;目前,西厂区机房运行视频监控、办公自动化和党建系统等非核心业务系统,现有设备使用时间较久。

1.2需求分析

目前,该企业业务系统管理方式较为简单,需要通过存储备份技术提供整理的数据管理提升数据的可靠性、可用性,实现存储资源的容量增加和性能扩展,同时,通过备份系统实现对现有存储环境数据的备份管理,确保数据的安全和可恢复。具体目标包括以下5点:①满足业务系统增长的数据存储要求;②解决数据无法统一规划、分配、管理和性能调优,且存储性能相对较低的问题;③集中的统一存储系统,可使成本降至最低;④解决数据分散存储问题,这样会增加管理成本;⑤对个人电脑上的重要数据进行集中存储管理。

1.3建设目标

通过整体建设考虑,主要建设目标可分为2步实现:①数据存储建设。建设基于存储备份平台的存储系统,将分散、独立的各个平台业务系统组成一个高速存储的SAN网络,集中管理降低了存储资源管理的复杂性。同时,为个人重要数据提供了集中数据存储业务,避免了因电脑损坏或因其他原因导致的数据丢失。②备份系统建设。通过带有重复数据删除技术的虚拟带库结合备份软件进行备份系统建设,可确保ERP、PLM等核心业务数据的安全、可靠,同时,可长期保存该数据,且数据可恢复。

2存储备份系统的设计方案

2.1数据平台基础的架构设计

根据数据存储备份的需求分析进行数据存储系统的架构设计。从目前业务系统的实际情况和未来业务系统的建设规划看,整个核心业务系统中数据访问模式以数据块访问为主。基于此情况,存储备份系统的基本架构应为SAN架构。

2.1.1SAN架构

存储区域网络(StorageAreaNetwork)是高性能的网络,其主要目的是使存储设备与计算机系统连接并通信。在进行SAN架构设计时,应从以下几方面考虑。

2.1.2性能

作为整个信息基础架构的核心基础架构,SAN架构应能满足多业务、大并发时的性能需求,因此,在设计SAN架构时应考虑具备高性能,同时,能支撑多业务并访问的存储系统。

2.1.3可靠性

可靠性是存储系统的必须具备的条件,应提供“99.999%”的可靠性,所有关键的部件都应是冗余配置。从数据保护的角度看,不同的RAID保护机制应可混合使用,以为不同的业务系统提供相应的数据保护机制。SAN网络系统至少应配置2台光纤交换机,以保证数据访问链路是冗余的。

2.1.4可扩展性

好的信息基础架构必须能提供足够的扩展能力,其中,包括性能的扩展、功能的扩展和规模的扩展等。NAS架构是指网络附加存储(NetworkAttachedStorage),是连接到网络并提供文件访问服务的存储系统。

2.2数据存储方案和逻辑架构

在该企业的业务系统中,考虑建立以SAN+NAS为核心的存储系统。考虑未来可能会有新的业务系统增加到现有环境中,因此,需要构建稳定、灵活的存储体系。系统具体包括以下6部分:①光纤交换机。作为核心链接节点存在,东、西区机房都要求有2台冗余配置。②光纤。实现容灾端的连接,连接备份设备,光纤要求有2条冗余设计。③核心存储阵列。作为集中存储、管理的中心存在,满足数据增长的需要。④其他存储阵列。其性能较差、容量较小,作为二级存储设备存储存在。⑤备份服务器。安装备份软件,配置备份策略。⑥备份设备。支持消重技术,保障数据的长期储存。

2.2.1方案描述

SAN存储空间通过2台FCSAN交换机提供冗余互联。SAN存储空间供原有业务系统数据存储,比如将EPR、PLM系统数据迁移到新购的存储设备上,通过新存储优秀的性能,可提高原有业务系统的性能和存储空间;NAS存储空间主要用于个人PC数据资料的统一集中管理,确保数据不因个人电脑故障而丢失。

2.2.2磁盘规划

在本次配置中,考虑根据需求选用SAS磁盘,配置40块10000转的600GBSAS磁盘提供数据存储能力,这样既能保证关键业务的快速响应,也能确保最优的性价比。

2.3数据备份方案

硬件采用虚拟磁带库设备接入SAN网络作为备份设备。此外,采用备份软件可实现对所有备份主机系统的备份管理。以下针对不同的业务类型展开备份策略设计。

2.3.1数据库类数据备份每周1次全备份,本周内其他时间每天进行1次增量备份,备份数据保留6个月。

2.3.2应用程序类数据备份每月进行1次全备份,备份数据保存3个月。

2.3.3配置文件类数据备份每月进行1次全备份,备份数据保存3个月。

篇7

当前,供电企业个人或部门的数据,例如文本、图片、归档数据、各种格式的文件等等,数据量呈现海量的增长,面临如下问题:

1、个人存储空间不足。供电企业个人PC设备,使用年限一般为5-7年,部分机型较老较旧,配置较低。主要的存储设备为硬盘,空间在多年的存储使用下已出现严重不足,普遍无法适应新增数据存储的需求。

2、数据交互共享难。当前,个人用户之间,部门之间,需要及时共享的数据容量越来越大,通过传统的使用U盘、移动硬盘、FTP来中转拷贝数据的方式,已越来越不适应当前的需要,存在着病毒感染、丢失等安全隐患。

针对以上两种情况,本文通过架设私有云存储服务器的方式来解决数据存储和共享方面的问题,为供电企业数据存储提供新的思路和解决方案。

一、项目实现功能

从应用场景上,我们的方案包括如下主要内容:1、文件存储(为每个用户提供10G以上的存储空间);2、数据同步(通过云存储提供的数据同步功能,实现员工数据的多终端同步);3、桌面数据备份(通过云存储提供的数据备份功能,实现电脑中的数据的自动备份,支持文件级差异化备份机制);4、文档内容(通过云存储提供的数据自动分发功能,可将企业内部公告、通讯录等文档或电子表格快速地分发给指定的员工或部门,或通过外链地址(U RL)嵌入到邮件等);5、文档快速汇总(通过云存储提供的数据自动汇总功能,可以实现快速将员工本地文件自动汇总到云存储的指定位置中);6、群组或部门工作区(可按需要建立群组或部门工作区,用于团队协作,协同办公,并支持文件多版本及文件锁机制,提升多人协同办公的效率)。

二、项目实施方案

2.1系统架构设计图

如图1。

2.2主要功能模块

1、负载均衡模块(LVS):负载均衡模块建立在所有应用结构之上,它提供了一种有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。

2、应用服务模块(APP Server):提供了一套完整的企业数据应用、管理、监控的应用系统。私有云存储作为企业数据应用系统,为企业员工提供个人数据存储、分享服务,保护数据安全;也可以按照企业组织架构组建企业级、部门级、项目级的协同工作服务,提高数据处理效率。此外,灵活的空间管理、集中的账户配置、实时的日志审计方便系统管理者实现全方位的管理和监控。其中包括功能模块如下。

应用服务(Web Service):为整套系统前端应用和web端访问提供支持。

传输服务(TP Service):为用户提供数据传输的支持。

3、文件存储模块(Storage Server):是一套分布式文件存储系统,为应用服务模块提供底层数据存储及管理服务。可以作为标准的存储系统为企业应用系统提供标准的数据存储。

4、数据库模块(DB Server):其中包括功能模块如下。

主数据库:为应用服务模块提供结构化数据服务。

从数据库:为主数据库提供备份服务。

2.3部署方式

在内网服务器上安装私有云存储软件,并配置存储服务器与之互联。保持私有云存储系统的网络连通,在IE中输入默认的管理地址进行管理访问。

篇8

希捷市场营销副总裁Jeff Fochtman表示:“作为希捷7月份的10TB Guardian守护者系列存储解决方案的最新产品,IronWolf Pro为企业提供了更高的可靠性和灵活性,用于其大规模和多用户操作NAS环境的最繁重工作负载。同时,新的IronWolf Pro增加了希捷数据恢复服务,企业可以更加安心地存储数据,充分保证数据安全。”

IronWolf硬盘针对各种NAS业务设计,IronWolf Pro配备优化NAS应用的AgileArray?,帮助企业提升共享和备份文件的性能,改进私有云环境。AgileArray通过双面平衡技术和RV传感器保持硬盘平衡,进一步优化了RAID,提供先进的能耗管理,提升了整体性能。

篇9

中图分类号:TP39文献标识码A文章编号1006-0278(2015)12-151-01

存储即服务的概念不断深入人心,云存储作为云计算概念的发展和延伸得到了快速的发展。云存储是一种全新的存储服务模式,有效地整合了大规模的存储资源并把存储以服务的形式提供给用户。云存储实现了合理的数据存储和高效的数据管理,有效地减轻了用户对数据存储和管理的负担,同时也降低了用户的开销。随着云存储服务和研究的不断深入,政府部门和企业数据外包服务等应用成为云存储应用的重要部分。

随着云存储技术的快速发展,数据安全问题得到了产业界和学术界的广泛关注。绝大部分用户希望在不损害数据原有安全性的前提下使用云存储服务。针对云存储中数据保护需求,研究者开始采用密文访问控制机制来保护数据在存储和共享过程中的安全。然而,在云存储中采用密文访问控制机制会较为明显地增加用户使用开销,降低用户访问云存储的效率。特别是当数据共享规模大、用户属性较少、访问权限变更频繁、数据访问集中时,采用密文访问控制机制会明显增加用户访问云存储的延时。如何有效应对密钥分发复杂、权限撤销开销大、用户资源受限等挑战,降低采用密文访问控制机制的额外开销,是云存储数据安全保护研究中亟待解决的关键问题。

一、密文访问控制的基本应用场景

数据所有者主要负责数据加密和密文分发操作,数据一般采用对称算法加密后托管到云端,然后通过安全信道或其他可靠手段将密钥分发给授权的数据使用者。数据使用者从云存储中取回数据后解密使用,采用不同密文访问控制技术时的解密密钥获取过程不尽相同。云存储服务提供商只需要提供相应的数据存储能力,响应数据读写请求即可。系统管理员负责配置云存储服务,完成密文访问控制机制初始化,管理维护系统用户的身份证书。

二、简单个人用户密文访问控制实现方案

用户将数据加密后存放到云存储中,使用时取回数据并解密。简单个人用户很少需要共享数据,因此可以简化密文访问控制过程,降低用户开销,简单个人用户密文访问控制实现方案的基本流程,如图1所示。

三、总结

本文在深入分析云存储中数据安全防护需求的基础上,综合现有密文访问控制技术和新型密码技术,提出了云存储中密文访问控制模型的数学描述,并分析了影响模型性能的主要因素。然后分别针对简单个人用户、社区个人用户和企业用户,给出了模型的多种不同实现方案。其中,基本密文访问控制方案能够为简单个人用户的数据云端存储和共享过程提供简洁、有效的保护。基于本地的云存储访问效率优化技术。企业用户使用云存储时具有数据量大、共享频繁、访问相对集中等特征,如果简单地采用密文访问控制机制来保护数据存储和共享安全,则会降低云存储的访问效率。基于本地的云存储访问效率优化技术,能够在企业已有计算、存储资源上部署本地,然后通过本地来代替员工完成密文访问控制相关操作、并缓存频繁访问的数据,最终有效地降低采用密文访问控制机制对企业用户的影响。以上研究成果针对云存储数据安全需求,在保证数据安全的前提下提升了密文访问控制机制的效率,促进了密文访问控制技术在云存储数据安全保护中的进一步应用,具有一定的理论意义和实际应用价值。

参考文献:

[1]李家治.云存储中基于属性的密文检索与访问控制[D].华东师范大学,2015.

篇10

9月8日,紫光西部数据有限公司(以下简称紫光西部数据)成立典礼在南京举行,这是中国大数据产业创新发展的又一重要里程碑。秉承“自主创新+国际合作”的发展理念,紫光西部数据致力于为各行业客户提供基于全产业链的大数据服务,成为中国大数据产业战略合伙人,这是为逐步实现紫光集团大战略而设定的一个“小目标”。紫光西部数据从现在开始起步。

构建从“芯”到“云”的大生态

众所周知,紫光集团是中国IT界的一艘新航母。在国家集成电路产业推进战略的引导下,紫光集团以“自主创新+国际合作”双轮驱动,确立了以集成电路产业为主导,向泛IT、移动互联、云计算与云服务等信息产业核心领域集中发展的战略。

从2013年以来,紫光集团通过一系列的战略并购,不断完善自己的战略布局,丰富产品线。紫光集团先后投资超过1500亿元,收购了全球移动通信芯片公司展讯通信和锐迪科,控股H3C和惠普中国企业业务,分别成立紫光展锐和新华三集团。清华系旗下最重要的IT产业平台已具雏形,全面构筑从“芯”到“云”的信息产业生态系统并非妄言。

IDC预测,到2020年,全球的数据总量将达到44ZB。数据规模的持续增加,用户对数据处理的速度,以及系统的可用性、可扩展、灵活性等的要求不断提升,这些都是大数据存储迫切需要解决的问题,也是大数据存储产业面临的新机遇。

毫无疑问,大数据存储业务是紫光集团这艘航母前进的主要动力之一,而紫光集团的战略布局也早为大数据存储业务的快速发展埋下伏笔。2016年7月,紫光集团收购武汉新芯多数股权后,长江存储科技有限责任公司正式成立。紫光集团持有长江存储科技有限公司超过50%的股份。紫光集团董事长赵伟国出任长江存储公司董事长。这是紫光集团的大战略从“芯”开始的一个具体体现。

在今年举行的第二届中国大数据产业峰会暨中国电子商务创新发展峰会上,赵伟国曾表示,从2016年开始,紫光集团计划投资300亿美元用于存储器芯片制造,这大概是中国有史以来最大的存储项目。大数据的发展需要海量存储,而中国以前在这方面是空白,这便是紫光集团选择的发力点。芯片是产生和存储数据的基本单位,也是发展大数据存储的基础。只有在芯片上掌握主动,才能在发展大数据存储时做到有的放矢。

在紫光集团着力打造的从“芯”到“云”的产业链中,“芯”是指芯片,那么“云”当然是指大数据、大互联、大安全和云计算。紫光集团控股的新华三集团在云和大数据方面提供了完整的解决方案,包括服务器、存储、网络设备,以及云操作系统、大数据安全系统等,在除运营商以外的企业网络领域,紫光排名第一,在全球仅次于思科。

在大数据存储的产业链条上,有了武汉新芯的存储芯片,又有了新华三的存储解决方案,这中间是不是还少了一个能够将它们串联和彻底打通的环节?紫光西部数据应运而生。

自主创新也少不了国际合作

紫光西部数据于2016年3月28日注册成立,总部位于南京市秦淮高新技术园区内,市场和销售总部则位于北京。紫光集团旗下紫光股份持股比例为51%,而西部数据持股比例为49%。

紫光西部数据首席执行官缪刚表示,新公司的愿景可以概括为一句话:以数据成就未来,做中国大数据产业战略合伙人。

具体来看,这一愿景又可以细分为以下四个层面:第一,扎根中国,放眼全球,新公司将以中国为起点,凭借全球领先的技术研发、设计生产、市场推广等方面的优势,提供符合中国市场需求的全方位大数据解决方案,并在此基础上,进军全球市场;第二,自主创新,安全可控,通过自主研发,实现自主、安全和可控,在保护数据可靠的基础上,保障多种核心应用的安全、稳定运行;第三,行业优化,扁平融合,针对具体的行业需求,开发符合行业特性的全方位数据服务,通过实现应用层扁平化,实现大数据整体发展;第四,开放合作,携手共赢,全面打造开放创新的平台,携手各界合作伙伴,建立合作共赢的生态体系,合力推动大数据产业的创新发展。

为了实现上述宏伟目标,紫光西部数据需要在坚持自主创新的基础上,以开放的胸怀,采取积极的合作策略,而西部数据无疑是一个理想的合作伙伴。

西部数据是全球领先的数据存储解决方案提供商,在全球硬盘市场的占有率排名第一。与紫光集团类似,西部数据近几年也通过一系列的收购不断完善产品的布局。2012年,西部数据收购昱科环球存储科技咨询有限公司(HGST),目的在于为企业级市场的客户提供高价值的存储解决方案。2016年5月,西部数据又以190亿美元的大手笔完成了对闪迪(SanDisk)公司的收购,快速转型,成了闪存市场的佼佼者。

美国西部数据公司全球高级副总裁、数据中心系统事业部总经理唐戴夫表示:“我们之所以选择紫光集团作为合作对象,一方面是因为紫光集团具有本地研发、设计、生产、营销的能力,可以提供针对本土用户需求的定制化的解决方案;另一方面,紫光集团拥有宽泛的产品线和业务,紫光旗下的新华三、紫光互联等,都可以成为西部数据的合作伙伴,形成解决方案和业务上的互补。西部数据与紫光集团的全方位合作,让我们感觉未来在技术和业务的创新大有可为。”

缪刚进一步介绍说:“合资公司将在核心存储技术、企业级存储解决方案,以及大数据全产业链服务等领域形成关键战略合作,推动紫光集团从‘芯’到‘云’的信息产业生态系统的构建,同时帮助西部数据实现业务拓展,为智慧城市、金融服务、媒体娱乐、天文气象、电信、基因科学、医疗卫生、新兴互联网等各行业客户提供符合其需求的数据存储和数据服务解决方案。”

打造系统级的存储产品

紫光西部数据为何落户南京?首先,紫光西部数据在南京现有一支70多人的研发团队,未来还要进一步扩张,这也是让紫光西部数据引以为豪的实现自主可控的基本保证。其次,紫光西部数据接下来要与南京当地的政府、企事业单位加强合作,紫光西部数据与南京市有关部门联合成立的大数据研发中心正在酝酿之中。

正如缪刚所说,紫光西部数据要首先扎根中国,为中国用户提供满足其需求的定制化的大数据存储解决方案。紫光西部数据9月8日举行成立庆典之后将全面展开营销活动,而最先推出的产品就是西部数据特有的动态归档(Active Archive)系统。这一动态归档系统是一个独立自主的对象存储系统,可以方便地扩展存储容量,最高可达数PB,且具有更高的可靠性和更好的成本效益,能够同时满足传统应用需求和新型应用需求。

时至今日,西部数据已经不再是那个拥有单一硬盘产品的厂商,其产品线涵盖存储介质、存储平台、系统软件和系统构件,其中存储系统成了最主要的抓手,动态归档系统就是代表,而这正是紫光集团与西部数据合作最重要的一类产品。