档案之窗

扫一扫关注

当前位置: 首页 » 资讯 » 经验交流 » 正文

海量数据离线存储相关实施标准探讨

放大字体  缩小字体 发布日期:2018-11-23 22:40:25    来源:网络    浏览次数:229    评论:0
导读

随着信息技术的不断普及应用和电子数据资源在社会各个领域的不断积累,各个档案馆、文化馆、图书馆、美术馆、展览馆及行业数据中心均存在海量数据资源且逐年迅速增长,我们迎来了海量数据时代。在海量数据时代,如果过分依赖单一数据源,而不对其进行有效的备份和多介质存储,带来的隐患也将是无法预料的。目前社会上已经开始广泛的使用、研发离线存储产品,将大量的档案数据、图书数据、音像文件、图片文件、电子文件等多种数据格

 

    随着信息技术的不断普及应用和电子数据资源在社会各个领域的不断积累,各个档案馆、文化馆、图书馆、美术馆、展览馆及行业数据中心均存在海量数据资源且逐年迅速增长,我们迎来了海量数据时代。

在海量数据时代,如果过分依赖单一数据源,而不对其进行有效的备份和多介质存储,带来的隐患也将是无法预料的。

目前社会上已经开始广泛的使用、研发离线存储产品,将大量的档案数据、图书数据、音像文件、图片文件、电子文件等多种数据格式,以光盘、磁带、硬盘的多种介质形式进行长期的离线存储。但是在应用的过程中缺乏统一标准,仅单一的强调了异地、异质的安全备份。但对于如何进行安全的,无隐患的异地异质备份,什么样的设备,什么样的方式,应该有多少的冗余空间等等一系列的问题却并没有一套切实可行的技术标准进行衡量。

1.离线存储及其介质
1.1 离线存储
离线存储(OffStore)主要是目前来讲主要使用光盘或磁带存储。大多数情况下主要用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。

离线存储在目前的应用中主要作为在线存储的安全备份和应急备份。为在线存储的灾后数据恢复等提供保障数据。

目前,随着社会的发展,图书馆、档案馆、科技馆、博物馆、文化馆、美术馆等大型场馆,特别是军队、政府机构和商业机构也十分需要如公安、民政、国土、银行、保险、医院等各类海量数据存储机构。对于离线存储均具有使用需求,离线存储对于长期不利用的数据具有在线或近线没有的管理优势,节能优势。

1.2 离线存储介质
当今社会离线存储的主要介质包括:磁带、光盘、硬盘三种。其中

1.2.1磁带 磁带主要以防磁柜进行存储,使用磁带机进行读取。磁带属于传统的离线存储介质,广泛地应用于数据的离线备份存储。具有存储量大,保存时间较长。但缺点明显。当需要读取数据时,需要把带子卷到头,再进行定位。对于保存环境相对光盘、硬盘更加困难,需要保障存储的温湿度及考虑周围磁场的严格保存环境条件。

磁带的读取需要配合磁带机使用,不能支持单盘单独离线查询和单盘管理。设备厂商和磁带规格经常发生变化。

从灾备角度看数据的可逆性和可恢复性不如硬盘。

1.2.2光盘 光盘目前存储一般存放于光盘柜或防磁柜内。需要时进行逐个查询后,再另行读取。光盘目前的离线存储利用方式分为光盘塔、光盘库两种。

(1) 光盘塔(CD-ROM Tower)。光盘塔是由多个SCSI接口的CD-ROM驱动器串联而成的,光盘预先放置在CD-ROM驱动器中,事实上相当于多个CD-ROM驱动器的“堆砌”。光盘塔一次可共享的CD-ROM光盘的数量与其所拥有的CD-ROM驱动器数量相等。用户访问光盘塔时直接访问CD-ROM驱动器中的光盘,访问速度较之光盘库稍快。

(2) 光盘库(CD-ROM Jukebox)。光盘库的设计思路是由投币式点唱机而来。它是一种带有自动换盘机构(机械手)的光盘网络共享设备。光盘库一般配置有1至12台CD-ROM驱动器,可容纳50至600片CD-ROM光盘。用户访问光盘库时,自动换盘机构首先将已放在CD-ROM中的光盘取出并放置到盘架上的指定位置,然后再从盘架中取出用户所需的CD-ROM光盘,并将此光盘送入CD-ROM驱动器中。由于自动换盘机构的换盘时间通常在秒量级,因此光盘库的访问速度较慢。

1.2.3硬盘 硬盘存储以磁盘为存储介质的存储器。它是利用磁记录技术在涂有磁记录介质的旋转圆盘上进行数据存储的辅助存储器。具有存储容量大、数据传输率高、存储数据可长期保存等特点。硬盘是近几年才在离线存储上应用的介质,之前受制于硬盘的价格居高不下及单片容量较小的限制,一直未在离线存储中进行使用,但随着硬盘价格的走低,容量的增加,硬盘成为了最经济,最稳定。读取最方便的存储介质。同时,硬盘在离线存储的发展中可以利用虚拟技术进行光盘数据以及磁带数据存储的便捷性也是光盘和磁带无法比拟的。硬盘在未来的离线存储发展中,必然占据重要的位置。

1.3 现有离线存储介质在未来的发展
1.3.1磁带 磁带在未来的发展主要将以带库的形式进行保管,即磁带+存储设备为一体的进行管理,利用。但是相对磁带的容量比和性价比来说,磁带+带库在未来的发展正在逐步为硬盘盘阵系统中的虚拟带库所替代。

目前,更多的企事业单位开始选择使用硬盘盘阵系统中的虚拟带库来进行资料的备份,用以降低风险,提高效率。并解决数据对应管理和备份的问题,但是都是近线管理,不是存放在库房方式的离线管理方式 

 

 

左图:Oracle 2012年推出StorageTek SL150磁带库    

右图:EMC2012年推出大型机虚拟磁带库——DLm8000屏幕截图

 

1.3.2光盘 随着近些年蓝光光盘的普及使用,目前市场上已逐步退出蓝光光盘库,相对的单盘容量较小,单盘50GB-100GB,按3.5寸硬盘体积计算,单位体积光盘存储量约为500GB,而3.5寸硬盘目前可达到3TB乃至更高。相对硬盘存储,光盘存储具有不可修改及较高的抗震、抗冲击性,保管期限较长等优点。但重复读写次数较少,速度较低。

1.3.3硬盘 随着硬盘的性价比逐年的上升,硬盘在离线存储领域的应用开始逐渐广泛,虚拟带库及光盘镜像的制作,使硬盘在原有的大容量基础上具有了磁带和光盘的不可读写的优点。但同时硬盘的缺点也相对明显,硬盘的抗震,抗冲击性在离线存储的应用中为最需解决的问题。

2 离线存储技术探讨
2.1离线存储数据保存期限
根据现有的光盘、磁带、硬盘的一般使用寿命进行规定,要求存储设备能够至少保障三年以上的有效数据管理。同时为了应对因设备产生坏损等意外情况,所有销售,制造离线存储设备的厂商需要至少提供两套突发情况的应急预案,为保障应急预案的有效性,需使用常用设备完成,要求简单,快速,方便。

2.2离线存储数据的可读取稳定性保障
目前市面具有多套系统及各类常用文件及部分软件商的自主文件,存储数据供应商应按市场的需求尽可能的实现文件的读取。保障数据能够进行有效调阅和检测。

2.3离线存储数据的导入制度建立
离线存储数据需要不仅仅是简单的直接存储,而是需要进行导入的。为了明确导入数据的信息及导入后的物理位置,需要明确的记录导入数据的元数据,方便目录体系的建设和查询。

2.4离线存储数据的目录体系建设
目录体系的建设是对数据利用调用的基础,在离线存储中更关涉到离线存储数据的物理位置存储。针对海量的离线数据进行目录的建立,一级目录并不能完善的满足需求,故根据现有档案的存放标准,推荐使用三级目录。快速的记录档案的元数据信息,方便进行后期的目录检索和数据调用。针对有需要的数据,可以增加存储数据的信息概述或主要内容引用。而离线存储与在线存储不同的是,离线存储目录在标明存储位置的同时,需要详细标注物理存放位置。

同时为了保障目录的安全性和方便可读性,规定所有目录需建立纸质目录及电子目录各两份。

2.5离线存储数据目录快速检索
离线存储作为大容量备份存储,目录数据量同样较为庞大,光盘、磁带受介质本身读写速度的影像,无法进行及时有效的快速检索。故,目录的快速检索可独立于离线数据单独进行存储,实现快速目录检索。快速目录检索要求在输入关键词正确的情况下,5分钟内显示正确的检索结果,包括数据的存储位置及物理位置。

2.6离线存储数据异地异质存储探索
在过去的各类存储规定中,常见有异地异质备份要求,但是缺少详细的异地异质备份规定,离线存储作为备份数据,具有特殊性,必须明确异地异质的存储方式及距离,特单独列出<离线存储数据异地异质存储规定>,详细的明确如何进行离线数据存储的异地异质备份。

2.7离线存储数据的定期质检
离线存储数据作为备份数据,必须保障数据的安全性和稳定性,但同时作为备份数据,离线存储数据被调用次数较少,出现错误或丢失等状况不易发现。为了确保离线存储数据的长期、有效、安全存储,需要执行规范的定期质检。

2.8远程的离线存储数据调阅管理
离线存储数据相对在线数据,调阅需求较少,但并非没有。除管理人员需要进行调阅外,外部调阅同样存在。为规范远程离线存储调阅,需要制定<离线存储数据远程调阅规范>

3 离线存储质量标准
3.1  离线存储数据保存期限要求
离线数据存储设备要求至少能进行3年以上有效保管,并至少提供两套设备坏损后的替换方案,以保障数据的长期的可读取性。为预防出现因生产商供应停止等情况产生,替换方案需使用常用设备完成,要求简单,快速,方便。设备坏损后,至多两个工作日后,即可保障离线数据的正常读取。

3.2 离线存储数据可读取便捷性标准
为方便快速读取、调阅数据,要求存储设备可兼容80%以上存储内容的读取,要求存储设备能够对离线存储数据进行智能定位并完成调阅。定位包括存储位置和物理位置。针对虚拟光驱,虚拟带库等存储方式,能够即时执行单盘调阅操作,进行数据的调阅。要求以硬盘为直接存储介质的定位时间不得大于10min,光盘为介质的存储设备定位时间不得大于20min,磁带为存储介质的要求能够进行精确定位。

3.3 离线存储数据导入制度
对于离线存储数据建立快速导入机制,离线存储设备需标明单位时间吞吐量。导入过程中对导入数据内容需进行详细记录。同时需记录导入数据的元数据,包括但不限于单位、姓名、导入时间、保管期限、密级等。以光盘、磁带为介质的可直接进行保存,以硬盘位介质的导入,需按镜像或虚拟带库方式进行存储,保障数据的不可更改性。导入完成后需进行不可擦写标注,分别于光盘封面、磁带盒或硬盘上标注与元数据对应的编号,对于有柜体、箱体等存储单位的离线存储设备,需要在存放部分进行明显编号标记。

3.4离线存储数据目录数据标准
根据导入制度,详细记录元数据后,建立电子及纸质目录,要求目录至少保有两份。目录原则上使用三级目录进行建立,目录需标明数据编号及主要内容,方便后期进行查询。必要情况下,电子目录建立需复制盘内/磁带内详细目录,建立主要内容摘要。目录需要详细标明数据存储位置及物理位置。

3.5离线存储数据目录检索要求
针对离线存储管理需建立检索目录,以保障快速对数据位置定位。在输入关键词正确的情况下,要求5分钟内可列出全部检索结果。在数据存储设备不支持快速检索情况下,目录检索可独立于离线数据单独进行存储,方便进行快速检索。

3.6离线存储数据异地异质存储规定
离线存储作为备份应用,要求离线存储数据进行异地异质备份,一般地区本地至少有两种或两种以上介质进行数据保存,1500公里以外进行至少一份异地备份。自然灾害高发地区,需在1500公里以外不同地区进行至少两套备份数据。当备份数据发生损坏后,需要即刻补充。

3.7离线存储数据定期质检标准
要求对离线存储数据进行定期巡检,本地数据以半年为周期,进行全面检测,确认数据可读性、安全性。异地备份数据以一年为周期,进行抽样检测,抽样率要求不低于30%。

本地存储数据检测出现读取错误等情况,即时使用异质备份数据进行修复,修复完成后依旧存在错误地使用异地备份数据进行修复。本地存储数据检测错误率达到0.5%的情况下,需要全面审查存储环境,确定非环境原因的情况下,需要根据财政情况考虑更换存储设备或存储介质。本地存储数据检测错误率达1%的情况下,并确定非环境原因的情况下必须对存储设备或存储介质进行更换。

异地存储抽样检测不合格率达小于等于0.1%的情况下,直接对错误数据进行修复。不合格率大于0.1%小于等于0.3%的情况进行全部数据检测,并修复。不合格率大于0.3%小于等于0.7%的情况进行全部数据检测,并修复。全面审查存储环境,确定非环境原因的情况下,需要根据财政情况考虑更换存储设备或存储介质。抽样检测错误率达大于0.7%的情况下,并确定非环境原因的情况下必须对存储设备或存储介质进行更换,更换后次年依旧出现同类情况需要更换存储地点。

3.8离线存储数据远程调阅规范
离线存储远程调阅仅供无密级数据的调阅。调阅人提出调阅申请后,经审批同意,由专人使用专用设备拷贝到可联网设备上后,进行临时网络连接。通过三级或三级以上认证后供申请人调阅,调阅数据为只读数据,调阅完成后即刻断开网络,并删除被调阅数据。

操作人员进行远程操作需要使用专用网络及专用设备,操作需进行全程监控及多级验证。对离线存储数据进行操作的设备禁止设有USB接口、光驱、软驱等可移动存储接口。操作人员执行远程调阅同样禁止进行写入、修改、拷贝操作。

远程调阅禁止写入、修改、拷贝操作由设备智能完成。

 

 

4离线存储设备
4.1 离线存储的安全需求
在目前应用的离线存储设备保留了大量的涉密数据,但是大部分工作人员仅注意保障了纸质档案、文件等的保密柜、保险柜放置,却忽略了相对而言电子数据的单位体积存储数据更加庞大。没有一套安全的存储设备是相当危险的。标准的建立首先需要考虑的即为离线存储设备的安全标准。

4.2    离线存储设备的存储容量规范
需要明确离线存储设备应该能够进行多少容量的存储,离线存储设备作为大数据时代的备份存储方案,容量是离线存储的根本,不能够满足容量需求的离线存储设备,对于日常的应用和紧急数据恢复等都会造成不良影响。

4.3    多个存储单元的联合调用
存储设备的联合调用目前在在线存储中已经取得了广泛的认可,离线存储如何规范化的进行联合调用,联合调用对速率或其他有何种影响同样需要在标准中进行规范。

4.4    离线存储设备的供电条件
离线存储设备在供电方面与传统的机房设备不同,目前在市场的应用当中有大量的离线存储设备均直接安放于档案库房内,为了保护档案的安全,根据国家规定,档案库房内禁止强电进入,所以对于离线存储设备的供电,也应尽量的满足使用需求,针对在档案库房的设备进行专门的供电设计,使用低压供电,做到安全、环保、节能。

4.5离线存储设备的智能化运行
作为海量数据存储设备,离线存储设备的内部环境需要进行智能化监控,而不仅仅是依赖于人。离线存储设备在环境方面的智能化运行将成为离线存储设备的必要组成部分,而不仅仅是依赖人工来完成大量的操作,且大部分对离线存储设备进行应用的单位也无力支撑对于设备内部数据的24小时人工监控,对于柜体内部数据的人工监控也是对于数据安全的重大考验。综上,离线存储设备必须执行一套详细的有序的内部智能化环境监控。

4.6离线存储设备的抗灾能力
离线存储数据作为备份数据,需要具有一定的抗灾能力,以适应自然灾害后的快速数据恢复。同时以异地备份的数据作为本地数据备份的补充,形成在线——本地备份数据——异地备份数据的三级数据制度有效保障数据的完整。

4.7线存储设备的防磁能力
磁带、磁盘作为磁性设备需要进行有效的防磁保护,以避免数据因外部磁性影像而产生损失。

4.8离线存储设备的后期服务稳定保障
存储设备后期服务稳定保障主要针对的是磁带机及磁带。参照目前市场的磁带形式,磁带机生产厂商的快速更迭,造成了大量的老旧磁带无法进行读取的窘迫局面。为了预防相似情况在未来的发生,对于后期服务的稳定保障,特列出标准内容。

5.1 离线存储设备安全标准
5.1.1 离线数据存储设备安全标准(密级:公开)  对于全部存储数据密级均为公开的存储设备,要求必须设有机械锁,至少设置密码锁、磁卡锁中一种或两种,可设置应急钥匙孔,采用机械锁+密码锁(磁卡锁)或应急钥匙方式进行开柜。柜体要求采用不低于1.2mm钢板进行压制。柜体具有振动感应报警系统及密码错误报警系统,发生剧烈振动或三次密码错误的情况下,发出蜂鸣报警。
5.1.2离线数据存储设备安全标准(密级:机密) 对于全部存储数据密级均为机密及机密以下的存储设备,要求必须设有机械锁,至少设置密码锁、磁卡锁中一种或两种,可设置应急钥匙孔,采用机械锁+密码锁或应急钥匙方式进行开柜。柜体要求采用不低于6mm钢板进行压制。柜体具有振动感应报警系统及密码错误报警系统,发生剧烈振动或三次密码错误的情况下,发出蜂鸣报警。柜体采用全密封设计,门内需采用防撬设计。
5.1.3离线数据存储设备安全标准(密级:秘密) 对于全部存储数据密级均为秘密及秘密以下的存储设备,要求必须设有机械锁,密码锁,必须安装指纹锁,可设置应急钥匙孔,采用机械锁+密码锁或应急钥匙+指纹锁方式进行开柜。柜体要求采用双层钢板进行压制外钢板厚度大于等于6mm。双层钢板内使用石棉或发泡水泥进行填充,并增加防钻钢板。柜体具有振动感应报警系统及密码错误报警系统,发生剧烈振动、三次密码错误、两次指纹错误的情况下,发送远程报警信号。柜体采用全密封设计,门内需采用防撬设计。
5.1.4离线数据存储设备安全标准(密级:绝密)对于含密级为绝密数据的存储设备,要求必须设有机械锁,全键盘密码锁及指纹锁,指纹锁设置双重/多重密码,需要双人或多人共同使用指纹方可开启,不设置应急钥匙孔,采用机械锁+密码锁+指纹锁方式进行开柜。柜体要求采用双层钢板进行压制外钢板厚度大于等于8mm,内钢板大于等于6mm,门板厚度外钢板不低于12mm。双层钢板内使用石棉或发泡水泥进行填充,并增加防钻钢板。柜体具有振动感应报警系统及密码错误报警系统,发生剧烈振动、三次密码错误、两次指纹错误的情况下,发送远程报警信号,包括但不限于短信,电话。柜体采用全密封设计,门内需采用防撬设计。
5.2离线存储设备的存储容量规范
离线存储设备容量按需求分为6类:

A:最大存储容量小于40TB为微型离线存储设备,适用于家庭用户、小型企业、小型科研中心及绝密数据的单独存储;

B:最大存储容量大于等于40TB,小于80TB为小型离线存储设备,适用于小型企业及区,县级政府部门(不含档案馆、图书馆等场馆类单位),中小型科研中心等;

C:最大存储容量大于等于80TB,小于160TB为中型离线存储设备,适用于中小型企业数据中心及市县级政府部门,大中型科研中心,中小型档案馆、图书馆等;

D:最大存储容量大于等于160TB,小于320TB为大型离线存储设备,适用于省市级政府部门,大中型企业,中型档案馆、图书馆,大型科研中心等;

E:最大存储容量大于等于320TB,小于1PB为超大型离线存储设备,适用于小型数据中心,部委级政府部门,大型企业,大型档案馆、图书馆,跨国企业等;

F:最大存储容量大于等于1PB,为巨型离线存储设备,适用于国家级档案馆、图书馆,大型数据中心等。

5.3离线存储设备多设备联控规范

存储设备是否能够进行多设备联控需明确在设备外及外包装进行标注。联控数量、联控方式及联控后造成影响需在说明书内明确说明。联控设备必须能够在一个操作终端针对所有联控设备能够进行有效操作。


5.4离线存储设备供电电压规范

适用于档案库房的存储设备能够使用低压进行供电,包括24V供电及36V供电。针对高压工作区域的能够使用380V电压进行供电。针对办公环境使用的设备需要保障使用220V电压进行供电。对于多区域通用设备可设计多种型号,分别针对不同工作区域。

技术保障的前提下,可以设计生产适用于多模供电的设备,但禁止使用全智能化电压判断。

可进行多模供电设备要求进行手动调节输入电压值后,与电源连接。设备内需要进行二次判断,当判断值与手动输入值不一致后,不能进行设备启动。


5.5离线存储设备断电工作规定

要求离线存储设备在断电期间至少保障72小时工作时间,有效保障存储设备的连续运行及数据安全。要求具有室外操作功能的存储设备能够进行多模供电,包括但不限于太阳能,车载蓄电池等。

5.6离线存储设备智能化内部环境保障

离线存储设备要求具备有内部环境监测及调节系统,能够对设备内的温湿度进行一定范围的自主调节,保障存储介质的安全运行。

离线存储设备要求具有IP55以上的防尘防水等级。

当离线存储设备内环境超过警戒值时具有明确的智能报警措施。

离线存储设备要求具有振动感应系统,能够在感应外部振动后进行自动断电,切断存储介质供电,避免因振动状态工作造成存储设备损坏。发生持续强震,进行智能报警。

5.7离线存储设备抗震能力规定

所有存储设备,在投入使用前均需经振动试验检测,确定并于柜体标注详细参数,明确抗振动能力。对抗震能力较低的产品,使用及搬运过程需注意安全防范。

5.8离线存储设备防磁能力规定

以磁带、硬盘为存储介质的存储设备,需要具备防磁能力,当外界磁场为400MT时,柜内磁场不大于5MT。

5.9离线存储设备远程读取规定

离线存储设备具有远程读取功能的需要标注连接方式及验证方式,远程操作仅供读取操作,不可进行数据写入及修改。


5.10离线存储设备可维护性规定

离线存储设备需要具有较强的可维护性,存储设备内的存储介质能够进行快速插拔、更换。随时可对发生故障的存储介质进行更换,保障数据安全。同时要求离线存储设备内的配件能够进行快速维护,保障离线存储设备的稳定性。

5.11离线存储设备周期性厂商考察机制

对离线存储设备的选用,尽量选择市场同类替代产品讲多的设备,以避免因厂商变化造成数据无法读取等情况。当选择市场替代产品较少的产品时,需定期进行厂商的考察,当厂商出现经营不善或转型时,需及时更换存储介质或设备。

6结论

  时代在前进,数据在膨胀。信息安全问题越来越成为现代信息社会的关注焦点,信息安全隐患日益突出,来自网络的隐患如:黑客攻击、病毒;来自软件的隐患如:安全漏洞、操作系统缺陷、数据库缺陷;来自管理的隐患如:管理体系不健全、安全防范意识薄弱等等,无时不刻在提醒我们:离线数据海量存储的安全、有效,存储设备的安全运行需要有标准提供强有力的保障。
 
 

 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/news/201811/1896.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1