本页内容
简介文档用途这份指南面向那些在其数据中心或其它类型的企业计算环境当中业已部署或正在考虑部署Microsoft技术的组织机构提供了有关存储管理服务管理职能(SMF)的详细信息。这是 Microsoft Operation Framework (MOF) 定义和说明的 20 余个 SMF 中的一个。该指南假设读者熟悉 MOF 的含义、背景和基本概念,以及所涉及的 Microsoft 技术。 “服务管理职能介绍”指南简要介绍了 MOF 及其配套技术——Microsoft Solution Framework (MSF)。 此概述性指南还提供了 MOF 所定义的每种服务管理职能的摘要信息。以下链接处的技术文章提供了有关各个框架的概念和原理的详细信息:http://www.microsoft.com/solutions/msm/. 摘要存储管理主要解决以数据恢复和历史信息归档为目的的联机与脱机数据存储。存储管理团队必须确保备份和存档的物理安全。存储管理的目标是在生产IT环境中定义、跟踪并维护数据和数据资源。 存储管理主要关注存储介质方面的操作与维护工作。 进程与活动存储管理概述存储管理操作流程是整个系统管理流程中的关键组件之一。存储管理主要关注于存储管理方面的运行和维护工作。该流程用以对生产IT环境中的数据和数据资源进行定义、跟踪及维护。 数据与数据资源的定义涉及以下任务:
数据与数据资源的跟踪涉及以下任务:
数据与数据资源的维护涉及以下任务:
存储管理操作流程由以下两个主要关注领域组成:数据备份与恢复操作;以及存储资源管理。每个领域包含不同的活动与任务,本文对其进行了详细的描述。 数据备份、还原和恢复操作数据的存储、还原与恢复是围绕最为重要的业务资产——企业数据——所开展的关键存储管理操作活动。 根据实际业务需求,这些活动将负责确保数据得到正确存储,并可用于执行还原和恢复操作。 数据应当按照类型进行分类,同时,应制订必要的策略以确保通过执行备份、还原及恢复操作的方式来满足业务需求和服务等级目标。有关详细信息,请参阅本文的“数据分类”和“规划备份策略”章节。 注意:数据的备份、还原及恢复操作同样适用于灾难恢复,但其范围仅限于还原数据。如需了解更多相关信息,请参阅本文的“灾难恢复注意事项”章节。这份文档并不关注在灾难情况下对所有基础架构组件(例如服务器、网络等)进行恢复的整体“业务恢复”操作。如需了解有关完整业务恢复操作的详细信息,请参考临时性计划和服务连贯性管理指南。 存储资源管理存储资源管理是一项关键存储管理活动,它主要关注于确保诸如磁盘之类的重要存储介质通过正确的文件系统进行格式化和安装,以及(诸如磁带、CD之类的)移动存储介质按照业务要求进行组织(例如通过库的方式组织)、使用、循环及淘汰。如需了解更多相关信息,请参考本文的“磁盘管理”、“文件系统管理”和“磁带管理”章节。 此外,存储资源管理还包括通过管理技术来监控存储资源,从而确保其满足可用性、容量及性能需求。如需获取更多相关信息,请参考本文的“制订存储监控与管理计划并对存储活动进行监控”章节。 现有数据中心内的后续日常存储管理活动包括:数据备份、还原与恢复操作;存储资源管理活动;以及本文中所描述的其它活动。 目的与目标存储管理的目的和目标是凭借可用技术资源确保通过适当的存储设备来满足SLA所规定的业务需求。这种目标要求能够及时确定故障,理解未来业务需求可能对存储所产生的影响,并通过最为高效、便捷的方式来确保存储管理功能的实现。 内容范围存储管理关注于设计、实施并运行能够满足组织机构业务需求的适当存储解决方案:
主要进程存储管理由以下两个主要流程以及一系列子流程构成:
![]() 图 1:存储管理流程与活动 数据备份、还原和恢复操作数据的存储、还原与恢复是企业数据维护过程中的一项关键存储管理活动。数据应当按照类型进行分类,同时,应制订必要的策略来确保相关操作满足业务需求与服务级别目标有关详细信息,请参阅本文的“数据分类”和“规划备份策略”章节。 存储管理同时还与灾难恢复计划有关。本文覆盖了数据恢复技术领域,但并未涉及面向其它基础架构组件(包括服务器和网络)的整体业务恢复。如需获取更多相关信息,请参考本文的“灾难恢复注意事项”章节。如需了解完整的业务恢复操作细节,请参考服务连贯性管理指南。 规划备份策略数据的备份、还原与恢复操作是TI组织机构所需完成的最为重要的任务之一。企业无法承担长时间无法访问数据的风险;因此,组织机构应当制订并遵循称为备份策略的详细计划。由于组织机构内部不同业务单位之间在人员素质与技术方向上存在差异,因此,很难制订一套包罗万象且放之四海皆可行的备份策略。更合理的方式是根据应用使用情况,为不同的业务单位或用户团队制订各自的策略。 这部分所描述的处理步骤均是可重复的。当新增客户的服务级别协议(SLA)对数据备份、还原与恢复需求产生影响,或者企业需要对前面所提到的问题进行调整时,每个步骤均可通过变化方式执行。 注意:以下所描述的备份策略中最后一步设计选定存储解决方案的实施与测试。如需了解有关在生产IT环境中测试和发布最新技术的更多详细信息,请参阅MOF发布管理指南。 在制订备份策略的过程中,理解以下概念非常重要。
数据分类在制订合理的备份策略之前,所需执行的第一步操作便是在IT环境中对不同类型的数据进行分类。例如,大多数组织机构认为个人数据与业务无关,并不备份“用户数据”。因此,“用户数据”属于一种被排除在定期备份范围之外的数据类型,其存储责任由用户自行承担。 另一方面,“企业业务数据”属于对于企业来说非常重要的数据并且需要定期进行备份。在“企业业务数据”类别当中,存在不同级别的企业数据,例如企业保密数据、“企业资源数据”、“项目数据”等。 一种合理的方式是根据业务影响对数据进行分类。例如,某些数据要求企业必须确保其可用性,或者属于制造型企业的必备资源列表。这种类型的数据对业务具有高度影响,并应适当进行分类。有些情况下,某些数据无需始终保持在线状态,但必须在需要情况下保证可用——例如医药企业在执行药品研究时所生成的测试数据。这类数据同样具有“高度业务影响”,因此,产品所包含的瑕疵可能会对企业造成风险,而企业无法生成过去几年的测试数据。 定义备份需求当按照不同数据类型进行分类时,针对每种数据类型的需求与规范必须加以定义。 注意:这里所讨论的许多旨在确定生产备份策略的特定需求应当作为制订SLA的成果由IT部门提供,并且IT人员在查找这些需求时不应花费过多的时间和精力。服务级别管理者和客户通过客户管理进行联络以确保客户业务需求通过IT服务得到满意的解决。这些需求应当包括需要稍后进行协商并最终由IT部门提交的备份、还原与恢复需求。本章对这些需求进行了逐一讨论,以确保备份策略的制订过程中不遗漏任何内容。 确定数据存储量 针对每种不同数据类型确定其数据存储量。您所处理的数据是千兆级还是兆级将对产生影响。理解这一点有助于确定执行备份操作所需的设备类型、所需介质、是否拥有充足的备份时间以及是否必须考虑在线存储方式等。 确定数据存储位置 现在已经确定运行环境中的数据类型以及每种数据类型的存储需求,接下来需要确定数据存储位置。这一信息对于确定实现备份策略所需的技术非常重要。例如,在服务器位于不同国家——或星球——的地理分散环境当中,集中备份解决方案可能导致备份数据将网络冲垮。这种方式会对业务产生潜在的严重影响。在这种情况下,可能需要考虑本地备份解决方案,并通过自动方式降低成本。 许多企业发现大量宝贵的企业商务数据存储在移动办公人员的计算机上。由于对桌面计算机统一进行备份在成本上不可行,因此,对于IT人员来说,这将是一种非常棘手的情况。当越来越多的客户端个人计算机被笔记本电脑所取代时,这种情况将变得更加复杂。一种推荐的最佳实现方式是指导所有个人计算机用户在定期进行备份的指定服务器上存储企业商务数据。 注意: 值得庆幸的是,随着技术可用性的不断提高,无论身处何地,用户数据与设置均可随时“伴随”在使用者身边。对于许多IT组织机构来说,利用此类功能已成为一项具有很高优先级的工作。 确定计划数据增长 制订备份策略所需的另一条关键信息是按类型估计数据增长速度。IT机构应确保其所制订的备份策略不会很快过时。有关预计用户数量和这些用户所创建数据类型的长远规划应予以考虑。如果企业正在筹划雇佣100名新员工,那么,用户及业务数据的数量也将随之增长。应立足于长远需求并提供所需的容量与性能。如需了解更多相关信息,请参考本文“管理磁盘容量”章节。 确定备份与还原性能需求 信息技术(IT)运行维护机构需要确定针对备份、还原与恢复的性能需求。这些需求应当业务需求相结合。在制订SLA的过程中,不同业务单位与IT机构之间需要就有关备份、还原与恢复性能的特定服务级别目标(衡量标准)进行定义、协商并达成一致。需要注意的是,这些服务级别目标必须按照符合SLA的方式进行监控,以确保针对IT机构和客户的承诺同时得到满足。 确定数据库备份与还原需求 企业最为关注的关键性数据位于数据库当中。每套数据库都是各不相同的;应尽可能充分利用数据库厂商所提供的工具对不同数据库中所存储的数据进行备份、还原与恢复。 大多数主流数据库厂商支持在不停止数据库的情况下对其进行在线备份。这些厂商通常提供能够生成所需备份文件列表的工具,并确保对控制文件、归档日志、重做日志以及表空间进行正确的备份。某些工具甚至提供由事件驱动的归档功能,这种功能能够在卷超过预先定义好的容量时自动执行数据归档。如需获取更多相关信息,请参考本文的数据库管理部分。 确定电子邮件备份需求 由于业务的增长很大程度上依赖于商务环境下的即时信息交换,因此,对于大多数企业而言,电子邮件是一种任务关键型应用程序。电子邮件系统依赖于数据库,然而,在规划备份策略的过程中,仍需考虑一些电子邮件系统所特有的需求:
注意: 在对意外从系统中删除的特定电子邮件消息、文件夹、文档或其它项目进行恢复时,用户通常需要请求援助。如果每次在出现这种情况时都需要还原整套数据库,那么将会对工作效率造成很大影响。 确定个人计算机客户端备份需求 与其对数以百计甚至数以千计的个人计算机客户端进行备份,许多IT组织机构选择要求用户在服务器上存储企业关键数据。这种方式允许根据预先定义好的备份计划来存储重要数据。如果某些用户提出针对桌面系统或移动设备的特殊备份需求,可以通过使用由不同平台(例如MicrosoftWindowsNT、Microsoft Windows2000、UNIX等)所附带的工具来轻松、安全的完成这项工作。 注意: 由于担心无法在需要时及时访问自己的数据,某些用户可能对使用服务器存储方式采取抵触措施。可以通过针对存储系统实施高可用性计划的方式来解决这一问题。如需了解更多关于用户数据还原的信息,请参考利用Windows 2000 IntelliMirror还原用户数据与用户设置部分。 确定备份与还原时间表 确定每种数据类型的备份频率。例如,用户所使用的文件可能需要每天进行备份,系统数据可能需要每周进行备份,而关键数据库业务则需要每天备份两次。 确定可以承受的备份操作时间表。例如,用户文件可以在其未被使用的情况下随时进行备份,而某些业务数据库则只能在有限的几小时内进行备份。 通过对所需备份的数据量、现有基础架构以及所使用的技术进行评估来预测每次备份所需的时间。在脱机备份方式下,所有这些因素都将对用户的数据访问行为产生影响。基于这种原因,应将备份时间计算需求与特定的业务需求进行对比。如果业务需求要求用户平均每天有22小时能够访问数据,那么,4小时的脱机备份操作将无法执行;为此,需要寻找另一种解决方案(例如在线备份、SAN等)。 必须了解针对每种数据类型可以承受的数据恢复时间表。例如,某些用户文件可能需要两天时间才能得以恢复,而企业业务数据则必须在两小时内恢复完毕。在确定可以承受的恢复时间时,应确保其中包含访问存储介质所需的时间以及真正将数据恢复到磁盘上所需的时间。这方面最清晰的示例是需要对系统进行全面恢复且必须通过脱机存储机制获取相关介质的情况。这些信息将用于确定由运行维护部门强制执行的特定备份计划。 确定数据归档(离线存储)需求 在针对不同数据类型制订需求时,还需针对每种数据类型规划如何确保存储介质的安全性及维护方式。例如,对业务具有重要影响的数据应当定期进行备份并实施脱机存储。相比之下,用户数据即便进行备份也无需要求脱机存储。针对在线及脱机数据的安全限制同样必须进行规范。此时,数据分类同样有助于确定安全需求。 除此之外,还需确定每种数据类型存储时间。例如,用户数据可能只需保留3个星期,而与企业员工相关的信息可能需要保留5年时间。
确定限制条件同制订其它策略的工作一样,应确保备份计划不会与任何现有或建议标准或策略产生冲突。 安全策略可用于对数据访问(例如哪些人可以请求对特定文件进行恢复)和脱机存储(例如哪些数据可以安全的在保险柜中存储)等加以限制。备份策略应当服从这些策略。 SLAs应当包含针对不同IT客户(例如用户群体)的特定服务级别目标,这些目标旨在对诸如能够容忍的还原时间、在线存储与离线存储对比、以及备份计划之类的内容进行细化。备份策略应当确保这些服务级别目标得以实现。如果产生冲突,存储管理者和服务级别管理者应确定相应的解决方案或重新就服务级别目标进行协商。 特殊的基础架构或许同样会对备份策略提出特定的限制。可用网络带宽、业已安装的存储设备、成本以及其它因素均会对最终策略造成限制。 定义备份与还原策略凭借前面几步工作所收集到的信息,备份策略现在已经可以得到定义并形成文档。请不要发布任何无法得以实施的策略。应通过适当的监控与测量方式来确保策略的实施。 将于数据备份和还原相关的策略以文档形式记录下来非常必要,这种方式可以确保所有相关人员对其加以了解并严格贯彻。这些策略应当反映IT机构通过操作级别协议(OLA)向其它IT实体或通过服务级别协议(SLA)向客户所作出的承诺。 作为一项基本方针,存储策略应遵行以下要求制订:
分析备份与还原需求对收集到的所有需求信息和业已确定限制与策略进行审核,减少冗余并将结果形成文档。这份文档将成为执行下一步工作的基础。 对于需要在分布式环境中管理存储设备的运行环境,存储管理效率应得到提高。通过将存储服务器合并到统一位置上可以实现这一目标。通过这种方式,存储管理、存储资源监控以及整体网络性能都将得到改善。存储管理解决方案的整体效率也将通过这种合并得到提高。 选择并购买存储基础架构组件利用备份需求分析结果来制订旨在满足业务需求(包括现有功能要求)的不同存储解决方案。随着存储技术和体系结构的不断进步,应当考虑采取不同的方式。 组织机构或许拥有满足备份策略中所定义需求的所有存储组件。然而如果情况并非如此,就需要业已定义的需求和限制条件——特别是预算限制——之间求得平衡。之后,为这项工作选择正确的技术。 制定存储监控与管理计划对IT运行环境中目前所采用的管理解决方案进行审核。如果需要的话,应包括涉及存储技术并可供购买的厂商管理解决方案。如有必要的话,选择并购买最符合业务需求的监控与管理解决方案。如需了解更多相关信息,请参考本文的“存储事件监控”章节。 用以对网络和系统资源进行监控与管理的管理系统通常不涉及用户数据,因此,这些系统无法满足档案存储要求。然而,按照IT安全策略所指定的规则,系统备份介质仍然应当存储在安全可靠的位置。应确保在整体备份策略中包含对管理系统的备份。 制订过程与方法制订可供存储管理人员对存储解决方案进行运行和维护的详细过程与方法。所制订的过程应专门适用于业已部署的技术,而所选择的备份方案则更具通用性。请不要忘记包含用以对解决方案进行监控和管理的过程。 目前主要存在三种不同类型的备份方式:完全备份以及两种不同类型的部分备份——增量备份和差异备份。以下是目前许多企业执行备份操作时所常用的方法:
制订资源规划在选择能够满足备份与还原需求的适当技术与存储体系结构后,需要面对的其它领域包括人员、培训需求以及组织问题。 对于解决方案,需确定实施和运行备份策略所需的合理人员数量。这意味着需要在不同岗位之间调动IT人员或雇佣更多的人员。诸如此类的资源事宜需要在预算限制的基础上予以权衡。 对于为实施、运行和维护备份策略而配备的人员技能进行评估,并在选定的存储解决方案需求之间进行对比。如果需要进行培训,还需确定企业内部培训是否能够满足要求以及是否需要参加外部培训。通常情况下,组织人员参加培训课程所需的时间要不预想中的长。了解相关人员何时能够达到的满足要求的技术水平将对策略的实施进度产生直接影响。 最佳实现方式是确保人员培训与存储技术同步到位。请记住,培训与在生产环境中实际“上手”之间所间隔的时间越短,达到的效果就越理想。 测试备份策略必须执行适当的测试以确保备份策略及相关技术能够实现预期的目标。如需了解更多关于在将新技术投入生产环境前所应采取的步骤的信息,请参阅MOF发布管理SMF指南。 实施备份策略凭借目前已经购买的存储基础架构组件以及经过全面培训的人员,应着手开始将存储解决方案及相关监控与管理工具安装到IT环境当中。这项工作通常涉及不同团队——包括存储管理者、网络专业人员等——之间的共同协作。 规划阶段应在审核所需执行的任务之前对其进行详细的描述与讨论。不同的服务需要实施不同的故障冗余与恢复方案。在规划阶段需要询问的关键问题包括:
灾难恢复注意事项灾难恢复是大多数IT组织机构所讨论的主要议题,尽管数据的备份、归档与恢复在制订完整的灾难恢复计划时均应予以考虑,但其不应与这些活动等同对待。通常情况下,需要进行如此广泛规划工作的灾难是指诸如基础设施和/或任务关键性系统与网络遭到破坏之类的重大自然灾害(例如火灾或地震等)。基于这种原因,灾难恢复计划必须强调恢复关键IT基础架构组件过程中所涉及的各个方面,并不仅仅是数据。 然而,如果数据不复存在,恢复所有计算机组件也将于事无补。这便是必须定义数据备份、还原与恢复流程并将其纳入灾难恢复计划的原因所在。 传统备份与归档存储之间的差别在于存储内容的保留时间(备份属于短期行为,而归档存储属于长期行为)以及数据所放置的地点(备份为在线方式,归档存储为离线方式)。因此,当灾难发生时,IT机构可以从离线位置上获取相关数据。为满足灾难恢复要求,某些企业甚至建立并维护拥有完整复制数据的冗余IT站点或通过付费方式要求第三方提供此种服务。 灾难恢复计划所应回答的问题 MOF处理模型假设业已制订了针对IT资源的灾难恢复计划(属于服务连贯性管理SMF所关注的领域)。这项计划应当提供针对以下关键问题的详细答案:
测试恢复与还原流程 数据还原与恢复流程应当进行合理的规划并作为完整数据安全性与服务连贯性管理工作的一部分定期进行测试。这将有助于确保相关流程能够满足预期。
层次化存储管理层次化存储管理(HSM)是指通过层次化存储设备自动(且透明的)移植文件的能力。根据诸如可用容量、存储速度以及每兆字节存储空间成本之类的参数在层次结构中对设备进行分级;设置用以限制并定义文件在层次结构中移动方式的规则(通常基于数据访问频率)。尝试还原文件的操作对于HSM来说同样应是透明的。 HSM应当在确定备份策略时就可行性进行评估。然而,需要注意的是,如果使用的话,HMS将成为备份策略的一部分,但不应作为备份或数据归档的替代机制。使用HSM的目的在于更好的控制数据管理与存储成本并简化存储管理方式,而并非确保数据恢复机制。 存储资源管理无论运行环境属于集中式还是分布式,都必须对所使用的各种不同存储技术进行管理。这就要求合理的使用随不同存储系统提供的厂商工具,使用符合组织机构要求的第三方工具,并将这些技术封装到合理定义的策略与流程当中。最后,还需提供能够简化存储管理系统可用性、容量及性能监控与分析方式的功能。此外,存储系统还应通过统一控制台以及大量报表生成功能实现简单的配置方式。 存储资源管理(SRM)是一项旨在确保诸如磁盘之类存储设备能够通过适当的文件系统进行格式化和安装的关键存储管理活动。如需了解更多相关信息,请参考本文的“磁盘管理”与“磁带管理”章节。 此外,SRM还涉及使用管理技术对存储资源进行管理,进而确保其满足可用性、容量及性能需求。如需了解更多相关信息,请参考本文的“存储事件监控”章节。 对生产环境中所使用的存储管理资源进行监控与管理是一项极为重要的任务。因此,管理员和存储管理者所使用的管理系统和工具必须提供所有必要的功能(监控、调优、配置等),以确保数据得到正确的存储并且在需要的情况下能够及时进行还原与恢复。 通常情况下,生产环境中所使用的用以对存储资源进行监控和管理的工具由作为操作系统组成部分之一的功能和/或由第三方厂商所提供的功能组成。 使用这种管理系统需要经过培训并具备一定的技能。对某些基本概念的理解对于对存储资源实施成功监控与管理并对结果进行分析非常必要。此外,针对适当的工作选择正确的工具能够大大增强运行维护团队确保数据与存储资源可用性、容量及性能的能力。 存储事件监控随着当今对数据访问速度与效率(不含连续性)的日益强调,如果仅仅在存储事件发生后对其采取措施,那么,存储管理支持团队将无法实现所需的服务质量。相反,支持团队必须采取前摄措施并在其能力范围内尽力在故障对业务造成影响前将其排出。 为捕获分析潜在问题、性能瓶颈或容量不足所需的信息,必须不断对存储设备的可用性、性能及容量进行监控。这就意味着IT人员必须执行存储管理事件监控任务。如需了解更多相关信息,请参考服务监控指南。 存储管理事件监控存储管理者所关注的基本事件类型包括:
事件分析为监控存储管理事件和阈值,必须对结果数据进行适当的处理。应定期执行事件数据分析工作并分析存储系统性能与容量发展趋势。如果仅仅对事件和阈值进行监控而并未对其进行分析,那么只能采取事后补救措施。只有对数据进行分析才能真正实现前瞻性存储资源管理。应尽可能在其对业务产生影响前确定潜在的性能问题并依据您所收集的数据来预测未来的存储容量需求。 此外,必须定期生成并向所有相关IT人员分发就可用性、容量及性能对存储资源事件发展趋势进行跟踪而得出的报告。 介质管理介质管理在存储管理流程中扮演着重要的角色。介质管理包含与存储介质(用于存储数据的物理介质)管理和维护相关的各种不同任务。介质管理员负责对介质库进行维护。介质管理员角色是MOF团队模型所定义的运行维护角色群体中的一种成员。 生产环境中使用着众多不同类型的存储介质,其中包括硬盘子系统、CD-ROM、视频、音频以及众多不同种类的磁带介质(例如reel-to-reel、DAT等)。这些介质通常按照不同的用途加以封装,例如磁盘“区”、磁带库等。了解如何对这些不同的介质类型进行管理对于确保合理存储数据并在必要时对其进行还原或恢复非常重要。 磁盘管理由于目前绝大多数重要业务数据仍旧存储在磁盘上,因此,磁盘子系统管理仍然是与介质管理相关的一项重要任务。磁盘管理涉及物理磁盘本身和用以存储数据的逻辑磁盘卷的管理与维护。应确保磁盘子系统在需要的时候具备可用性,为应对未来的增长提供适当的容量空间,并在能够满足预期数据访问需求的级别上运行。 通用磁盘配置 以下针对目前业内普遍采用的某些通用磁盘存储配置提供了高级概述。 直连存储配置 直连存储方式由来已久并且仍旧是应用作为广泛的一种方式。在这种体系结构当中,存储设备通过诸如SCSI或光纤通道之类的总线直接与服务器连接在一起。 由于采取直接连接方式,因此,尽管成倍低廉,但对存储介质的访问直接依赖于服务器存储子系统的可靠性。这一点在针对灾难恢复的离线数据存储情况下尤其值得强调。 通常情况下,与数据存储设备相连接的服务器由不同的制造商生产并且支持不同的操作系统。因此,从实质上讲,每台服务器均拥有自己的专用存储体系结构,从而导致数据中心内部存在众多存储自动化孤岛。由于用户必须准确掌握所需使用的数据存储位置,因此,这种方式会对数据共享产生负面影响。同时,由于对存储系统进行管理、调优和监控时需要使用不同的工具和流程,因此,这种方式大大增加维护工作量。 集中式磁盘存储配置 集中式磁盘存储目前同样非常常用。本质上讲,这种体系结构需要将磁盘存储设备合并到集中位置上,并提供某些内置冗余。 这种存储体系结构类型比直连方式价格略微昂贵一些,并且由于拓扑结构和连接方式限制,其可选存储设备也相对有限。然而,这种方式的确能够解决某些直连体系结构无法回避的问题(参加前一章节)。例如,集中式磁盘存储体系结构所带来的冗余能够提供更多的数据保护并减少停机时间。备份工作可以通过单一流程而非多套流程来完成,但同时需要注意的是,这种存储方式仍旧需要通过LAN对磁带库进行访问,因而仍旧会对网络造成影响。在集中式磁盘方式下,数据共享与存储管理都将进一步得到简化。 网络连接式存储配置 网络连接式存储(NAS)体系结构使用户得以通过直接连接到网络上的数据存储设备来访问数据。这种方式通过嵌入到存储设备内部的“瘦服务器”(一种特殊用途的服务器)来实现。 从本质上讲,这种体系结构类似于直连存储方式,因此,二者面临着某些同样的问题。数据访问依赖于存储子系统的可靠性,如果村出资系统出现故障,工作效率将受到影响。由于备份操作必须通过LAN来完成,因此,网络性能会受到影响。但是由于NAS允许存储设备独立于文件服务器,因此,文件共享方式将得以简化。由于存储设备可以安置在网络中的任意位置上,因此,这是一种更为灵活的解决方案。此外,NAS更加易于安装和维护,并且能够在需要对存储设施进行扩展时提供更具成本效益的方式。然而需要注意的,每台存储设备均被视为网络上的一个节点,如同直连存储解决方案一样,瘦服务器仍然属于这台设备的“所有者”。 存储区域网络 作为一种最新型存储体系结构,存储区域网络(SAN)是一种用以将服务器和客户端连接到由存储设备(诸如模块化磁盘阵列和磁带库等)构成的共享“池”中的高速专用网络。此种类型的共享池通常由服务器、外部存储设备、集线器与路由器、以及网络与存储管理工具组成。 通过允许网络上的任意一台服务器访问SAN中的任意一台存储设备(无需考虑所在位置或操作系统),SAN能够提高数据可用性。由于诸如备份与还原之类的存储敏感性流程能够被转移到SAN中执行,因此,服务器性能同样得以提高。为增强服务器与集中式阵列和磁带库的连通能力,SAN在某些数据中心内得以应用,从而得以将存储成本分摊到大量服务器当中。 随着SAN解决方案的技术实现方式的不断成熟以及成本的不断降低,这种体系结构的应用范围也在不断扩大。 促使SAN解决方案应用数量不断增加的原因包括:能够提供更高带宽、多路方式以及性能冗余的光纤通道技术使可用性、可靠性及性能得以提高;集中化管理机制使成本得以降低;允许通过在线方式添加存储设备及服务器的特性大大简化了伸缩方式。 文件系统管理 根据IT组织机构所支持的计算机类型,可能需要对多种文件系统进行管理。每种文件系统均有自己的特征、系统需求和功能特性。在安装新系统时,根据组织机构需求选择正确的文件系统会对诸如安全性、分布式计算、备份、还原与恢复能力之类的问题产生积极的影响。 卷管理 卷管理涉及系统中存储卷的创建、删除、修改、维护等任务。卷管理的具体实现方式取决于实际使用的文件系统类型。 何谓卷集? 磁盘卷集是一种在多块小容量磁盘基础上创建大容量逻辑磁盘的方式。需要注意的是,如果某块小容量磁盘出现故障,整个卷集将遭到破坏。应确保作为定期备份计划的一部分对卷集进行备份。 管理磁盘可用性 故障冗余是一种允许在部分系统组件出现故障时继续确保系统正常运行的能力。故障冗余主要解决诸如磁盘故障、电力中断或者操作系统遭到破坏之类的问题。这些问题会对启动文件、操作系统本身或系统文件造成影响。需要注意的是,尽管在故障冗余系统中数据始终处于最新可用状态,为保护磁盘子系统上的信息不会因用户错误和自然灾难而遭到破坏,仍需进行磁带备份。磁盘故障冗余并非离线存储备份策略的替代方式。故障冗余磁盘系统按照6个级别进行标准化和分类,这6个级别分别是RAID 0至RAID 5。每个级别均提供特定的性能、可靠性与成本组合。 独立磁盘冗余阵列(RAID)是一项磁盘驱动器阵列技术,它由两块或更多旨在为客户提供故障冗余解决方案并提高磁盘性能的磁盘驱动器组合而成。RAID磁盘阵列存在以下几种不同级别: 级别 0:磁盘带区 这种级别提供“数据带区”功能,它将文件块分散到多块磁盘上进行存储,并非写入到单一磁盘上。 结果:高性能但不具备故障冗余能力。 级别 1:磁盘镜像 这种级别提供磁盘“镜像”功能,即将数据同时写入到两块磁盘上。如果一块磁盘出现故障,系统可以在不破坏服务或数据的情况下自动使用其它磁盘。这是那些无法实现离线操作的联机数据库系统通常采用的方式。需要注意的是,由于每个文件存储在两个位置上,因此,实现这项特性需要使用两倍的存储空间。 结果:得以提高的故障冗余能力;性能等同于单一驱动器;需要进行在线备份。 级别 2:无错校验 这种RAID级别最初是为那些不具备内建错误校正能力的磁盘驱动器设计的。 结果:由于所有SCSI驱动器均具备内置错误校验功能。这种级别未得到广泛应用。 级别 3:磁盘带区与奇偶校验 这种级别同样提供数据带区特性,但数据按照字节级别进行带区划分。一块磁盘专门用于保存错误校验(奇偶校验)数据。 结果:性能得以提高且具备一定的故障冗余能力(取决于硬件控制器)。 级别 4:数据带区与奇偶校验 这种级别提供了与级别3相同的带区和奇偶校验功能,但数据带区按照块级别进行划分。 结果:适用于需要实现高速“读取”的情况(性能与级别0相似)。 级别 5:磁盘带区与奇偶校验 这种级别提供与级别4相同的数据带区与奇偶校验功能,但并非将奇偶校验数据写到专用磁盘,而是在阵列内的所有驱动器上进行存储。这种级别只要需要3快磁盘。添加到RAID-5中的磁盘数量越多,所需投入的整体费用就越低。然而,当集合中所使用的磁盘数量超过7块时,在RAID-5中使用多块磁盘所产生的优势将开始逐渐下降。 结果:高性能故障冗余。 注意: 在这些RAID类型当中,只有RAID-1和RAID-5使用较为广泛。 选择RAID策略 RAID策略包含硬件和软件解决方案。在RAID-1卷和RAID-5卷之间进行选择主要取决于您的计算环境。在选择RAID策略时请考虑以下因素:
何谓磁盘集群? 磁盘集群是一项允许将两台或多台计算机连接在一起并以单台计算机的形式对外呈现的技术解决方案。这种技术解决方案用于实现故障冗余。 管理磁盘容量 确保为业务增长需求预留足够的磁盘容量是容量管理流程的功能之一。这种存储管理角色能够对磁盘进行监控,以确保容量阈值不被超越并定义根据资源需求增加磁盘容量。如需了解更多相关信息,请参考MOF容量管理SMF指南。 磁盘碎片 磁盘碎片是指磁盘在某些情况下被使用(例如创建文件、添加文件、删除文件、修改文件等)且文件最终被分片存储的磁盘状态。这种情况下,文件在逻辑上是连续的,但在物理上却是散布在磁盘上的众多“片断”。这是磁盘使用过程中的一种自然结果,对于最终用户来说是不可见的,但这种情况将会导致磁盘性能问题,因此需要进行监控和定期整理。 磁带管理重要业务数据必须得到安全可靠的存储,并且在需要的情况下能够由IT组织机构为用户提供数据还原服务,或在灾难情况下确保数据和文件系统能够得到完全恢复。这种要求只有在用于存储数据的介质(对于大多数数据中心环境来说是磁带)能够正常进行修复、维护和循环时才能实现。 磁带存储介质存在一定的生命周期。从本质上讲,这个周期由五个阶段构成:
针对数据存储准备介质 是否需要对磁带介质进行初始化或格式化取决于所购买的磁带介质类型。通常情况下,预先初始化好的磁盘被广泛使用,但与未经格式化的磁带介质相比,其价格要高出一些。由于初始化磁带是一项非常耗时的工作,因此,应当在较高的介质价格与手工完成初始化工作所需承担的人力成本之间加以权衡。 使用磁带介质进行备份与循环的方法 制订有关如何使用磁带介质进行备份的计划是一项非常重要的工作。这种计划应当定义如何选择磁带介质,如何检查磁带介质是否存在错误,以及何时对磁带进行重写。如果缺少这样的计划,则有可能导致在存在问题的介质上存储关键业务数据,进而使数据无法恢复。 以下各部分描述了当前业内使用磁带介质的几种常用方法。 应当尽量避免:Tape-a-Day 这是一种存在很大风险的磁带循环方式。在tape-a-day方式下,单套磁带将被连续重复用于备份。这意味着每次执行备份操作时,上一次所执行的备份都将被覆盖。当然,这就意味着如果需要还原某些两周前的文件,由于这些文件已经彻底被最后一次备份所覆盖,因此,还原工作更本无法完成。这种情况是绝大多数数据中心根本无法接受的,并且必须尽可能避免。 祖父——父亲——儿子(GFS) 这是一种最为常用的介质循环方式,它使用三套磁带分别以每天、每周、每月和每季度为单位对数据进行备份。 GFS所使用的术语定义如下:
注意: 根据实际存储的数据量,每套介质可能由一盒或多盒磁带组成。 以下表格描述了针对某个月的可能采用的祖父——父亲——儿子磁带循环方式。 表格 1 GFS介质循环计划 阴影区域代表先前的备份,白色区域表示最近一次备份。在单月计划内,只有每日备份磁带会被重用。 以上所描述的GFS方法可以保留两至三个月的历史数据,这对于许多组织机构来说已经足够。如果需要执行数据归档,相关磁带可能会从循环机制中取出并进行离线存储,此时,需要增加新磁带以替代被存储的磁带。 汉诺塔 这是另一种广泛使用的磁带循环方式。其名称取自古代中国一种通过递归技术实现的同名游戏。在这个游戏中,参与者从一根钉子上向另一根钉子上移动一摞盘子,其间要求每个盘子只能被放置在比它更大的盘子上。这种方式需要使用比GFS方式更多的介质。由于每向备份计划中添加一套介质,历史数据备份就会增加一倍,因此,这种方式更能确保数据的即时恢复。这种计划可以采用每天或每周循环方式。 以下表格显示了这种方法以及相关解释说明: 表 2 汉诺塔循环情境 这种方法从一套介质(例如介质A)开始执行备份计划,并在另一次备份会话中对其进行重用。下一套介质(例如介质B)在第一个非介质A备份日使用,并且在每4个备份会话中重用一次。下一套介质(例如介质C)在第一个非介质A和非介质B备份日使用,并且在每8个会话中重用一次。介质集合D在第一个非介质A、非介质B和非介质C的备份日开始使用,并且每16个会话周期重用一次。最终,介质集合E与每套介质集合D交替使用。 对数据流量的评估可用于确定循环周期。每周循环方式最少使用5套介质,而每日循环方式最少使用8套介质。同样,为实现数据归档,介质应定期从循环中退出(并得到替换)。 介质淘汰 无论采用上述那种循环方式,多套磁带都将被重复使用。为确保数据完整性,这些介质应当定期进行淘汰处理。需要注意的是,每家磁带制造商均应提供与其介质产品建议生命周期相关的信息。 当定期对磁带错误进行审查时,应观察其是否存在过多的软错误,并在使用规定时间后将其淘汰。 角色与职责存储管理的主要角色及其相关职责根据行业最佳实践方式进行定义。依据具体的规模、结构以及 IT 部门与其上级企业间的基础服务级别协议,组织可能需要整合一些角色。 存储管理是每家数据中心每天都必须执行关键运行维护流程。因此,组织合理的团队来执行这项工作非常重要。这部分内容描述了建议构成这支团队的各种角色。其中某些角色直接与日常存储管理任务相关联,另一些角色则只需在整个流程中的特定时段内存在。角色描述不必向工作描述那样进行解释。 根据IT组织机构的规模与结构,每名工作人员可能同时担任多个角色。尽管如此,每个流程只能存在一名流程所有者。这将确保有一个人能够对流程的整体性能负责。同时,这还能确保有一个关键人物能够全盘负责解决问题。 以下描述了执行每日存储管理流程所需的角色。 存储管理员存储管理员负责执行存储管理流程。在流程设计和/或重新设计工作当中,存储管理员承担最主要的职责。 存储管理员负责对存储管理及其相关活动产生影响的所有流程改进工作。这些活动可能需要占用管理员25%至75%的工作时间。存储管理员同时还应当投入大量时间来完成流程改进工作,并与那些对流程成功与否抱有很大兴趣的合伙人保持良好关系。 存储管理员需要:
介质管理员介质管理员负责维护介质库并:
与其他进程的关系存储管理是Microsoft运行框架(MOF)流程模型中运行维护领域内的一项服务管理职能(SMF)。数据中心内部存储管理流程的每日执行情况取决于多种不同的IT流程(或者受到这些流程的影响)。下图描述了存储管理与其它MOF服务管理职能(SMF)之间的关系。 系统管理系统管理负责处理组织所用的管理模型。一些组织喜欢采用这样的管理模型:在一个地点履行所有 IT 职能,并在该地点配备一支由 IT 专业人员组成的团队。其他组织更愿意采用分布式分支机构模型(技术和支持队伍在地理上均是分散的)。系统管理会检查每种模型的权衡情况。每种类型系统管理模型均具备特有的批处理过程管理需求。 安全管理安全管理是一项关注于安全控制机制实施与管理的IT过程,这些安全控制机制旨在强化企业安全策略,从而确保IT生产环境内的数据与系统安全性。由于存储管理流程所主要关注的企业数据必须时刻保证安全,因此,存储管理与安全管理之间存在着紧密关联。当数据位于企业域内的磁盘上时,可以通过密码方式确保其安全性,并通过软件工具实现不同的安全级别。然而当数据存储在磁带或其它外部存储设备上时,此类安全措施将不再适用,必须采用额外的关注措施以确保数据安全性(例如保持数据处在离线状态,对其进行上锁保管或加密)。存储管理者与安全管理员需要密切协作以确保企业数据安全策略得到切实贯彻。 服务监控存储管理负责对硬盘、磁带以及其它存储设备进行监控。这项工作涉及对低存储空间的监控,以及为确保备份作业正确完成而对其进行的监控。存储管理必须与服务监控SMF密切配合以确保事件能够得到及时监控且在故障情况下能够提供必要的支持。 网络管理网络管理是一种 IT 进程,负责在变更管理和配置管理控制下,管理所有生产网络。由于某些变更管理工单有时可能要求对不同存储资源的网络配置进行调整,因此,网络管理与存储管理之间存在着一定关联。在这种情况下,网络管理员与存储管理者应当协同工作以完成工单所描述的任务并确保严格遵循存储管理与网络管理服务级别目标。 变更管理变更管理是一种对生产IT环境中的所有变更进行管理(记录与审批)和控制(跟踪与协调)的IT流程。存储管理与变更管理之间的关系同变更管理与其它流程之间的关系没有区别;即在相应的变更请求(RFC)未得到处理和批准前,不能对存储管理资源实施任何变更。此外,某些未列入计划的数据存储与还原请求可能要求通过变更管理流程(RFC提交)方式来实施。 变更管理者控制着变更管理流程并且通常依靠不同变更域协调员来负责可能参与变更控制的不同技术和应用领域(域)中的专业技术。当需要直接对存储管理系统和/或应用实施变更,变更管理者以及一名或多名变更域协调员需要定期与存储管理人员进行沟通,或者,当此类系统将会受到相关基础架构组件(例如服务器、LAN或磁盘驱动器等)变更的影响时,双方需要共同执行必要的风险与影响评估。 配置管理变更管理是一种用以在配置控制或配置项目(CI)下指定、跟踪并报告每种IT组件的IT流程。相关数据通常存储在称为配置管理数据库(CMDB)的逻辑实体当中,该数据库一般由多套相互独立的数据库组成。存储管理通过每次在对存储管理配置项目发起变更(通过变更管理)时必须进行处理的CMDB记录与配置管理建立关联。存储管理者与配置管理者(配置管理流程所有者)需要就针对存储CI的存储管理CMDB结构(属性与关系)达成一致。相关内容包括硬件、软件、网络组件、用户等等。需要注意的是,在未对RFC进行处理和审批的情况下,存储管理CI不应发生任何变化。 存储管理者可能必须与负责CMDB不同方面的不同配置域协调人进行交互。例如,一名或多名域协调人可能负责对诸如网络、相关磁盘驱动器之类的存储管理基础架构组件进行跟踪。 可用性管理可用性管理是一种旨在确保用户能够对IT服务进行连续访问并解决诸如可用性、可靠性、可维护性、安全性与满足SLA中所定义之可用性服务级别目标的服务能力之类问题的IT流程。由于可用性管理关注于“服务可用性”,同时,存储管理流程中所固有的数据管理、数据存储、以及数据还原与恢复功能是满足服务可用性目标所必需的,且必须在制订服务可用性计划时予以包含,因此,存储管理与可用性管理之间存在着密切关联关系。 存储管理者与可用性管理者应当协同工作以制订合理的存储“可用性”计划。这项工作应该由已定义的服务级别目标来推动。 容量管理容量管理是一种旨在保证IT资源容量满足业务需求且得到合理优化的IT流程。由于容量管理关注于整体“服务容量”,同时,存储管理流程中所固有的数据管理、数据存储、以及数据还原与恢复功能对制订服务容量计划过程中所必须满足的硬件与网络容量需求具有直接影响,因此,存储管理与容量管理之间存在着密切关联。 存储管理者与容量管理者应当协同工作以制订合理的存储“容量”计划。这项工作应该由已定义的服务级别目标来推动。 服务连续性管理服务连贯性管理是一种旨在制订一套一致且规范的计划从而规定IT机构如何在灾难情况下进行恢复以及保卫系统如何防止意外演变为灾难的IT流程。服务连贯性管理与存储管理通过灾难恢复计划的制订、测试与实际执行联系在一起,灾难恢复计划是服务连贯性管理流程的成果,该计划同时涉及连贯性管理者和存储管理者。这种计划必须对灾难情况下的数据存储与数据恢复需求及能力加以规定。因此,存储管理必须确保这些需求能够满足。 投稿人本文所述的具体操作中有许多都是来源于 Accenture、Avanade、Microsoft Consulting Services、Fox IT、Hewlett-Packard Company、Lucent Technologies/NetworkCare Professional Services 和 Unisys Corporation 等公司和部门多年的 IT 实践经验。 Microsoft 十分感谢上述组织机构在为本文档提供信息资料方面所给予的慷慨协助。 项目管理小组William Bagley,Microsoft Corporation Jeff Yuhas, Microsoft Corporation 主作者Jeff Drake,惠普公司 联合撰稿人Vicky Howells, Fox IT 编辑Nancy Huber, Microsoft Corporation Christine Waresak, Volt技术服务公司 | 本文内容
|