服务管理职能

网络管理

如需了解最新信息,请参阅http://www.microsoft.com/mof/

本页内容
摘要摘要
简介简介
网络管理概述网络管理概述
过程与活动过程与活动
角色与职责角色与职责
与其他 SMF 的关系与其他 SMF 的关系

摘要

随着技术手段和实践经验的日益丰富, IT 功能得以不断增强,从而促使商务企业越来越依赖 IT 基础架构为关键业务流程提供支持,并创造新的商业机遇。尽管最具传奇和创新特色的 IT 商务用途集中体现在应用层面,然而,核心服务的重要性仍不容轻视。兼具可靠性、可用性和安全性的 IT 基础架构所蕴含的全部功能特性皆始于对底层硬件设备和支持服务的正确选择与适当维护。

“网络管理”服务管理职能(SMF)主要负责定义并提交确保基本网络服务日常运转所必需的过程和程序(包括但不限于动态主机配置协议[DHCP]、Windoiws Internet 名称服务[WINS]和域名系统[DNS]等)。这项 SMF 为上述服务的正常运转和服务支持硬件层面的适当维护提供了基本指导原则。此外,这项 SMF 还将围绕与硬件设备和网络级软件相关的专题指南提供相关参考资源。“网络管理”这项 SMF 属于 Microsoft? Operations Framework (MOF)的操作运转体系范畴。

简介

“网络管理”这项 SMF 针对包括远程访问服务(RAS)、局域网(LAN)和广域网(WAN)在内的网络基础架构运转和维护需求提供了统一实现方法。本文介绍了广泛适用于多种网络配置和拓朴结构的最佳实践经验和操作过程。“网络管理”这项 SMF 展现了在对覆盖面广且高度复杂的微软内部网络进行操作运转过程中总结归纳出来的一系列最佳实践方式,并融入了合作伙伴与客户总结的经验教训以及由 IT 基础架构库(ITIL,由英国政府商务办公厅[OGC]发布)提供的指导原则。

这份指南将面向已经或正在考虑基于数据中心或其它企业计算环境部署微软技术成果的组织机构呈献与“网络管理” SMF 相关的详细资料。这是 Microsoft Operations Framework (MOF) 定义和描述的 20 多个 SMF 中的一个。这份指南假设读者对 MOF 及相关 Microsoft 技术的意图、背景与基本概念十分熟悉。

而题为MOF 服务管理职能概述的技术指南则简要介绍了 MOF 及其配套方案 Microsoft Solutions Framework (MSF)。这份概述还简要介绍了 MOF 所定义的每种服务管理职能。如需详细了解每种框架的概念和原则,请查阅位于下列地址的技术白皮书:http://go.microsoft.com/fwlink/?LinkId=4724.

目标读者

本文主要针对 IT 专业人士和经理人员编写,目标读者包括网络工程师、系统工程师、设计师及其它希望在所属 IT 机构中实现操作运转和技术策略标准化的人员。本文提供的指导原则虽可为不同规模组织机构中的网络运转和管理任务创造便利,却以具备复杂 IT 体系结构且具有地域分散特征的大型机构为主要服务目标。这份指南要求读者具备专业技能水准,并拥有网络基本原理知识背景。对于那些希望了解网络专用术语、体系结构及其它基础知识的读者,我们推荐您阅读微软出版社丛书ALS 网络基础知识,第三版(刊号ISBN 0-7356-0912-8)。如需了解微软公司围绕网络体系结构提供的指导原则和建议,请参阅“Microsoft Windows Server System? 参考体系结构(WSSRA)”。WSSRA 概述参见
http://go.microsoft.com/fwlink/?LinkId=4709.

如需查阅全套 WSSRA 指导原则、设计蓝图和文档资料,请访问
http://go.microsoft.com/fwlink/?LinkId=4709.

新增内容

这个版本的网络管理 SMF 针对当前广为使用的“产品操作指南(POG)”提供了经过更新的参考资料,专门面向充当组织机构网络基础架构重要组成部分的微软技术成果。这些技术成果包括作为 Microsoft Windows Server 2003 操作系统组成部分的DNS、WINS、和 DHCP 服务器安装实例。这项 SMF 包含的指导原则集中反映了微软所属 IT 机构目前在本公司内部网络运转维护工作中采用的最佳实践经验。

意见反馈

请将有关这项 SMF 的问题和反馈意见直接发送至cisfdbk@microsoft.com.

网络管理概述

根据 MOF 的定义,网络由计算机系统和共享外设赖以实现信息交互的基础架构组件构成。它代表着最基本的 IT 基础架构层次——没有网络设施, IT 基础架构无从谈起,剩下的仅仅是彼此孤立的计算机设备。网络管理这项 SMF 以上述基本服务的操作运转为核心。

如图1所示,网络管理这项 SMF 属于 MOF 操作运转体系。由于它为次序较高的 IT 层面提供了构建基础,因此,与存储管理、目录服务管理和作业调度这三项 SMF 密切相关。

Figure 1. The MOF Process Model, with SMFs. The Network Administration SMF resides in the Operating Quadrant.

图1. SMF 在 MOF 过程模型中的分布情况。网络管理这项 SMF 属于操作运转体系。
查看大图

图2展现了操作运转体系的内部构成情况。系统管理、安全管理和服务监控这三项 SMF 都在所属体系中其它较为基本的 SMF 之上发挥着某种程度的控制效能。在某些组织机构中,图2刻画的正三角型层次结构可能被拆散,以体现机构人员配置水平和任务分派状况,并反映一部分共同承担的职责。

Figure 2. Organizational hierarchy of the Operating Quadrant

图2. 操作运转体系下的组织层次结构

目标

网络管理这项 SMF 的目标在于,为网络环境的日常管理奠定坚实的基础参照过程。这就要求面向生产环境下的多种要素提供运转管理支持。这项 SMF 的目标包括,提供有助于扩展现有网络设施的规划与部署服务,并为排除和修补网络环境缺陷的相关服务提供支持。通过切实有效地实现网络管理这项 SMF,IT 机构可望:

改善网络基础架构部署状况。

改进故障排解过程及与之相关的意外事件管理过程。

提高网络可靠程度。

增强 IT 解决方案与服务可用性。

职能范围

典型的网络系统由硬件设备(包括线缆、路由器、交换机、集线器、物理服务器及其它组件)和控制硬件应用模式的软件或固件构成。在开放系统互连规则(OSI)定义的网络模型中,典型 IT 基础架构以分层方式搭建——从底层服务共用的基本组件到位于顶层的定制化应用。

组成 OSI 堆栈结构的层次包括(从上到下):

1.

应用

2.

表示

3.

会话

4.

传输

5.

网络

6.

链接(数据链接)

7.

物理

网络管理职能通常涉及这个堆栈结构的前三个层面,而这三个层面主要由硬件设备组成。传输层包括允许将数据从一点传送到另一点的链接与网络协议,而网络管理和系统管理职能往往在这个层面上出现某些重叠。从 MOF 角度来看,针对DNS、 WINS 和 DHCP 等服务对象的管理活动恰恰提供了全能 IT 服务所必需的基本名称解析服务。根据组织机构的具体需要,这些核心服务还可能被纳入网络服务职能范畴。由于 DNS、 WINS 和 DHCP 都基于服务器运行,因此,网络服务器有时会被纳入受网络管理这项 SMF 控制的硬件组件范畴。

同属操作运转体系的网络管理及相关 SMF 之间可能出现职能交叠现象。像 DNS 和 WINS 这样的网络服务器往往需要接受健康状况监控之类的基本维护运转服务(服务监控)。在运行 Microsoft Active Directory? 目录服务的组织机构中,用于管理 Active Directory 本身和与之高度集成的 DHCP 的过程之间可能出现职能重叠。

网络管理这项 SMF 还可能与其所属体系之外的其它 SMF 密切相关。网络组件升级是主动型网络运转模式的固有组成部分。此类变更主要通过变更体系中的变更管理、配置管理和发布管理这三项 SMF 实现。无独有偶,尽管用户服务中断或其它故障问题的解决属于支持体系中意外事件管理这项 SMF 的职责范畴,然而,网络故障排除却是由网络管理这项 SMF 担当的典型任务。这些同类过程中的一部分将被这项 SMF 引用或描述,因为它们是实现网络管理方法统一化的核心要素。

这项 SMF 将为网络硬件和软件组件的配置与维护提供普遍指导原则。个别网络系统可能在体系结构全貌和组件级构成要素方面大相径庭。正因如此,针对特定硬件配置和维护任务的指导原则将在本文中以一般建议方式提出;读者如需获取关于个别硬件组件的信息资料,可直接查阅特定厂商编制的指导材料。微软公司同样针对基于 Windows 服务器平台运转的 DNS、 DHCP 和 WINS 等服务发布了专用 POG。通往每份指南的链接位于http://go.microsoft.com/fwlink/?LinkId=4724.

关键定义

DHCP

动态主机配置协议(DHCP)是一项通过实现 IP 地址分配自动化降低网络客户端 IP 地址配置复杂程度与管理负担的 TCP/IP 标准。

DNS

满足计算机通信需求的域名系统(DNS)是一种 Internet 地址解析手段,可帮助接入 Internet 的计算机进行彼此识别。DNS 服务器可将为计算机分配的数字地址(如207.46.228.91)转换成单词序列形式,亦或将单词序列地址转换成数字形式。

网络

用来连接两台以上计算机的技术手段、物理连接和计算机程序。网络用户能够共享文件、打印机及其它资源,发送电子邮件消息,并运行基于其它计算机存储的程序。

NOS

网络操作系统(NOS)是一种包含网络计算机通信支持软件的操作系统。它允许在计算机之间围绕文件、应用程序和打印机等资源实现共享。

协议

为计算机之间的通信交互提供支持的一整套既定数据传输标准。

RAS

远程访问服务(RAS)是一项允许远程用户登录并使用企业网络系统的技术。

VoIP

IP 语音传送(VoIP)是一项允许通过 Internet 进行语音信息交流(通话)的技术。

WINS

Windows Internet 名称服务(WINS)是专供 Microsoft Windows NT? Server 4.0 或更早 Microsoft 操作系统版本使用的名称解析系统。

过程与活动

本章将围绕网络管理这项 SMF 所涉及的过程与活动展开深入讨论。网络基础架构的初始体系结构、设计方案和开发活动超出了这项 SMF 的职责范围。然而,网络管理员却应全面了解其所管理的网络体系结构和配置状况,以确保操作、扩展和维护工作的正常开展。根据 MOF 的定义,静态健康网络的日常运转活动首先发生于操作运转体系。当然,其它典型活动(如例行网络升级、组件替换或故障排除)则涉及更加广阔的 SMF 职能范畴。(后续章节将对网络管理及相关 SMF 之间的这种关系进行更加详细的描述。)

Figure 3. Network administration tasks relate closely to processes in other MOF SMFs.

图3. 网络管理任务与其它 MOF SMF 密切相关。
查看大图

网络组件概述

如前所述,网络系统由复杂的硬件和软件体系构成。为确保既定操作运转水平的实现,必须对这些组件中的每一个实施例行监控或维护。组件偶尔受制于缺陷或差错,并可能为满足业务需求而最终接受替代或升级处理。为理解网络操作运转所必需的过程,应对网络组件本身进行简要而适度的评审。

硬件组件

网络硬件层覆盖面较广,通常包括下列组件:

线缆

网络适配器/网卡(NIC)

集线器

交换机

路由器

内容交换

无线访问点

防火墙

这些组件可能由多家不同厂商提供。事实上,IT 机构可根据既定标准化水平向多家厂商采购特定种类的网络组件(如路由器)。这些组件附带的产品文档通常对设备安装和配置事项进行了详细说明。

软件组件

如前所述,大量网络硬件组件包含需要根据厂商建议接受初始化配置的固件。举例来说,网络设备通常通过基于固件的 HTML 界面(可在 Internet 浏览器中通过输入设备专用 IP 地址访问)或远程网络会话接受配置。

而基于 Microsoft Windows Server 运行的网络系统中也会存在多种软件组件。这些服务包括 DNS、 WINS 和 DHCP。这些组件中的每一个均可在网络范围内实现某项基本功能特性,而且是确保高级别服务项目可用性的重要因素。在许多网络系统中,远程访问服务 (RAS) 也是一个使用频率较高的组件。这些组件的维护工作是网络管理职能不可或缺的组成部分。

网络过程概述

IT 专业人员公认,有关网络的典型工作负荷分为三大类。他们的任务经常涉及调整网络基础架构,大多体现为部署新网段或以某种方式修改硬件或网络服务配置。网络管理员还必须对网络健康状况实施监控,并开展例行维保活动,以期达到维护网络基础架构的目的。最后,他们还负责排除服务中断或其它性能故障,并在必要情况下对网络基础架构做出适当调整,从而履行网络运转支持职能。

组织机构可能出于多种原因需要对已经创建的网络系统实施调整。向全新业务领域进军、招募新员工或并购子公司均可能导致网络设施扩展需求。业务需求还可能促使网络设施升级成为必要——例如,企业办公场所内视频或其它数字媒体使用密度的提高可能促使管理当局做出升级至高速带宽网络的决定。某些情况下,新发生的标准变更或厂商调整也会要求对网络硬件进行替换或重新配置。MOF 变更管理这项 SMF 介绍了赖以评估与核准配置项目属性变更事项的过程。由变更管理这项 SMF 描述的部分变更流程组成要素包括:

与客户沟通交流变更事项。

制定返转计划。

完成对建议变更事项的技术评估。

说服变更顾问团(CAB)批准调整事项。

捕捉系统变更前配置状况。

将系统变更后配置状况同预期结果进行对照。

测试变更效果以确认是否实现所需功能。

维护网络

在大多数情况下,网络基础架构的操作运转主要涉及针对性能表现的监控、参照既定标准的评估和在性能下降时为排除故障而生成作业项目。网络系统中的大多数硬件组件均应在出现故障与达到其它性能标准之间的平均时段内不依赖人工维护或厂商技术规范所述人为干预实现正常运转。MOF 容量管理这项 SMF 详细介绍了有助于网络设计团队优化网络性能的容量规则技术。

当然,有关方面的确需要定期对基于服务器的网络组件给予适当关注。这些组件要求遵循存储管理 SMF 规定,在必要情况下执行定期备份,并对存储或容量需求进行评估。而针对 DNS、 WINS 和 DHCP 提出的特定指导原则也应得到遵循。

DNS 监控与维护

域名系统(DNS) 是 UNIX、 Linux 和 Microsoft Windows 等众多操作系统执行名称解析的首选方法。尽管 DNS 是部署 Active Directory 的必要条件,然而, Active Directory 并非部署 DNS 的必要条件。针对 Active Directory 的管理并不属于 MOF 目录服务这项 SMF 的职责范围。

DNS 服务的操作运转首先围绕对服务健康状况的持续监控展开。上述任务一般被指派给服务监控这项 SMF;然而,网络管理负责人却是辨别所需监控属性并确定警告和对策触发阈值的关键参与者。通常置于监控状态下的性能指标包括:

每秒发送响应总次数

每秒接收查询总次数

每秒接收 WINS 查找总次数

每秒发送 WINS 响应总次数

每秒接收 WINS 反向查找总次数

每秒发送 WINS 反向响应总数

每秒输入页数

每秒输出页数

每秒读取页数

每秒写入页数

DNS 产品操作指南详细讲解了为将上述特定指标纳入日志记录而对 Windows 系统监视器进行相应配置的方法,并介绍了通过脚本技术访问此类信息的更多操作程序。此外,这份指南还提供了出于性能优化考虑对这些数据进行通报和评估的有关程序。DNS 产品操作指南可从Microsoft TechNet 网站下载:
http://go.microsoft.com/fwlink/?LinkId=4723.

DNS 服务器在组织机构中通常被配置为优化设置状态。一般来说, DNS 设置标准化往往因其对服务器和/或子网之间的非兼容性进行了相关设置而有助于防止故障发生。所有配置选项均应被保存到配置管理数据库 (CMDB),以便在组件故障或系统扩展时提供快捷参考和设置恢复或复制能力。“基础架构工程设计”这项 SMF 对服务器及其它基础架构配置的标准化进行了描述,而另一项名为“配置管理”的 SMF 则讨论了配置文档生成与管理任务。

WINS 维护

Microsoft Windows Server 2003 既可将 DNS 作为在主机名称和 Internet 协议(IP)地址之间进行匹配的首要方法,又能为具有相同用途的 Windows Internet 名称服务(WINS)提供支持。WINS 是专供 Windows NT Server 4.0 和更早版本操作系统使用的名称解析系统。

在使用 DNS 的情况下,网络运转人员所承担的与 WINS 维护相关的首要职责就是针对服务健康状况实施持续监控,应用和记录配置方案,并提供安全可靠的注册表键及其它重要配置选项备份功能。

WINS 服务产品操作指南针对使用状况统计数据、系统负载和使用状况衡量指标等信息资料的捕捉收集提供了细致周密的建议。这份指南可通过 Microsoft TechNet 网站免费下载:
http://go.microsoft.com/fwlink/?LinkId=4723.

DHCP 维护

动态主机配置协议 (DHCP) 是有助于降低网络客户端 IP 地址配置管理任务复杂程度和管理负担的一项 TCP/IP 标准。Microsoft Windows Server 2003 配备了 DHCP 服务功能,允许计算机担当 DHCP 服务器,并基于网络配置具备 DHCP 支持特性的客户端计算机。DHCP 基于服务器计算机运行,可针对网络客户端计算机实现 IP 地址及其它 TCP/IP 配置选项的自动化集中管理。Microsoft DHCP 服务特性还达成了与 Active Directory 和 DNS 服务之间的高度集成,改进了适用于 DHCP 服务器的监控和统计报告功能,提供了厂商专用选项和用户级支持,实现了多播地址分配和恶意 DHCP 服务器检测功能。

与 DNS 和 WINS 操作运转模式相似的是, DHCP 的持续运转涉及对服务特性的实时监控和对从服务可用性维护活动中获取信息的应用。操作运转还涉及备份与恢复功能以及在中央数据库中保存配置选项。DHCP 产品操作指南提供了关于上述过程的指导原则,可通过 Microsoft TechNet 网站下载:
http://go.microsoft.com/fwlink/?LinkId=4724.

RAS 维护

远程访问服务(RAS)是 Windows 的一项核心特性,允许通过交换服务(如模拟和 ISDN 调制解调器)同企业网络建立连接,并利用基于 Internet的 PPTP 和 L2TP 协议创建虚拟 TCP/IP 管道。借助 RAS 实现网络接入的用户可获得如同身临其境的网络应用和数据访问体验。形形色色的身份验证协议可根据网络管理员的需要提供不同水平的网络安全保障,进而为客户端身份验证服提供支持。远程访问检疫服务(RQS)是一个非常重要的 RAS 组件。附加至 RAS 的 RQS 可对客户端脚本和远程检疫客户端(RQC)进行定制化处理,进而提供强制实现安全状态的能力——这里所说的 RQC 可在用户通过安全状态检验时向 RQS 发出提示信息。

RAS 的持续运转涉及保持服务可用性、安全性和容量管理能力的监控任务。关于 RAS 管理过程的详细指南可通过 Microsoft TechNet 网站免费下载:
http://go.microsoft.com/fwlink/?LinkId=4723.

为网络提供支持

网络支持任务与 MOF 支持体系中的操作运转活动——特别是“意外事件管理”和“问题管理”这两项 SMF ——密切相关。IT 网络专业人员可通过“意外事件管理”这项 SMF 所描述的意外事件处置过程纠正网络错误,开发替代方案,并阻止或缓解网络正在迫近的问题。尽管“意外事件管理”这项 SMF 的指导文档描述了处置意外事件的通用流程,然而,后续章节还将提供与网络相关的故障排除程序。

网络故障排除工作的重要性

无论系统设计和运转工作多么细致周到,影响网络性能的问题(从硬件故障到用户失误)仍不可避免。由于大量应用和服务的正常运转依赖于网络可用性,因此,当网络组件发生故障时,网络管理员所承受的压力可想而知。有鉴于此,负责提供网络支持的人员应熟知各项网络故障排除技巧和工具——这一点非常重要。

网络故障排除任务由名为问题解决小组的专家团队执行。如需进一步了解问题解决小组及其职能,请参阅“意外事件管理”服务管理职能指南

故障排除方法

事先计划需要采取的措施是处置网络意外事故的一项关键需求。已得到处置的意外事故中,有许多属于并不涉及网络故障的用户问题(例如,对软件或工作站设置的不当使用)。面临确系网络故障所导致意外事故的管理人员应履行既定故障排除程序。以下步骤为您推荐了一种行之有效的网络意外事故排除模式:

1.

总结归纳症状。

2.

识别受影响的环节。

3.

搜集变化情况。

4.

确定最有可能的原因。

5.

实施解决方案。

6.

测试修复效果。

7.

分析解决方案的潜在影响。

8.

编制解决方案文档。

下列过程本身及其执行顺序可能略有不同,但整个流程应包含上述全部程序。以下小节将对这些步骤分别加以描述。

总结归纳症状

排除网络意外故障的第一步就是发现症结所在并确定其对网络产生的影响。管理人员可通过这种评估掌握足以排定事故处置优先次序的知识。在某一特定时点,大型网络环境中的求援次数可能大大超出网络支持人员的处置能力。为此,极有必要确定优先级排序体系,以确定待处置故障的轻重缓急。这就如同在医院的急诊部,最先得到救治的患者不一定是排在最前的人。更多情况下,赖以确定优先关注顺序的因素是意外事故的严重程度,尽管无视政治因素的做法通常不够明智——高管层提出的意外事故求援大多先于普通员工的支持请求得到满足。

以下指导原则有助于确定意外故障处置优先次序:

共享资源优于单项资源。牵涉服务器或其它网络组件并妨碍大量用户正常工作的意外事故必须先于只对个别用户造成影响的故障得到解决。

影响波及整个网络的意外事故优先于只对工作组或部门构成影响的故障。面向整个网络系统提供服务的资源(如电子邮件服务器)应先于部门级资源(如文件与打印服务器)得到考虑。

根据各部门职能确定解决部门级问题的优先次序。波及企业要害部门(如订单受理部门或客户电话服务中心)的意外事故应先于可容忍较长服务中断时间的部门(如研究机构)得到处置。

而影响到整个系统的意外事故则应先于相对单纯的网络故障得到处置。导致计算机全面瘫痪或导致用户无法执行任何操作的意外事故应先于用户正在经受的个别设备或应用故障得到处置。

有助于缩小故障原因排查范围的重要程序就是搜索与当前事故相关的准确信息。用户经常对他们在经历意外故障时所做的事情甚至错误或问题本身的迹象感到茫然无知。例如,在许多情况下,用户会因收到错误提示而向帮助支持中心求助,但他们却经常忘记将出错提示消息抄写下来。因此,围绕意外事故记录与报告展开持续细致的用户培训同样是网络支持专业人员的一项重要工作。

提出以下问题有助于判定导致意外事故的原因:

意外事故发生时究竟应采取哪些措施?

是否遭遇其它任何意外事故?

计算机在意外事故发生前是否处于正常运转状态?

最近是否安装、移除或重新配置过任何硬件或软件?

是否亲自或由他人尝试过处置意外事故?曾采取过哪些措施?

识别受影响的环节

评估意外事故特征的下一个步骤就是尝试对其进行复制。允许您轻易复制的的网络故障更容易修复,这主要是因为,可为确信修复手段的有效性而对其进行测试。然而,许多类型的网络故障具有间歇性或只在短时间内发作。在这些情况下,故障在重新发作前处于开放状态。要求用户重现事故情形往往有助于得到解决方案。用户失误属于最常见的事故诱因,与硬件或网络相关的问题经常发生在缺乏经验的用户身上。

意外事故一经复制,便有希望判定实际根源。举例来说,如果用户无法在字处理应用程序中打开文件,便可推测故障可能潜伏在应用程序本身、用户计算机、文件服务器或处于三者之间的任何网络组件。故障点圈定过程包括以符合逻辑的系统方式排除不属于事故诱因的元素。在此类意外事故中,与网络相关的诱因非常有限。

如有可能对故障进行克隆,事故原因排查工作就应从运用以下程序再现事故发生环境开始:

1.

要求用户在计算机上重现故障,以判定是否因用户失误导致故障发生。

2.

尝试通过重新执行用户任务再现事故状况。如果故障并未出现,则表明用户执行特定任务的方式可能成为导致事故的原因。认真检查用户执行的操作程序,判断是否存在任何失误。故障排除人员和用户完全有可能以不同方式执行相同任务,用户采取的方式可能导致故障,而问题排除人员却不会。

3.

如果故障在任务执行过程中得以重现,则应注销用户帐户并使用具备管理员权限的帐户登录,并再次执行同一任务。如果故障未能重现,则表明用户可能不具备执行特定任务所需权限。

4.

倘若故障得以重现,则应尝试在配置相似且连接相同网络的另一台计算机上执行相同任务。如果未能在另一台计算机上重现故障情形,则表明故障诱因潜藏在用户计算机或该计算机所使用的网络连接。如果事故情形在另一台类似计算机上得以重现,则表明可能存在网络故障——与计算机进行通信的服务器或连接计算机与服务器的硬件设备发生故障。

如果事故诱因潜伏于网络系统,而非用户计算机本身,问题解决人员便可启动相关操作规则,将导致故障的网段隔离。举例来说,如果故障在邻近计算机上得以重现,则应在基于网络的其它计算机的执行相同任务。需要再次强调的是,应有条不紊地执行所需操作,并将运行结果记录在案。例如,先尝试在接入同一集线器的另一计算机上重现事故情形,然后在接入不同集线器但从属同一局域网(LAN)的另一计算机上再次重现事故情形。如果故障在整个局域网范围内重现,则应在另一不同局域网上再次尝试。最后,应将导致故障的根源追溯到服务器、路由器、集线器或线缆等特定组件。配置管理数据库(CMDB)应准确再现 IT 基础架构中存在的所有依存关系,并将成为排查故障根源的“无价之宝”。如需了解更多相关信息,请参阅“配置管理”服务管理职能指南

搜集变化情况

当原本正常的计算机或其它网络组件突然发生故障时,便有理由推测它们发生了某些改变。每当用户报告意外故障时,网络故障排查人员所搜集的最重要信息就是计算环境在故障出现前的最后一刻所发生的变化。遗憾的是,向用户收集这些信息往往非常困难。用户对“你所使用的计算机最近是否发生过任何变化?”这一问题的回答几乎都是“没有”;只有少数用户能在故障发生后的一段时间内回忆起故障发生前刚刚进行过硬件或软件升级。在已正确设置 CMDB 的网络上,有关人员很容易判断出用户计算机最近是否接受过升级或调整。技术人员应首先从 CMDB 中查找此类信息。

新增硬件或软件安装等重大变化显然是网络故障的潜在诱因,但网络故障排查人员仍须对某些可能导致故障的细微变化给予适当关注。例如,协议分析程序显示的网络流量激增情况可能成为导致网络性能下降的原因之一。调用同一应用程序、同属一个网段或 LAN 的多个用户报告的偶发故障可能表明网络环境存在某种缺陷。网络故障根源排查工作经常采取探案方式,掌握正确“讯问疑犯”的方法是故障排除过程的重要组成部分。

确定最有可能的原因

医学院校流传着一条古老的公理:“每当听到蹄声时,应联想到的是马,而不应是斑马。”在网络故障排查过程中,这就意味着应从最明显的迹象入手发掘可能导致事故的原因。举例来说,如果工作站无法同文件服务器进行通信,就不要从检查两个系统之间的路由器入手;应首先排查可能发生在工作站上简单的问题(比如,是否已将网线接入计算机)。故障排查过程的另一个重要组成部分就是有条不紊地开展调查活动,并将已经掌握的情况记录在案,以防止出现重复劳动。

实施解决方案

在将故障根源排查范围缩小到某一特定设备后,应继续判定导致故障的“罪魁”是硬件还是软件。如果属于硬件故障,则应替换存在缺陷的设备或尝试采用备用设备。例如,为排除通信故障,可能需要替换现有网线,直到发现断点所在。如果故障存在于服务器设备,应先替换相关部件(如硬盘驱动器),直到发现设备缺陷所在。如果故障由软件导致,则可尝试运行相关应用并将数据保存到另一计算机,或者在发生故障的系统上重新安装软件。

在某些情况下,这种隔离故障根源的过程同样有助于解决问题。举例来说,如果事故调查工作要求在发现断点之前替换所有网线,那么,更换破损线缆同样属于解决问题的手段。然而,在其它情况下,问题的解决方式可能更加复杂——比如,重新安装服务器应用或操作系统。由于其它用户仍需访问服务器,因此,可能要求暂缓实施故障排除程序,直到网络停用或服务器备份完成。在某些情况下,还可能需要外援(例如,由工程承包商重新布线)。为此,需要制定周密的日程计划,以避免出现工程承包商干扰用户和操作员正常工作的情况。有时可能需要在故障最终得到排除之前采取过渡性解决方案或替代措施(比如,提供备用工作站或服务器)。

测试修复效果

在故障问题得到解决后,应返回整个流程起始处,再次执行当初引发事故的任务。倘若故障不再发生,还应测试与所做调整相关的其它功能,以确保不会在修复一起故障的同时,埋下另一起事故隐患。恰在此时,用于记录归档和故障排除过程的时间才变得富有价值。应准确重复用来重现意外事故的操作程序,以确保用户最初经历的故障已得到根除,而不只是暂时掩盖。如果故障具有间歇发作性质,则应占用一段时间确认事故已得到有效处置。应多次询问用户,以确信故障不会复发。

分析解决方案的潜在影响

务必在故障排除过程中,始终将网络当成一个不可分割的整体,避免将精力过分集中于某个用户、应用或 LAN 所经历的事故本身——这一点非常重要。在某些具体情况下,可能在实施某项故障解决方案的同时,引发更加严重或波及更多用户的故障。举例来说,如果基于 LAN 的用户感觉过高的网络流量已对其所使用的工作站性能造成影响,便可能将其所使用的部分计算机连接到另一个 LAN。尽管这种解决方案有助于缓解用户最初感到的不适,但却可能可能迫使另一个 LAN 发生超载,进而导致比第一个问题更加严重的事故。更加理想的解决方案或许是搭建一个全新的 LAN,并将一部分受到影响的用户转接至新建网络。

编制解决方案文档

尽管我们在这里将编制解决方案文档单独作为一项程序,然而,针对故障处置措施编制文档的过程却开始于用户求援的时点。组织严密的网络支持机构应建立健全意外事件管理体系,将每次故障登记在册,并包含与问题和隔离解决步骤相关的完整记录。在许多情况下,技术支持机构将按专业群体和技术等级划分为若干层次,并以此为单位开展运作。用户求助申请将首先提交给第一个层次;如果故障复杂程度令第一级专业人员无法解决,求助申请就会被上报给由资深技术专家组成的第二个层次。只要整个流程牵涉的所有人员都能将其所从事的活动记录在案,就不会在技术专家移交故障问题的过程中出现遗漏情况。此外,认真记录档案资料还可防止某些人将他人劳动成果据为己有。如需详细了解文档编制过程,请参阅“意外事件管理” SMF 文档。

角色与职责

我们已根据行业最佳实践经验定义了网络管理角色及相关职能。组织机构可能需要根据自身规模、架构以及 IT 部门与业务部门之间订立的基础服务级别协议将某些角色进行合并。

请注意,这些只是角色,而非作业描述——这一点非常重要。小型机构可能让一个人担当若干角色,而大型组织则可能为每个角色组建一支团队。与每个角色相关的职责总结如下。

网络管理人员

网络管理人员主要负责为 IT 应用与服务提供网络通信服务。由于网络伺服对许多种类的应用解决方案至关重要,因此,网络管理人员往往承受着维护并改进数据通信基础架构的强大压力。有鉴于此,网络管理人员必须参与到 IT 设计变更、现有基础架构监控和基础架构故障修复等一系列工作当中。

初级网络技术人员和网络支持技术人员通常可协助网络管理人员履行其所担负的职责。

表1. 网络管理人员职责

角色主要职责

网络管理人员

管理企业所需数据通信服务。

管理包括有线和无线局域网(LAN)在内的物理网络基础架构。

管理基础架构服务器:Active Directory、 WINS、 DNS、 DHCP、 代理、 RAS 和 Internet Security and Acceleration (ISA) 服务器。

负责所需网络硬件购置工作。

参与网络规划、设计、开发、部署和修订活动。

监控网络供应商服务水平。

在确定受控网络活动方面与服务监控 SMF 成员进行沟通。

确保企业范围内的数据通信安全可靠,且具备满足业务需求的容量。

根据需要提供通往企业 LAN 的物理连接方式。

确保通信数据包的高效路由。

定期提供网络性能反馈信息(包括全局信息和特定服务级别信息)。

根据需要提供通过拨号或虚拟专用网络(VPN)技术实现的企业网访问服务。

监控带宽使用情况,分析流量趋势和指标,并判断有关问题的影响。

确保安全标准得到遵循。

网络技术人员

网络技术人员应与网络管理人员密切协作。事实上,网络技术人员经常执行本应由网络管理人员负责的网络例行监控任务。网络技术人员是在网络管理人员指导下实施站点安装任务的具体工作人员。

表2. 网络技术人员职责

角色主要职责

网络技术人员

监控网络供应商服务等级。

侦测来自网络基础架构的警告提示。

根据需要提供通往企业 LAN 的物理连接。

确保通信数据包的高效路由。

定期提供网络性能反馈信息(包括全局和特定服务级别信息)。

监控带宽使用情况,分析流量趋势和指标,并判断有关问题的影响。

确保安全标准得到遵循。

网络支持技术人员

网络支持技术人员应与网络管理人员、意外事件管理人员和问题管理人员保持密切协作。网络支持技术人员负责处置网络意外事故,辨别问题和错误,并制定恢复网络运转的替代方案。

表3. 网络支持技术人员职责

角色主要职责

网络支持技术人员

处理服务请求。

监控意外事件细节(包括受到影响的配置项目)。

调查诊断意外事件和问题(包括可能凑效的解决方案)。

检测可能出现的问题并通知问题管理人员。

针对指定意外事件编制解决和恢复方案。

根据需要在重大事故处置过程中担当恢复团队成员。

针对已知错误采取纠正措施。

网络安全支持人员

网络安全技术人员负责实施保障数据和语音网络免受内部或外部威胁的标准及策略。这些标准和策略应被纳入网络设计方案,并可能包含数据加密、封装与认证特性。网络安全技术人员必须对这些设计特性加以全面应用,以确保数据保密性、完整性和可用性。

表4. 网络安全技术人员职责

角色主要职责

网络安全技术人员

针对入侵检测及其它安全违规活动实施监控和分析。

维护访问列表。

维护防火墙。

语音通信技术人员

语音和数据通信越来越密不可分。事实上,大多数语音通信流量都会在传输过程中的某个节点被转换成数据形式,而 IP 语音(VoIP)电话服务也日趋普及化。

语音通信技术人员主要负责为业务人员和 IT 应用提供语音通信服务。这可能包括将电话安装到办公桌或配备用于计算机拨号访问的调制解调器。

语音通信技术人员还应负责安装维护公司为电话服务中心配备的交互语章应答(IVR)和预拨号系统。

表5. 语音通信技术人员职责

角色主要职责

语音通信技术人员

确保通信基础架构部署就位、运转正常。

安装维护电话、语音邮件及其它通信设备。

安装维护专用分组交换机(PBX)系统。

为入站拨号网络和虚拟专用网络服务安装调制解调器组。

安装维护入站交互语音应答(IVR)系统。

安装维护出站预拨号系统。

外购管理人员

外购管理人员应配合网络管理人员和安全管理人员辨别并化解与供应商和制造商相关的潜在安全风险。

表6. 外购管理人员职责

角色主要职责

外购管理人员

评估合作伙伴针对应用需求提供的解决方案。

协商并控制由合作伙伴关系导致的成本费用。

确定首选和备选服务提供合作伙伴。

行使 IT 采购管理职能。

监控供应商服务提供情况。

与合作伙伴协作优化性能。

评估可能由供应商带来的安全风险,并将这种风险降至最低限度。

审查供应商对安全规章的遵守情况。

在一或多家合作伙伴无法履行合同义务的情况下制定应急预案。

安全审查人员

安全审查人员应与网络管理人员和安全管理人员共同审查为确保网络安全性所开展的工作,并继续评估审查所发现的风险。

表7. 安全审查人员职责

角色主要职责

安全审查人员

审查各类网络安全技术人员工作成果,确保安全管理人员制定的标准得到遵循。

评估审查工作发现的风险可能对企业造成的影响.

与其他 SMF 的关系

随着前瞻性网络管理日益成为计算机环境运转管理的关键核心职能,正确理解此项服务的提供对其它操作运转过程的影响方式也具有越来越重要的意义。以下小节描述了网络管理职能对其它 MOF SMF 的影响以及与其它 MOF SMF 之间的关系。

变更体系

变更管理

网络管理职能应与变更管理职能密切协作,以确保网络变更发布计划不会对当前基础架构产生负面影响。正确理解所有网络基础架构元素之间的协同方式并评估变更发布可能产生的影响属于网络管理职责范畴。

配置管理

配置管理职能包括收集设备当前配置状况并将此后发生的配置调整全部记录在案。网络管理职能应确保网络及其全部组件的当前配置在 CMDB 中得到如实反映,以期使该数据库为网络故障排除过程提供便利。

发布管理

“发布管理”这项 SMF 负责在 IT 环境中确保变更调整得到高效发布。每当有必要以某些方式调整 IT 网络基础架构时,就应确保网络管理和发布管理这两项职能的密切协同。网络管理职能还可能与发布管理负责人和可用性管理负责人开展协作,以确保网络资源可供用于实施覆盖面广、影响重大的 IT 调整发布活动。

操作运转体系

目录服务管理

目录服务涵盖所有用户和系统配置文件。目录服务管理职能将确保对象配置文件得到正确设定和调整,以期达到优化系统功能特性和安全保障的目的。目录服务管理人员应对与其所管辖目录相关的网络需求了如指掌——这一点极为重要。目录复制操作可能导致网络承受较大负载,并应在接受配置时首先考虑适应链接容量需求。在使用 Active Directory 的情况下,应确保此项服务、 DNS 和 DHCP 三者之间形成密切协同关系。与上述三项服务相关的配置和操作过程既可由目录服务或网络管理这两项 SMF 中的一项执行,又可由这两项 SMF 共同执行。

作业调度

在白天或夜间不同时点执行的批处理任务均可能涉及网络管理。这些批处理任务有助于在确保业务和系统功能不受减损的前提下实现系统资源使用状况最大化目标。执行这些任务对网络系统产生的影响应成为制定相关作业调度计划的标准之一。

安全管理

安全保障是网络基础架构的重要组成部分。安全基础薄弱的信息系统迟早会面临安全违规的威胁。安全性遭到破坏的典型实例包括数据丢失、数据泄露、系统可用性降低和数据变质等情况。根据信息系统之间的差异和安全违规的严重程度,网络故障导致的结果包括操作阻碍、收入减损甚至可能付出生命代价。配置不当或保障不力的网络系统可能潜伏着极其重大的安全隐患。网络管理人员必须为网络组件提供适当的物理安全保障,以阻止未经授权的访问调用。网络管理人员还必须熟练掌握切实有效的防火墙配置与维护技能。

服务监控

主动服务监控(SMC)职能对于网络系统的正常运转至关重要。IT 机构可通过 SMC 对网络系统当前健康状况实施监控,并在发生可能影响网络稳定性并导致计划外服务中断的情况下接到警报。

SMC 职能包括对事件日志的分析和对由多种专用工具所收集信息的记录。对这些数据信息的分析可能影响到网络系统或网络硬件升级扩展决策,进而对系统可用性、稳定性、容量和成本产生重大影响。

系统管理

系统管理职能负责定义由组织机构使用的管理模式。某些组织机构倾向于采用这样一种管理模式——基于单一站点执行所有 IT 功能,并由一支 IT 专业团队围绕该站点集中开展管理活动。而其他组织机构则更倾向采用分布式分支机构模型(技术和支持团队成员在地理位置上相对分散)。系统管理职能将考虑在每种模式之间进行权衡。每种系统管理模式均具有独特的网络需求。随着系统和人员越来越处于高度分散状态,网络负荷与网络可靠性需求也变得日益重要。

存储管理

存储管理负责处理用于数据还原和历史存档的站内和站外数据存储。存储局域网和远程磁带备份等技术手段可能导致网络系统承受巨大压力。网络管理职能应为网络高度依赖的一切技术手段提供专用网络链接。

支持体系

意外事件管理

“ 意外事件管理”这项 SMF 负责处置整个 IT 基础架构中发生的事故和用户问题。网络故障排除人员应与意外事件管理人员密切协作,共同判别、诊断并处置 与网络系统相关的意外事件。

问题管理

当波及多个系统的特定问题在网络中发作时,网络管理人员应与问题管理人员密切协作,以正确判断问题成因并提供相关解决方案。

优化体系

可用性管理

可用性管理是网络管理最为关注的职能。一旦网络资源不可用,整个企业都可能陷入瘫痪。网络管理职能应与可用性管理职能密切协作,共同实现冗余网络链接等技术手段,以最大限度地确保网络资源可用性。

容量管理

容量管理职能负责在当前系统资源使用率提高并接近满负荷状态时制定资源增补计划。收集此类信息并利用它们做出网络资源升级、扩展或收缩决定属于容量管理职能范畴。

基础架构工程

基础架构工程这项 SMF 负责与其它相关职能共同开展 IT 标准与策略的整合管理任务。网络管理人员应与基础架构工程人员密切协作,针对网络设备及其它相关硬件制定技术标准,并开发标准设计与扩展体系结构。

IT 服务连续性管理

网络管理职能应协助开展应急计划的制定与测试工作(不仅包括硬件和软件故障,而且涉及配套设施损毁)。上述任务既包括采购并安装备用网络硬件,又包括指定可供在基础架构遭受灾难性破坏情况下使用的应急配套设施。


返回页首返回页首上一页第 9 页,共 21 页下一页
**
**