全部博文(346)
分类: 系统运维
2010-01-22 13:56:07
1、 概述
近年来,电信运营商增值业务经历了从无到有、从弱到强、阶梯式、跨越式的发展历程,增值业务种类齐全,包括点对点短信业务、语音增值业务、WAP浏览类业务、下载类业务、流媒体业务、定位业务、彩信业务等在内较完善的增值业务体系已经形成,增值业务已经从附属业务发展成为市场规模巨大的基本业务。
随着增值网络规模不断扩大,设备数量急剧增加,市场竞争的日益激烈,对增值网络管理提出了更高的要求。如何快速了解全网增值网络的运行状况,预先掌控并及时解决增值网络中出现的问题,缩短故障处理时间,提高工作效率,保证客户服务质量,提高客户满意度,是增值网络运营中面临的迫切问题。
移动增值业务运维支撑系统实现增值业务网络、业务体系的统一监控管理,同时支持日常运维管理及网管数据综合分析等功能,解决了电信运营商日常对增值业务系统网络运行监视、业务运行质量监视等缺少集中管理手段的问题。
2、 总体方案
2.1 、系统结构
2.1.1 、功能结构
如上图所示,移动增值业务运维支撑系统划分为四个子系统,一个对外接口模块,包括:
综合监控管理子系统
用于完成拓朴展现、性能管理、配置管理、业务管理、日志管理、告警管理、统计分析等功能,主要是对监控手段提交上来的数据进行处理和展现,是整个增值运维支撑系统的核心。
综合分析子系统
完成各种报表生成功能,同时根据基础数据实现网络数据、业务数据以及用户数据的分析,为系统优化、扩容提供依据,为上层领导决策提供支持。
综合维护子系统
综合维护子系统是对运维工作提供支持的工具集,提高增值业务设备管理、IP地址管理、局数据管理和拨测等日常维护工作的效率。
系统自身管理子系统
面向运维支撑系统自身的管理功能,含安全管理和系统管理模块。
2.1.2 软件结构
整个系统软件结构总体上分为三层:功能展现层、数据处理层和数据采集层。各层模块之间通过数据总线以及消息总线相互连接,消息总线采用天元公司为网络管理应用度身定做的网络管理系统中间件解决方案MetarPlat DPP,数据总线采用天元公司自主开发的UDBC数据库平台。消息总线负责传送实时性数据和交互的命令,数据总线传送非实时性和大量数据,两种方式通信的结合从性能和效率上两个层面保证了系统软件结构的合理性。另外MetarPlat DPP平台支持即插即用的软件模块配置方式,使得系统具有很强的扩展性与开放性,这种特性可以在后期方便地纳入新的管理功能模块,而系统整体架构不会变化。
2.2 关键技术方案
2.2.1 高效的话单分析
天元网络基于多年对业务网络运维管理的经验,对话单数据的处理分析提供了高效的解决方案,方案中有2大技术特点:
(1) 话单批量入库
在话单数据的处理过程中,根据话单数据的特点,在数据分析处理中和其他数据处理模式不同,并不直接按照单条分析入库,而是采用先将原始话单文件批量记录在摈弃异常数据后归一化到标准的数据库可接受的文件格式,再采用批量数据文件导入方式一次导入数据库,以减少对数据库频繁访问,提高话单数据的处理效率。采用批量入库的方式,虽然从逻辑上增加了单条话单分析的环节,但是从批量分析,有效减少了对系统资源的使用,使数据库负荷大为减少。
(2) 基于内存数据库的话单监控
由于话单数据可以实时并真实反映业务的运行状况,对话单数据进行有效的监控可以支持网络运维人员在第一时间发现业务运行的异常,如对于异常非法短信的话单监控可以及时定位发现垃圾短信的来源,以采取有效措施解决,避免影响业务的服务质量和客户的满意度。对话单数据的状况监控需要基于一定时间范围内的话单数据进行统计分析,采用传统的数据库方式无法满足大量话单的处理需求。在系统实现时,我们基于内存数据库缓存有效的话单数据并根据设置的业务规则对话单进行实时的分析和处理,可以满足对话单数据的监控需求。
2.2.2 数据采集管理机制
数据采集是所有网管应用的前提,数据采集主要包括数据的收集、数据整理和数据预处理(如过滤、对照、丰富等)。为了保证数据采集的完整性和准确性,基于多年网管工程建设和服务经验总结,系统提供了灵活的数据采集管理机制,可以有效支持数据采集的灵活调度和数据状态的过程完整监控。
天元网络采用多层结构完成数据采集工作,包括数据采集层、数据分析汇总层、数据核查层和进程调度监控层,如下图所示。
天元网络接口数据采集方案中,采用自行研制的分布式消息平台作为稳定的通信平台,保证了数据采集->分析->汇总->核查->补差等一系列工作的稳定和快速。对于不同厂商的不同接口方式,系统可配置插件以灵活支持,当厂商的接口发生变化时,只需要开发相关的厂商插件,无需对系统主程序进行修改。
同时天元网络接口数据采集方案中富有创新性的是其强大的系统调度和监控能力。通过系统调度和监控,可以支持:周期和手工发起数据采集;
(1) 数据采集的粒度、深度可控;
(2) 系统的监控功能分布在数据处理的各个环节,对各个环节的数据都可以进行监控,通过检查随时发现存在的问题,并通过系统调度功能自动及时合理地进行重采,保证了数据问题的及时解决;
(3) 对系统内部故障及时发现,并且通过短信方式通知相关人员,将问题刚刚出现在萌芽状态时即进行解决。
3 系统功能
3.1 综合监控管理
监控管理平台负责完成对增值业务网络的实时监控和管理,实时收集网络的告警信息、性能数据和配置信息,提供面向业务和面向网络的拓扑视图显示。
3.1.1 业务监控
系统能够实现对移动增值业务如短信、WAP、彩信、炫铃等各移动增值业务的监控管理。
3.1.2 拓扑管理
拓扑管理提供基于拓扑视图和资源树图的管理功能,包括拓扑视图和资源树图的呈现、关联,拓扑监视和拓扑图操作等。
拓扑管理能够动态、实时显示增值网络的运行状态,包括网络资源的配置监视、告警监视和性能监视以及网络上的数据流量和流向等,用户可直观的了解资源的配置和状态情况。同时,在相关视图上提供丰富的操作,用户可直接对相关资源进行管理工作,即所见即可操作,拓扑管理为用户提供了友好便捷的管理方式进行相关资源的管理工作。
3.1.3 性能管理
性能管理主要分为性能数据采集、性能任务管理、性能数据处理、门限表管理、性能数据存储、性能数据统计分析及性能报表系统。
性能管理在数据采集、越门限数据处理及预警发布三个方面与系统中的其他模块协同完成。其中通过数据采集模块与适配层软件通信,实现性能数据的从设备厂家网管采集的功能;在性能数据处理过程中如果发现性能数据越门限,将触发相应告警。
系统提供从不同的角度展现性能数据的功能,可分为性能数据实时监视、性能数据查询、性能趋势分析比较以及性能统计报表。
(1) 性能数据实时监视
系统提供在拓扑图上对选中的网元的实时性能数据进行监视的功能,实时性能数据的更新周期依赖于性能数据采集中设置的该对象的性能采集周期。
性能数据实时监视的界面如下图所示。
(2) 性能数据查询
用户可以通过指定查询对象、时间以及性能指标的范围来查看对象的历史性能数据,系统支持对查询结
果的排序及导出。性能数据查询界面如下图所示
除此之外,系统还支持对性能数据的处理后查询,可编辑性能数据的计算公式模板,根据该模板对特定数据集合进行查询。
(3) 性能趋势分析比较
运维支撑系统提供性能数据的图形化分析功能,支持采用区域图、折线图、柱状图等直观的形式来呈现管理对象的指标变化趋势。如下图所示:
(4) 性能报表
系统可根据采集到的性能数据,对网络性能、主机性能、业务性等进行性能指标按特定规则进行分析,自动生成系统性能报表。
3.1.4 配置管理
配置管理主要完成对配置信息的采集、录入和处理等管理功能。配置数据信息的获取可以分手工录入、从网元直接采集和从业务系统中采集等方式。通过采集后的更新,配置数据能够实现与业务和网络信息变化实时同步或准实时同步。
3.1.5 告警管理
系统提供强大的告警管理功能。运维支撑系统实时采集被管对象的告警信息,通过告警预处理将非关注的告警过滤,压缩重复的告警并重定义相关告警级别后,将真正有用的告警信息以列表、视图、声音等形式呈现给运维人员。告警管理提供告警前转功能,将重要告警信息通过电子邮件和短信息的方式及时告知相关运维人员,此外,告警管理还提供了功能强大,设置灵活的查询功能,包括对活跃告警和历史告警的查询。
3.1.6 日志管理
日志管理主要包括四大类功能,分别是日志采集;日志处理;日志查询、统计和分析;日志的集中存储和备份。
3.2 综合维护管理
3.2.1 IP地址管理
系统对整个增值业务网中IP地址资源进行管理,管理对象包括:网段、子网、IP地址。功能包括资源管理和监控两大部分。
3.2.2 局数据管理
系统能够实现标准局数据导入、维护,实际局数据采集、分析、核查等功能。
3.2.3 集中操作维护
集中操作维护终端为操作维护人员提供统一的操作界面,在一点集中接入各点、各厂商设备,提供对设备集中操作、日常维护的可靠通道和有效的安全管理,为用户方便、高效的访问设备提供各种支持,保障集中监控、集中维护、集中管理的顺利实施.
3.2.4 自动巡检
自动巡检子系统完成对设备周期性巡检任务的自动执行和结果分析,可以实现对维护作业计划的实例化工作,细化维护作业任务;自动执行大部分的维护作业计划,将维护人员从大量的重复劳动中解放出来;通过巡检报告和巡检报表等方式,形成设备和业务系统运行情况的履历卡;将厂商提供的维护方法和运维人员总结的运维经验固化在系统中,从而不断完善运维手段,一方面固化经验,另一方面减少人员流动对系统维护的影响。
3.2.5 自动拨测
自动拨测系统硬件设备主要由拨测服务器、Web服务器构成。系统数据和系统安全、用户权限在增值业务综合运维支撑系统中管理。自动拨测系统同时通过无线接口进行SP和点到点业务的拨打测试。
3.3 综合分析功能
3.3.1 综合报表统计分析系统
报表是运维支撑系统最常用的信息呈现方式。报表系统具有灵活的报表定制、自定义、定时生成和定时发布的功能。报表管理包含配置、性能、告警、业务等各类报表。
3.4 自身管理
实现运维支撑系统用户、权限、审计等管理功能,支持运维支撑系统本身设备配置、设备监控功能,提供日志管理、系统数据备份与恢复、系统帮助等功能。
3.5 对外接口
对外接口模块提供与总部网管(上传运维指标)、总部电子运维故障派单以及和其他管理系统的接口。