由于有多种方式来提高系统的可用性,但每种方式又各有利弊,因此设计者往往需根据用户的实际可靠性与可用性的要求选择不同的解决方案 。这也取决于系统的需求:硬件的容错方案往往运行速度较快但投资规模也大,软件容错方案可能占用系统开销,但比硬件方案更灵活,尤其是在系统已经建立起来之后,并且投资小 。本文所介绍的容错系统就是利用浪潮英信服务器可靠性平台和Western Micro的专用技术,通过软件方式,而不借助阵列柜或其它专用硬件来实现系统容错,达到提高系统可用性的目的 。
设备选型
在本方案中,我们使用浪潮英信服务器——网通NL300,这是因为该款服务器具有如下鲜明的特点,特别是在可靠性、性能、扩展性方面都有出色的表现:
采用最新的Intel Pentium Ⅲ Xeon处理器,性能出色,可靠性高,可扩展性强 。同时采用业界先进的系统体系结构,包括133MHz SDRAM、64-bit/66MHz PCI、和最新的FSB为133MHz的Intel Pentium Ⅲ Xeon处理器,提供了两路服务器所能提供的超强性能 。
除了超强的性能以外,为了保护用户的投资,使得服务器能够随着用户业务的增长而不断的提升性能,网通NL300预留了充足的内部扩展能力:系统一共以提供16个存储槽位,其中包括9个热插拔硬盘槽位,满足用户不断增长的存储要求;系统提供了6个PCI插槽和一个ISA插槽,并且支持最新的64位PCI技术,可以安装高性能的扩展卡,满足您不断提升的性能要求;另外,内存可以扩展到4GB,并支持两路处理器 。最大限度的保护投资 。
此外,为了保证用户关键业务的稳定运行,网通NL300提供了极高的可用性,包括ECC内存、热插拔硬盘、热插拔电源和故障预测技术 。拥有了以前高端计算机才拥有的特性 。
系统平台
浪潮网通NL300服务器两台(可以是不同配置,配置双网卡);
SCO Unix操作系统两套;
数据库系统一套;
SavWareHA软件一套;
RS232串口线、CAT5类直连(NO HUB)网线各一根 。
通过上图我们可清楚地看到两台服务器各自配备双网卡,它们各自通过其中一块网卡接入公共网络,通过这个连接向网络中的其他客户提供服务 。而另一对网卡用于它们之间的互连,这条通道就是在两台服务器之间进行大量数据传送的专用通道,它负责两台主机之间同步数据的传送工作;而串口线在两台机器之间传递心跳信号,用于检测服务器的状态,以判断是否进行业务以及主机地址的接管 。
系统工作过程
1) 自动侦测(Auto-Detect)阶段:
由服务器上的软件通过侦测线,经由复杂的监听程序 。逻辑判断,来相互侦测对方运行的情况,所检查的项目有:
服务器硬件(CPU和周边);
服务器网络;
服务器操作系统;
数据库引擎及其它应用程序;
为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,侦测次数以调整安全系数,并且由服务器之间的专用通信连线,将所汇集的讯息记录下来,以供维护参考 。
2) 自动切换(Auto-Switch)阶段:
如果备机确认对方故障,则它除继续进行原来的任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服务 。
【UNIX平台廉价双机容错方案】3) 自动恢复(Auto-Recovery)阶段:
在备机代替故障主机工作后,故障服务器可离线进行修复工作 。在故障修复后,透过专用通讯线与备机连线,自动切换回修复完成的服务器上 。整个回复过程完全可由SavWareHA自动完成,亦可依据预先配置,选择回复动作为半自动或不回复 。
推荐阅读
- Unix系统安全必读
- Tru64 UNIX系统磁盘备份与恢复
- UniX技术 AIX实战经验
- 使用 UNIX 进行文本处理
- 如何移动UNIX目录
- SCO UNIX基础讲座--第五讲:电子邮件
- SCO UNIX基础讲座--第六讲:後援复制
- 在sco 5.0.5中定时运行程序
- SCO UNIX 5 的引导过程
- UNIX系统下各文件的作用
