Homepage
 
查询
中国
技术A-Z 
Extreme的网络冗余恢复技术

 

  电信网络的应用需求极为苛刻的可靠性,要求数据支撑网象公共交换电话网一样高度可靠。容错能力和冗余性已经成为区分网络设备的关键因素。

 

  即使在网络组件发生意外故障,以及进行计划内网络升级和变动时,高可用性网络都必须能够保持正常运行。冗余性在这两种情况下为网络提供了保护能力。通过消除单一故障点,网络设计人员可以为关键事务型应用构建高度容错的网络。

 

  但是,高可用性不仅仅要求冗余的硬件。网络还必须拥有智能,可以实现最优的冗余组件利用率。网络软件必须考虑网元故障对第二层和第三层协议的影响,因为正是第二层和第三层协议实现了网络内部的通信。

 

  爱立信为关键事务型应用同时提供了高度容错的网络所要求的硬件冗余和软件智能。

 

物理冗余

 

  每台BlackDiamond机箱交换机从一开始就体现了高可用性网络战略。BlackDiamond交换机的所有关键组件都进行了冗余设计,保证了即使一个组件发生故障,整个交换机仍能继续运行。这种冗余性包括电源冗余和交换阵列冗余。

 

双分载电源

 

  Extreme的BlackDiamond机箱交换机配有负载分担的双电源。每个电源都拥有足够的容量,可以为整个机箱供电,但在正常运行过程中,每台电源都分别提供一半的所需电流。

 

  另一个主要优点是,每个电源都可以连接到物理上单独的供电装置上。大多数数据机房至少会连接两条单独的供电电路,因为供电装置发生故障的概率要超过电源。有些竞争对手的产品配有N+1电源,这在一定程度上提供了冗余性,但这种方法的问题在于,单个电源不能保证为整个机箱供电。因此,如果一条输出电路发生故障,那么它会导致设备停止运行,或者停止为设备中的某些I/O模块供电,进而导致不可预测的“部分停止供电”的情况。

 

冗余交换阵列

 

  交换阵列是交换机运行的基本单元,因为它处理端口之间的报文流量。由于交换阵列对交换机的运行非常关键,因此BlackDiamond交换机设计了完全冗余的交换阵列。

 

  Extreme冗余交换阵列的一个独特功能是,在正常运行过程中,两个交换阵列都是完全活动的,交换机同时使用一级阵列和二级阵列处理数据流量。这种方法的优点是,交换机一直使用二级交换阵列。如果一级阵列发生故障,无疑二级阵列可以立即接管任务。

 

 

  在BlackDiamond机箱中,一个阵列可以为每个I/O插槽提供四条信道,每条信道的带宽在全双工模式下是1 Gbps。通过增加第二个交换阵列模块,每个插槽的信道数量可以翻一番,从每个I/O插槽四条信道提高到八条。

 

  如果一级交换阵列发生故障,交换机将执行软重新引导,在另一个交换阵列上继续保持运行。如果二级交换阵列发生故障,那么一级交换阵列将自己处理所有流量,并通知管理系统二级交换阵列已经发生故障。二级交换阵列发生故障时,不要求软重新引导,其导致的中断时间为零。

 

  BlackDiamond交换机的交换阵列可以随时方便地更换,在交换机背板上没有任何有源组件。因此,有源组件(如ASIC或微处理器)发生故障时,不会导致交换机停止运行或以不可预测的方式运行。竞争对手的产品使用纵横制交换阵列,其中包括有源组件。这些设备包含了非常复杂的ASIC,在过热或其它条件下可能会发生故障,进而导致需要更换设备的整个底板,更不要说设备完全发生故障了。

 

可带电热插拔的模块

 

  BlackDiamond中的所有模块,包括交换阵列,都可以带电热插拔。因此用户不需重新引导或重新设置交换机,就可以更换模块,而且更换一个模块不会影响任何其它模块的操作。在交换机组件发生故障或在交换机配置变化时,可带电热插拔的组件使得网络仍能继续运行。

 

爱立信 配线间解决方案

 

  物理和机械冗余对构建可靠的网络非常关键,但硬件组件的可靠性只是一个开端。BD6808交换机还包括多种增强了第二层容错能力的特性。

 

链路聚合

 

  链路聚合 (或负载分担)是另一种提高了可靠性和性能的第二层冗余特性。    Extreme的链路聚合基于的IEEE 802.3ad标准。这种功能允许把多达8条物理链路合成一条逻辑链路。链路聚合的主要优点是,如果物理链路发生故障或从服务中移出,它可以提供不到一秒的超快速故障切换能力。

 

  链路聚合还具有另外一个好处,可以全面利用最多八条链路的带宽,因为流量分布到所有链路中。这一特点同时提高了网络的性能和可靠性。您还可以在各种算法中进行选择,把流量分布到多条链路中。可以基于端口、第二层到第四层会话地址信息或循环标准分布流量。

 


     链路聚合汇聚八条链路的带宽为一条逻辑链路

 

生成树

 

  生成树是业内标准第二层协议,它提供了一个冗余的无环路拓扑结构。在交换机启动生成树协议时,每个端口都处在下述两种模式中的一种模式下,即转发模式和阻塞模式。在生成树中的链路断开时,将计算新的生成树,交换机端口将按需改变状态,创建恢复全部连接的新的生成树。

 

  BD6808交换机可以支持最多64个生成树进程。这远远超过了大多数现代网络的要求,因为大多数网络一般使用其它技术(如第三层路由)来构建容错网络。BD6808交换机实现方案的另一个特点是使用生成树“域”,其中可以使用一个生成树进程同时保护多个VLAN。这降低了运行“每个VLAN一个生成树”实现的开销,可以实现灵活得多的配置。

 

  生成树的主要局限性是收敛慢。在链路故障之后,网络可能需要30秒收敛。此外,它没有有效地利用带宽,因为阻塞的链路不能用来承载流量。相比之后,作为真正路由技术的第三层交换则全面利用了网络带宽。基于这些原因,爱立信建议客户采用其它技术提供容错能力,如在相应的地方采用第三层路由协议、链路聚合或备用路由器协议(VRRP/ESRP)。

 

Extreme备用路由器协议

 

  ESRP是Extreme独有的一种功能,它提供了第二层和第三层冗余的统一实现。这消除了冗余交换机/路由器实现技术最常见的问题,即通常要求单独的第二层和第三层解决方案,如生成树和VRRP。可以在没有起路由的情况下使用ESRP的第二层冗余,作为生成树的有效替代方案,因为其故障切换时间在2-6秒之间,要远远快于生成树。本文后面更加详细地介绍了ESRP,可以在纯第二层环境中使用ESRP,或者与第三层交换一起使用ESRP。

ESRP同时提供了第二层和第三层的冗余,而避免了采用解决方案,如生成树和VRRP.

虚拟机箱模式或第二层集群(Clustering)

 

  这种功能可以集群交换机作为一个“机箱”,同时在这些交换机之间使用多条双归千兆位链路。“核心”可以使用多个VLAN,具有智能交换和环路防止功能。

 

第三层冗余

 

  第三层网络的一个主要优点是,报文沿着多条路由转发,这些路由动态更新,以反映当前的网络拓扑。如果发生故障,网络会自动迂回流量,绕过故障设备。路由协议发布动态的拓扑更新信息,并在网络状态变化时自动更新路由器和交换机。BD6808交换机支持业内标准单点广播路由协议,包括路由信息协议(RIP)、开放最短路径优先协议(OSPF)、针对外部边界网关协议(EBGP)和内部边界网关协议(IBGP)的边界网关协议第4版(BGP4)。为实现第三层IP多路广播流量冗余,它还支持DVMRP、PIM密集模式和PIM稀疏模式。

 

  在使用BD6808交换机时,使用这种第三层功能时不会导致任何性能下降。BD6808交换机可以象第二层交换一样,线速实现路由转发。

路由信息协议

 

  RIP是一种早期业内标准路由协议,可以用来构建小型IP网络。它还可以兼容支持RIP的传统设备。RIP的主要局限性是,在网络拓扑发生变化后,其收敛很慢。有时它需要长达两分钟,才能完成采用RIP的网络收敛。

开放最短路径优先(OSPF)

 

  OSPF是一种比较现代的链路状态路由协议,它在一个IP域(也称为自治系统)内部的路由器之间分配路由信息。在使用链路状态路由协议时,每台路由器维护一个数据库,描述自治系统的拓扑结构。每个参与路由器都拥有一个完全相同的、从该路由器角度维护的数据库。

 

  从链路状态数据库中,每台路由器构建一个最短路径树,并把自己作为树根。最短路径树提供了到达自治系统中每个目的地的路由。当存在到达一个目的地的多条等成本路由路径时,可以在这些路径之间分配流量。每条路由的相对成本都使用单一的量度进行说明。

 

  除多厂商互操作能力外,使用OSPF构建容错网络还提供了许多其它优点,如快速收敛、等成本多路径(ECMP)路由和分层设计方法。

 

  OSPF在发生故障后迅速收敛。它从OSPF链路状态数据库中计算每台路由器的路由表。在稳定的网络中,更新信息以预定的时间发送,但在网络中发生变化时,链路状态表会通过扩散立即进行更新。这保证了每台路由器都具有精确的区域视图。路由器状态变化或相邻链路状态变化等事件都会触发更新。

 

  如果网络配置正确,OSPF的收敛时间低于一秒。

 

等成本多路径

 

  OSPF的另一个优点是,它可以用来实现等成本多路径(ECMP)路由,这种路由方法在等成本的多条路径之间分配流量。这是一种有效的路由机制,它同时使用多条路径,提高了网络性能。如果一条路径发生故障,流量将重定向到迂回路径上。


 

  OSPF可以用来实现等成本多路径(ECMP)路由,这种路由方法在等成本的多条路径之间分配流量。如果一条路径发生故障,流量将被导向到另一条路径上。

 

  最后,OSPF的分层设计允许把网络的不同部分合并成区域。链路状态数据库和拓扑更新可以在本地完成。这明显降低了链路状态广播流量,减少了维护路由表所需的计算。此外,由于拓扑信息保持在区域本地,因此一个区域中的网络问题不会影响其它区域。


 

冗余路由器的智能管理

 

  在具有冗余路由器的第三层网络中,主机系统必须一直知道其连接的路由器的状态。IP主机使用默认网关路由器,与其它网络、子网或VLAN中的主机通信。由于网关的故障会把主机与网络其余部分隔离开来,因此关键事务型网络应该配备冗余的网关。但是,简单地增加另一台网关是不够的。网络必须拥有相应的智能,可以使这些网关发挥最大的优势。网络软件必须先确定哪台路由器将提供最高的服务水平,然后动态地把主机连接到该网关路由器上。

 

  在存在冗余网关时,主机必须能够确定当前活动网关的IP地址。其中一种方法是主机使用一种协议,如ICMP路由器发现协议 (IRDP)、路由信息协议(RIP)或代理ARP,动态地发现路由器。尽管Extreme支持所有这些方法,但这些方法也具有一定的主要局限性。大多数主机没有实现这些协议,即使实现了这些协议,其从一级网关到备份网关的收敛速度可能也非常慢。

 

  绝大多数主机以静态方式或通过使用动态主机配置协议(DHCP)配置默认路由器的IP地址。为了把路由器冗余的优点扩展到这些主机上,在路由器发生故障时,路由器本身必须透明地处理从一级系统到备用系统的切换。目前有多种解决方案来协调路由器故障切换,包括Extreme备用路由器协议(ESRP)、虚拟路由器冗余协议(VRRP)和热备份路由协议(HSRP)。

 

  通用方法是把两台或多台路由器作为单一的虚拟路由器操作,并采用单一的IP和MAC地址。然后,主机配置虚拟路由器的IP地址,而不是物理路由器的IP地址。这种虚拟路由器地址一直分配给当前活动的物理路由器。

 

ESRP与VRRP和HSRP对比

 

  VRRP是一种草议的IETF标准,把一组路由器作为一台虚拟默认网关操作。VRRP和HSRP具有类似的功能,其主要局限性是,它们的最初设计目标都是为了支持老式共享局域网环境,而不是当前的交换式局域网基础设施。

 

  HSRP还包括扩展协议,以弥补软件路由器的性能局限。它允许路由器同时配置成一级路由器和二级路由器。某些客户机把一台路由器配置成默认网关,其它客户机则指向另一台路由器。这就可以在两台路由器之间均衡负载,但它也加大了客户机管理的复杂性。BD6808交换机不必采用这种手动负载均衡方式,也不必承受这种管理负担,因为它们以线速进行路由。

 

下图比较了共享式传统局域网与交换式网络。

  传统网络通常使用复杂的冗余解决方案,如VRRP和HSRP。当前的交换式网络则使用智能交换机和路由器,可能要求多个路由器端口连接一个子网。当前网络通常使用双归配置来提供高可用性,消除单一故障点。

 

  VRRP假设如果连接到一个子网的任何链路处于活动状态,那么路由器就可以接入整个子网。尽管这种假设可能适用于传统共享式局域网,但在交换式局域网中则会导致决策偏差。在本例中,连接到左边交换机上的主机与网络隔离开来。这一子网中一半的主机现在不可达,但VRRP没有启动切换到连接整个子网的备份路由器。

 

  在发生链路故障时,Extreme的ESRP可以作出更好的决策。ESRP基于VRRP,但它包括某些扩展内容,因此能够在当前的交换式网络中作出更加智能的故障切换决策。

 

  一项重要的ESRP扩展是计算ESRP VLAN中的活动链路数量,根据这一指标确定一级/备份状态,并一直把连接链路数量最多的设备作为主设备。在这种情况下,ESRP将确定备份路由器是否有更多的连接VLAN的活动链路,并启动到备份路由器的切换。这一决策将保持与整个VLAN的连接。ESRP的故障切换时间非常短,在2-6秒的范围内。

 

  ESRP还可以根据一组交换机学到的路由的是否存在的状态,或路由器上连端口的活动状态,作为作出故障切换决策的依据。在目前的主用路由器上发生上连故障时,ESRP会切换到有活动上连链路的备份路由器。

 

  即使在备份模式下,VRRP路由器仍宣告下连的子网的存在。在本例中,链路故障把部分主机从备份路由器隔离开来。但是,由于路由器继续宣告该子网,因此它可能会收到其不能转发的到这些主机的流量。

 

  ESRP表现出高得多的智能,它“理解”路由器没有活动的原因可能是因为它只是部分连接子网。只有活动的ESRP路由器广播自己的子网,从而最大限度地提高入口流量成功转发的概率。

 

  由于冗余性要求经常变化,因此ESRP还通过配置在确定ESRP故障切换时使用哪些条件及这些条件的优先次序,来提供灵活性.

 

  ESRP VRRP HSRP
第三层冗余路由器
第二层冗余/环路防止
自动抑制备份路由器广播
跟踪VLAN上连端口
下连的交换机“识别”故障切换
可以配置和故障切换标准的项目优先次序

    BD6808交换机的ESRP提供了卓越的冗余性和故障保护

 

  把ESRP与VRRP和HSRP区分开来的另一个主要特点是,还可以在没有路由时使用ESRP。ESRP具有内置的第二层冗余,它可以作为生成树替代方案使用,在使用默认参数时的收敛时间为5-8秒。还可以在纯第二层环境中采用ESRP,在一级第二层交换机发生故障时提供备份第二层交换机。这一故障切换时间非常短,要远远快于生成树协议。

 

  冗余配置的另一个主要要求是在故障切换时正确处理下连第二层交换机的子网内部流量。通过完全采用Extreme实现方案,下行第二层交换机可以“意识到”已经发生了上行ESRP故障切换。如果没有这种功能,下行交换机将继续把子网内部流量转发到错误的目的端口,直到第二层转发数据库计数器到期(一般为5分钟)或刷新。所有Extreme交换机中都内置“ESRP识别能力”,可以自动检测上行ESRP故障切换,正确转发所有后续的子网间和子网内部流量。

设备管理冗余

 

  在构建冗余网络的过程中,网络内部设备的管理和配置及其交互也同样非常重要。所有Extreme交换机可以包括两个单独的配置和两个单独的软件映像,以在网络移动、增加和变动过程中平滑地实现过渡。在配置或升级发生问题时,用户可以迅速恢复原来的配置。以下特点也有助于实现配置管理:

 

· 基于ASCII的可读配置文件
· 自动定时配置上传
· 下载递增的配置变化,而不需重新引导系统
· 为多个/冗余的Syslog、RADIUS、SNTP和DNS服务器提供客户端支持
· 本地和远程(Syslog)日志记录所有配置变化


 

  爱立信的方案为构建电信级网络提供了必要的冗余性。这种冗余性扩展到网络的各个层。冗余组件提高了每台交换机的可靠性,ExtremeWare软件包则提供了必要的路由协议和标准,可以在第二层网络和第三层网络中智能化地使用冗余交换机。

 

  基于Extreme交换机的网络不仅具有自愈能力,而且由于它们收敛快,因此在发生中断时,用户通常意识不到出现中断。