關于全光網生存性的問題及其解決方法

——

作者：王健全顧畹儀時間：2008-01-23 來源：vlan9.com

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　由于OXC、OADM的出現(xiàn)，使得聯(lián)網不僅能在業(yè)務層進行，光層的聯(lián)網也變成現(xiàn)實。如何控制和管理網絡就變成一個非常重要而且相當棘手的問題。由于現(xiàn)在所有的光器件都是電控型的，所以如何在光層之上構造一個合適的控制平臺就成了問題的關鍵?，F(xiàn)在國際上的四大組織作的各種草案，雖各有差異，但基本的思路都是相似的。他們總的思路都是以IP為核心，借用IP網中的流量控制（TE）、IS-IS、OSPF、RIP、RSVP等一系列協(xié)議,并在原協(xié)議的基礎上進行擴展和修改來達到控制光網絡的目的，而且將信令網（控制平臺）與業(yè)務網相分離（最起碼是邏輯上的分離）。

　　光層的聯(lián)網畢竟不同于電層，而且現(xiàn)在要做的不僅僅是單粒度的控制和調度，而是立足于小到一個分組、TDM、ATM業(yè)務，大到光波長、光纖級的多粒度調度和分配。所以控制平臺或者說是信令網的構造不僅僅是涉及到一個層面的問題，而是涉及到幾個層面，既要向前兼容，又需向后兼容；既要保證光網的大容量、可平滑升級擴容以及強壯性，又要保證業(yè)務的QoS和CoS。要實現(xiàn)這樣一個功能強大的、綜合的信令網，有很多問題值得仔細研究。

故障檢測和定位

　　故障檢測和定位的大目標首先是為快速準確地實現(xiàn)保護倒換和業(yè)務的恢復，其次是為了整個網絡的管理和維護。

　　由于到目前為止，光域上能夠準確檢測的參數(shù)只有光功率、光信噪比（OSNR）和中心波長，而像誤碼率、LOS、LOF這類參數(shù)只能在電域檢測。由于故障檢測是實現(xiàn)自愈的第一步，而且保護倒換和路由的恢復都有嚴格的時間要求，所以故障檢測不僅要求準確，而且要求快速。

　　故障的定位是實現(xiàn)保護倒換和路由恢復的第二步，是至關重要的一步，要實現(xiàn)自愈，必須實現(xiàn)故障的快速和準確定位。因為只有確定了故障的具體位置，才能進行網絡的保護和恢復以及進一步的業(yè)務配置，如果一個網絡不能進行精確的故障定位，那么網絡的生存性就不會得到保證。

　　但是由于故障的傳遞性、檢測機制的不完善性以及故障檢測與故障傳遞之間的時差的原因使得故障的定位在光網絡中成為一個難點。當在一個網絡中發(fā)生光纖斷裂和節(jié)點掉電等收鮮保喙氐慕詰愫圖觳獾憔婢?SPAN class=GramE>即情況往往是一處發(fā)生故障，網絡中多處產生告警，所以必須知道全網的信息（包括配置和業(yè)務信息），才能精確地進行定位。當然這也不是不可逾越的困難，故障的定位除與節(jié)點自身的功能緊密相關外，還與信令的傳送方式或者說信令網總的控制方式直接相關。一般而言，只有在知道全網的信息的情況下才能實現(xiàn)故障的準確定位，但是由于故障的發(fā)生是帶有偶然性的，也即各節(jié)點收到的信息是突發(fā)性的，不能拿一般的馬爾可夫理論進行分析，即不屬于一般的M/M/X排隊模型，而是屬于D/M/X模型，如果每個節(jié)點（分布式控制）或者說主節(jié)點（集中式控制）需要收集所有故障信息來處理，那么不僅要一套復雜的算法，而且節(jié)點處理該信息時必須合理考慮故障傳遞與信息傳遞的時差問題，這樣就增加了實現(xiàn)的復雜度，而且也難以滿足時效性的要求。

　　解決方法：對于分布式控制的網絡，采用分布式定位的方法，這種分布式的故障定位方法是與業(yè)務和鏈路相關的。對于集中式控制的網絡，即有主控節(jié)點的網絡，故障定位采用分層定位的方法，即首先由單節(jié)點承擔一部分故障的簡單分析，如：本節(jié)點相關告警的過濾和屏蔽，還有本節(jié)點嚴重告警的定位，然后再將處理結果上報主控節(jié)點，由主控節(jié)點進一步分析和處理，最終確定故障的具體位置。 {{分頁}}

　　從上述分析可以看出，單節(jié)點能夠定位的故障是有限的，必須將所有相關的告警收集起來進行相關性分析，才能實現(xiàn)故障的精確定位。這就涉及到單節(jié)點處理后的信息如何合理和正確地發(fā)布的問題。這就涉及到故障信息的編碼，合理有效的編碼將會使故障定位真正做到快速而又準確。當然，在故障信息發(fā)布的同時，必須輔以相應的故障信息抑制，否則，故障信息的不斷發(fā)布將會使故障定位產生連帶的錯誤。

故障信息的傳送

集中式控制

　　在集中式控制下，由于所有的控制信息都是由主控節(jié)點下發(fā)的，所以檢測到故障后，應該盡快地將本節(jié)點處理后的告警和定位信息送到主節(jié)點，使主控節(jié)點能夠快速和準確地進行故障分析和定位?，F(xiàn)有兩種處理方式可供參考：

* 廣播式方法，即一旦檢測到故障，稍加處理就以廣播的形式進行發(fā)送，其他非相關節(jié)點僅僅起轉接該信息的作用，只有主控節(jié)點才能接收此信息。

　　這種處理方式的優(yōu)點是思路簡單，但是它帶來的負面影響是信令網中的信息流量加大，容易產生控制流的阻塞，而且會使非主控節(jié)點的處理變得復雜化。所以廣播信息的控制和管理是必不可少的，而這本身就是一個通信控制的難題，所以此方法實現(xiàn)起來相對困難。

* 最短路徑方式發(fā)送，即每個非主控節(jié)點都有路由表，該路由表上記錄了該節(jié)點到主控節(jié)點最短徑以及其他可達路徑的出口。通過這種方式故障信息就可以最快的方式到達主控節(jié)點。此種方式處理簡單，但它要求每個節(jié)點都儲存必需的路由表，而且在網絡更改或者擴容時不得不更改路由表，故不可避免地要增加系統(tǒng)的代價。

分布式控制

　　在分布式控制下，各節(jié)點的地位是平等的，所以各節(jié)點對故障的兩層過濾都由自己完成，但是如果每個節(jié)點都像集中控制方式下的主控節(jié)點，不僅不經濟，而且處理的復雜度相當大，很難滿足時效性的嚴格要求。所以其第二層處理功能應該僅僅收集相關鏈路或者通道的故障信息，但是這就需要本節(jié)點了解整個網絡的拓撲，處理上還是比較困難，需要定制一套相當復雜的算法。

　　實現(xiàn)分布式控制下信令的傳送，是實現(xiàn)其定位的關鍵，如何將相關的故障信息收集到本節(jié)點，以實現(xiàn)故障的定位，是非常復雜的。下面提出兩種處理的方法：

* 廣播式發(fā)送。這種方式與集中方式下的廣播相比，沒有任何優(yōu)勢，因為組播地址內要攜帶所有相關節(jié)點的IP地址，要求每個節(jié)點必須知道和分析全網的業(yè)務配置信息。

* 分布選路的方式，即信令網自身的選路，依據(jù)自身攜帶的信息來進行選路，最終目的是將所攜帶的故障信息送到能定位的節(jié)點。這種信息發(fā)布方式需要非常復雜的算法支持，因為每個節(jié)點都要依據(jù)收到的信息來決定是否與自己相關，即每個節(jié)點都要進行復雜的運算和查詢自己的數(shù)據(jù)庫信息。{{分頁}}

保護倒換和路由恢復

　　一是將保護倒換和路由恢復分開考慮，即采用不同的編碼、不同的機制。這是出于時間要求的考慮，保護倒換要求在50ms完成，而路由恢復要求為2s。

　　另一種思路是統(tǒng)一編碼、不同處理的方法，即IETF的思路。這種思路的主要出發(fā)點是為迎合現(xiàn)在流行的IPV6協(xié)議處理模式。但是這種處理方式較復雜。

　　其實解決了第二種思路，第一種也就迎刃而解。現(xiàn)在來分析第二種思路的實現(xiàn)。

　　保護倒換分析

一般的保護方式有：

1．1＋1方式，一般用于端到端的保護——鏈路、通道和業(yè)務均可。

2．1:1方式，適用于端到端的保護和業(yè)務的保護。

3．M:N方式，資源共享的保護方式，通常采用通道保護方式。

4．環(huán)網APS保護方式，包括兩纖單向環(huán)、兩纖雙向環(huán)和四纖雙向環(huán)。在環(huán)網中又分復用段保護和通道共享保護，是利用環(huán)網的特殊結構來實施的一種保護方式，屬于對資源的保護。

　　在光網絡中采用的保護方式也不會超出這幾種。但是各種不同的保護方式有由其相應的應用場合，所以不同的故障應選用不同的保護方式。由于環(huán)網具有很強的自愈能力，全光環(huán)形網絡也可借用升級的環(huán)網APS協(xié)議來實現(xiàn)保護，但對于格形網而言情況就十分復雜，因為其某一鏈路或者通道從不同的觀點來看屬于不同的簡單拓撲，選用那種保護方式與其子網標識密切相關。為了實現(xiàn)快速的保護倒換以及增強格形網的“強壯”性，利用圖論的知識將格形網劃分為幾個子網（以最小環(huán)進行劃分，不能歸為最小環(huán)的，標識為樹），將這些子網進行標識，就可以在整個格形網中對不同子網中的故障采取不同的保護方法，對環(huán)形子網中的故障借用環(huán)網的保護方法，對樹形子網中的故障采用相應的1＋1或者M:N保護。這是因為格形網其實就是環(huán)網的相交相割再加上一些樹形拓撲（或者孤島）而構成的。對處于不同子網的資源和業(yè)務實施不同的保護方式，可以提高網絡的生存性。

路由恢復分析

　　由于不管那種保護方式都需要預留資源，如果一個網絡中全部采用保護方式的話，這勢必大大降低網絡資源的利用率，所以一個網絡中除了采取適當?shù)谋Ｗo方式外，一般要采用業(yè)務恢復的方法來實施對業(yè)務的保護。由于恢復路由不是預留的而是按照一定的優(yōu)化方法算出來的，所以它比保護方案更能合理地利用網絡的資源，更能優(yōu)化業(yè)務的分配。但是由于恢復路由是在故障情況下臨時算出來的，所以勢必造成恢復時間比保護時間長，此外它必須是在故障定位信息已經更新的情況下才能計算。故恢復時間取決于故障定位時間和算法的時間以及網絡的規(guī)模。

　　與保護倒換不同，路由恢復和資源調度不僅僅要了解線路或者通道的好壞，而且需要了解各鏈路和通道的資源使用情況。只有這樣，才能依據(jù)一定的波長路由算法進行資源的合理調配。 {{分頁}}

　　集中式控制情況下有利于網絡的最優(yōu)化，但是由于主控節(jié)點記憶的數(shù)據(jù)量太大和處理的“事務”過多，速度不高，不適合于大型網絡。分布式控制由于不是依據(jù)全網的信息來選路和恢復，所以不利于網絡的最優(yōu)化，但是各個節(jié)點處于同等的地位，處理相對簡單，所以速度相對較快，而且適合于任何規(guī)模的網絡，但是隨著網絡的運行，可能會導致網絡的應用嚴重不合理。

　　根據(jù)上述分析，在一個大型網絡中，筆者認為應該兩種控制方式并存。對于實時性要求高的一些操作，例如資源的保護和重要業(yè)務的恢復采用分布式的控制方法，也可借用預選恢復路由的方法來實現(xiàn)。對于一些實時性要求不高的操作，例如業(yè)務配置、性能管理、維護等則可采用集中式控制的方法，這樣有利于合理配置網絡，對于一些既要求實時性，而分布式控制方法很難解決或者說解決有困難的操作，例如故障定位，則可以采用兩種控制方法結合的分節(jié)控制的方法來實現(xiàn)，這樣就可以提高網絡控制和管理的靈活性，而且提高實時性和合理性。

拓撲結構的識別

　　為了在一個網絡中同時支持保護倒換和路由的恢復，并且要保護和恢復協(xié)調操作，這就需要借用圖論的知識將網絡劃分為幾個子網。在這些不同拓撲的邏輯子網中來分別執(zhí)行不同的保護和恢復方式。一般而言，保護是針對資源即物理層和段層的保護，而恢復是針對業(yè)務層，即僅僅針對業(yè)務的。為實現(xiàn)這個目的，就需要信令網具有識別拓撲結構的能力，以及能夠按照一定的規(guī)則來劃分不同的子網，這應該是啟動保護倒換和路由恢復的依據(jù)，以及啟動何種保護倒換類型的必備信息。當然這些信息不應實時運行，應該具有相對的穩(wěn)定性，否則將會導致信令的交換時間過長，處理也十分復雜，更難保證保護、恢復等實時性要求高的操作。一般是設置一定時器，每隔一固定時間，查詢和自動識別一次，還有就是故障觸發(fā)識別，即在系統(tǒng)發(fā)生故障的情況下來修改拓撲結構，還有就是由網管啟動識別命令來強制識別，這通常用于系統(tǒng)升級擴容和改造時。

拓撲識別一般有兩種處理方法：

　　一是由網管配置，即規(guī)劃網絡時將網絡拓撲按一定的算法或者按照設計者的要求分為幾個子網，然后由網管配置各節(jié)點的子網標識。這種做法的前提是必須事先知道網絡的物理配置。在網絡升級，或者物理拓撲改變的情況下，需要重新配置。這種做法的主要好處就是簡單易操作、便于管理，缺點就是實時性不強、對網絡操作者的依賴性過強，也即對維護者的知識要求較高，這種方法是相對靜態(tài)的，也是目前使用較多的方法。

　　第二種方法是節(jié)點自動識別，在不同的控制方式下，實現(xiàn)的方法和難易不同。

　　集中式控制：網絡拓撲的識別工作應該交給主控節(jié)點完成。在大型網絡中，這種方式的實現(xiàn)非常復雜，所以距離實用化還有很長一段路要走。

　　分布式控制：為了識別整個網絡的拓撲，必須知道全網的信息，但分布式控制機制下的節(jié)點明顯不具備這個功能，所以此功能可以交給中心網管來完成。相比于集中式控制，兩者的區(qū)別是：集中式控制把網絡的識別放在控制層完成，速度相對較快，而分布式控制則必須將網絡的識別交由管理層完成，速度相對較慢。 {{分頁}}

信令的交換

集中式控制

下行方向的信息（由主控節(jié)點發(fā)給其他非主控節(jié)點的信息）的傳送和握手方式有兩種：

* 一種是IETF提到的，也就是貝爾實驗室現(xiàn)在采用的方法：并行發(fā)送、串行握手后決定動作的準則。

* 另一種是依據(jù)光網絡不同于電網絡的特點以及利用集中式控制的優(yōu)點提出的并行發(fā)送、先接收命令、再相互握手的準則。

　　這兩種方案各有優(yōu)缺點：第一種方案保證了動作的正確性，即一般不會發(fā)生差錯，這種方案繼承了以前電域協(xié)議的先握手后倒換的思想。第二種方案是從實際情況演繹出來的一種追求時效性的方法。它的缺點是有產生差錯的可能，但優(yōu)點是其倒換時間非常短。

分布式控制

　　這種分布選路的方式，必須采用先握手、再動作的命令。因為此時單節(jié)點不足以知道全網的狀態(tài)，而僅僅了解與其相關的一些鏈路、通道及節(jié)點的狀況，所以如果采用先動作、再握手的規(guī)則的話，其錯誤概率是無法估計的。

　　在此種方式下，節(jié)點的相應命令僅僅發(fā)送給其相關的節(jié)點，其他節(jié)點在收到這些命令后，僅僅轉發(fā)相應命令，源節(jié)點收到這些回應命令后才作出相應的動作，并且向其他相關節(jié)點發(fā)確認信息，其他節(jié)點收到此命令后，也做相應的動作，并回送確認信令，至此一個動作完成。

新聞中心

關于全光網生存性的問題及其解決方法

評論

相關推薦

技術專區(qū)