淺淡網絡運維的緊急故障處理及對策
標簽:網絡維護 內網服務 外網服務
本文引用地址:http://m.butianyuan.cn/article/154534.htm隨著信息化進程的飛速發(fā)展,網絡已經成為每個現(xiàn)代企業(yè)必須的要素之一。相對于網絡維護,網絡運維更加側重于保障網絡系統(tǒng)的正常運行,運維有運行和維護兩層含義。對于一個系統(tǒng),有時出錯我們無法預知,系統(tǒng)越復雜,其難維護難度更大,為了減少損失,我們盡可能地去預防各種錯誤,對于突發(fā)情況,盡可能地去修復。
圖一
根據(jù)上述流程圖,我們可以一目了然明白處理網絡運維的緊急故障的處理流程。
當客戶端發(fā)生網絡中斷的故障后,首先判斷用戶(或終端)到三層網關設備之間通道是否存在問題,從用戶(或終端)上ping網關是否能通,用戶(或終端)自身是否發(fā)生問題。
二層網絡是否正常:如果用戶(或終端)ping網關不通,則檢查下端二層網絡、用戶網線、三層網關設備以下網線或光纖是否正常,端口是否UP,是否有CRC error報文統(tǒng)計。檢查二層網絡中的交換機設備是否能正常學習到用戶MAC地址,檢查三層網關設備與二層交換設備之間的連通性、二層設備的CPU利用率是否正常,是否有二層環(huán)路造成或病毒攻擊。首先確保用戶(或終端)能正常ping通網關設備。
三層網絡是否正常:可以通過telnet/console口登陸三層設備,如果有問題,通過ping、tracert、show logging、端口統(tǒng)計、CPU利用率統(tǒng)計、鏈路狀態(tài)、路由表狀態(tài)、MPLS標簽表狀態(tài)等對問題進行分析,在業(yè)務忙時,不得擅自重啟或倒換三層核心路由器等設備。
如果用戶上網或承載業(yè)務仍然存在故障,可以查看DNS等外界環(huán)境是否正常,承載的業(yè)務本身是否發(fā)生問題,查看相關告警,然后做出相應的處理。
其它問題,如果現(xiàn)場不能解決,就通報關鍵用戶并聯(lián)系廠商解決。
在本文中,筆者就以網絡不通的故障為例,講解網絡運維的緊急故障處理的比較通用的思路和解決方式。
假設有一天,接到通知報告網絡不通了。給人的第一感覺是某個服務出現(xiàn)異常而中斷,比如打不開OA頁面,或者打不開Google頁面。讓我們看看,一個合格的運維人員是如何循遵怎樣的思路來尋找故障的原因并解決的。
確定哪些服務中斷
首先要做的就是區(qū)分內網服務和外網服務。
在筆者所在公司中,很多自己開發(fā)的、只限于公司員工使用的服務都是內網服務,比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網服務了。
在這樣的環(huán)境下,內網服務的網絡關鍵節(jié)點如下所示:
終端→接入交換機→聯(lián)網路由器→核心路由器→核心交換機→服務器
依賴的基礎服務為:內網DNS服務器。
外網服務的網絡關鍵節(jié)點如下所示:
終端→接入交換機→核心交換機→互聯(lián)網接入交換機→上網行為管理設備→互聯(lián)網防火墻→外網服務器
依賴的基礎服務為:內網DNS服務器,公網DNS服務器。
如果當前訪問的服務突然中斷,那么首先看看是內網的服務還是外網的服務。然后再在內網和外網分別自選一種服務嘗試訪問一下。例如ERP突然無法訪問了,那就嘗試訪問一下內網的門戶系統(tǒng)和郵件系統(tǒng),以及外網的一個知名網站。
以下表格(表二)有助于理解故障尋找的過程和思路:
表二
確定其他人的癥狀相同
只是從自己的機器對網絡和服務做出判斷并不夠客觀,也不夠嚴謹。前面我們已經大致的推測出故障原因,在這一節(jié)我們嘗試對這個推測進行證明。
要記住這一點:可重復的結果才是基本可靠的結果。
為了證實測試結果的可重復性,我們需要從不同的網絡起點重復相同的測試步驟。
讓我們以公司的實際場景來闡述分析故障的思路。目前隨著網絡技術的成熟,網絡架構也趨于穩(wěn)定,一般的全省級的公司網絡拓撲示意圖如圖三:當然,實際工作中,地市分公司下面,根據(jù)業(yè)務需要,還會有縣級的辦公網絡、營業(yè)網點,實際廣域網絡會達到三層。
評論