嵌入式系統(tǒng)在曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)中的應(yīng)用
嵌入式系統(tǒng)是以應(yīng)用為中心,以計算機技術(shù)為基礎(chǔ),并且軟硬件可裁剪,適用于應(yīng)用系統(tǒng)對功能、可靠性、成本、體積、功耗有嚴格要求的專用計算機系統(tǒng)。它一般由嵌入式微處理器、外圍硬件設(shè)備、嵌入式操作系統(tǒng)以及用戶的應(yīng)用程序等四個部分組成,用于實現(xiàn)對其他設(shè)備的控制、監(jiān)視或管理等功能。它具有小型化、低成本、高可靠、高靈活性等特點。
本文引用地址:http://m.butianyuan.cn/article/152555.htm由于上述優(yōu)點,曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)在信息數(shù)據(jù)流的傳輸過程中,采用嵌入式系統(tǒng)作為數(shù)據(jù)信息匯總并且發(fā)送到監(jiān)控節(jié)點的平臺。
本文介紹了首先介紹了曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)的功能和結(jié)構(gòu),然后介紹了嵌入式系統(tǒng)在其中的應(yīng)用,最后提出了這個實例今后的發(fā)展方向并總結(jié)全文。
一:曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)
1.1 背景分析及項目意義
隨著機群系統(tǒng)的發(fā)展,機群的規(guī)模越來越大。當機群的節(jié)點數(shù)達到幾百個以上時,對這種大規(guī)模機群的管理和維護就會有很大的困難。一種解決方案就是對機群從硬件上配備監(jiān)控系統(tǒng)。這種監(jiān)控系統(tǒng)一方面需要收集所有節(jié)點機的硬件和軟件的實時信息,另外一方面需要隨時登陸出問題的節(jié)點機上進行管理,或者進行遠程安裝操作系統(tǒng)等工作。有時監(jiān)控系統(tǒng)還需要遠程啟動機器或者遠程對機器進行熱啟動。
曙光4000A超級計算機由640個計算節(jié)點構(gòu)成,這樣的大規(guī)模機群監(jiān)控系統(tǒng)中,針對上述問題,可以在節(jié)點機上安裝專門負責收集節(jié)點機信息以及節(jié)點機鼠標鍵盤和VGA信號的節(jié)點卡。這樣大大簡化了系統(tǒng)的連接方式,使系統(tǒng)管理員可以在控制室監(jiān)視整個機群系統(tǒng)的運行情況并可以對任意一臺節(jié)點進行類似本地的操作,而不需要進入機房。
1.2監(jiān)控系統(tǒng)的各部分功能劃分
曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)從硬件上分成四部分,包括節(jié)點卡、采集卡(多路器)、監(jiān)控屏幕、終端機等四個部分。整個系統(tǒng)架構(gòu)如圖1所示:
圖1 系統(tǒng)結(jié)構(gòu)圖
Figure 1 Structure of the system
采集卡(多路器)最多支持8組節(jié)點機,每組最多可支持128個節(jié)點機。節(jié)點卡安裝在節(jié)點機內(nèi)部,每個節(jié)點卡有兩個RJ45接口,作為數(shù)據(jù)總線接口,負責傳送鍵盤鼠標操作信息、KVM命令信息、以及監(jiān)控信息。同時由于主板提供開機、重啟等電信號的接口,可以通過KVM系統(tǒng)來進行節(jié)點機的開機、重啟等工作。
該監(jiān)控系統(tǒng)需要完成以下功能:
1.收集所有節(jié)點機的硬件信息并發(fā)送給監(jiān)控節(jié)點;
2.實現(xiàn)機群最大1024節(jié)點任意節(jié)點的KVM切換和登陸,KVM支持OSD操作;
3.通過KVM系統(tǒng)可以進行對任意節(jié)點進行開機,重啟(冷啟動)等工作(按需求待定);
4.節(jié)點機監(jiān)控屏顯示,節(jié)點號設(shè)置,自動順序開機等(按需求看是否需要監(jiān)控屏)。
二:嵌入式系統(tǒng)的引入
2.1 采集卡(多路器)的結(jié)構(gòu)
曙光4000A大規(guī)模機群監(jiān)控系統(tǒng)的核心是采集卡,采集卡集成多路器功能。一方面,采用8×1的模擬開關(guān),支持1個終端盒,通過終端盒就可以操作整個機群中的任意一個節(jié)點,從而實現(xiàn)了多路器的功能。另一方面,采集卡還要運行應(yīng)用程序,分別收集8路總線上節(jié)點的監(jiān)控信息,然后通過采集卡集成的8路網(wǎng)口把收集的節(jié)點機的信息通過以太網(wǎng)傳送給監(jiān)控節(jié)點,最終由監(jiān)控節(jié)點顯示在監(jiān)控屏幕上。
雖然采集卡總的數(shù)據(jù)流量并不是很大,性能的要求也不是很高,但是考慮到系統(tǒng)的可移植性、易用性和系統(tǒng)的可擴展性,這個環(huán)節(jié)最好用一個嵌入式系統(tǒng)來實現(xiàn)。
每個節(jié)點機上的信息由節(jié)點卡收集,這些信息在匯總的過程中,采取輪循的方式收集,可以避免遺漏節(jié)點機信息。如果直接使用采集卡主芯片輪循收集,不但占用了采集卡的大量資源,更重要的是不能保證采集卡及時響應(yīng)監(jiān)控節(jié)點命令,從而不能把匯總的信息及時發(fā)送給監(jiān)控節(jié)點,這樣會在監(jiān)控屏幕上顯示錯誤的節(jié)點機信息。因此在采集卡中還集成了一個單片機,這個單片機的作用就是收集相連的這一組節(jié)點機的信息,保存在本地緩沖區(qū)中,然后通過IIC總線發(fā)送給采集卡的主芯片。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)
評論