基于網(wǎng)絡(luò)設(shè)備的網(wǎng)頁過濾的設(shè)計(jì)

作者：時間：2011-03-25 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　3.4 TF-IDF 權(quán)值計(jì)算

　　TF-IDF 計(jì)算公式：

　　其中TF（x,d）表示特征x在網(wǎng)頁d中出現(xiàn)的頻率，IDF（x）表示為，N是總共的訓(xùn)練樣本數(shù)，df （x）為包含特征x 的樣本數(shù)。

　　3.5 改進(jìn)的權(quán)值計(jì)算公式

　　從TF-IDF 計(jì)算公式可以看出，TF-IDF 計(jì)算公式是將一個樣本簡單的分解為若干特征，只是針對文本的內(nèi)容，沒有從文本的結(jié)構(gòu)組成上考慮各特征的權(quán)值。

　　實(shí)際上，在一個HTML 結(jié)構(gòu)文檔中，在之間，,以及一些其他的標(biāo)簽之間出現(xiàn)的特征，相對于其他普通的正文，具有更重要的意義，因此對這些標(biāo)簽之間的特征要給予比較大的權(quán)值，而對于其他普通的正文給予權(quán)重比較小?？紤]到HTML 的這種結(jié)構(gòu)化特性，對TF-IDF 權(quán)值計(jì)算進(jìn)行一些改進(jìn)。

　　以下是設(shè)計(jì)的一個簡單的位置——權(quán)值等級對應(yīng)表，權(quán)值的選擇可由實(shí)際情況具體而定。

表1 特征位置與權(quán)值對應(yīng)表

特征位置與權(quán)值對應(yīng)表

　　一個詞在一個網(wǎng)頁中出現(xiàn)的頻率越高，表示該詞在這個網(wǎng)頁中更重要。根據(jù)IDF，一個詞的重要與包含它的網(wǎng)頁數(shù)量成反比。一個特征x 在第i 個等級中的頻率如下表示：

　　其中Nxi 表示某個詞x 出現(xiàn)在等級i 中間的次數(shù)， Nx 表示詞x 出現(xiàn)在該網(wǎng)頁中總的次數(shù)。

　　權(quán)值的計(jì)算：

　　其中Wi 為特征等級為i 時，對應(yīng)的加權(quán)系數(shù)。

　　3.6 KNN 算法

　　K-近鄰法的原理：在訓(xùn)練樣本集中，找出與待分類的網(wǎng)頁相鄰最近的K 個訓(xùn)練樣本，找出K 個近鄰中樣本數(shù)最多的類別c，就判斷待分類樣本為c 類。這里采用相似度作為計(jì)算距離的依據(jù)，相似的計(jì)算根據(jù)兩個樣本之間的夾角的余弦值來判斷。

　　根據(jù)此公式，計(jì)算出待測樣本x 與所有訓(xùn)練樣本的距離，從而找出與x 距離最近的K 個訓(xùn)練樣本，根據(jù)這K 個樣本的所屬類別，確定待測樣本x 的所屬類別。

　　3.7 內(nèi)容過濾流程

　　為了不給用戶造成比較明顯的延遲，采用“第一次放過”的策略。先并不攔截該響應(yīng)報(bào)文，只是復(fù)制一份應(yīng)用層信息，在整個響應(yīng)報(bào)文傳輸完成之后，對復(fù)制的一份完整報(bào)文進(jìn)行內(nèi)容過濾操作；如果判斷報(bào)文內(nèi)容是非法的，則將對應(yīng)的請求報(bào)文的URL 信息添加到黑名單中，如果檢查認(rèn)為是合法的，則允許該連接持續(xù)，并將URL 信息添加到白名單中。

　　4 結(jié)語

　　通過實(shí)驗(yàn)分析，在過濾時間上，URL 過濾階段白名單匹配速度提高了53%,在黑名單的匹配中，速度提高了80%。在內(nèi)容過濾階段，由于采用的“第一次放過”策略，不會給用戶帶來延遲。既能在一定程度滿足網(wǎng)絡(luò)延遲的要求，又能改善用戶的互聯(lián)網(wǎng)環(huán)境。但仍然存在一些需要改進(jìn)的地方：該過濾系統(tǒng)是部署在網(wǎng)絡(luò)設(shè)備之上，網(wǎng)絡(luò)設(shè)備作為網(wǎng)絡(luò)節(jié)點(diǎn)，擔(dān)負(fù)著繁重的數(shù)據(jù)交換任務(wù)，考慮到這些，沒有對返回的報(bào)文進(jìn)行實(shí)時的分析，而是采用“第一次放過”的過濾策略；此外，采用向量空間模型來表示，其缺點(diǎn)在于特征項(xiàng)之間線性無關(guān)的假設(shè)，因此可以考慮特征項(xiàng)之間的關(guān)聯(lián)性等，對該文本表示模型進(jìn)行更加精確的表示。

新聞中心

基于網(wǎng)絡(luò)設(shè)備的網(wǎng)頁過濾的設(shè)計(jì)

評論

相關(guān)推薦

技術(shù)專區(qū)