博客專欄

EEPW首頁 > 博客 > 這屆網友已經開始用爬蟲互相貼標簽了

這屆網友已經開始用爬蟲互相貼標簽了

發(fā)布人:大數(shù)據文摘 時間:2022-09-22 來源:工程師 發(fā)布文章
大數(shù)據文摘授權轉載自品玩作者:沈丹陽

十幾天前,在為C端用戶提供拓展腳本的論壇網站Greasy Fork上,一位開發(fā)者做了一款“原神玩家指示器”。據開發(fā)者留下的公開信息,此拓展腳本主要應用于B站視頻的評論區(qū),安裝了該工具的用戶可以識別出發(fā)言的網友是否為原神玩家。
圖片

圖源:網站截圖


識別的方式也很簡單,經過拓展腳本的篩選,符合條件的網友會在其頭像與昵稱的后面,被標注上“原神玩家”幾個字。
圖片圖源:B站評論區(qū)截圖
這款拓展腳本一經發(fā)布,就引起了游戲玩家的強烈反響。在Greasy Fork這個較為小眾的用戶腳本論壇上,原神玩家指示器的安裝量已達數(shù)萬次,反饋中,不少用戶將其稱之為“本年度最好用的腳本”、“這個偉大的發(fā)明僅次于第一定律”、“幾個字就能帶來極致的精神享受”。
不僅如此,由于該開發(fā)者表示自己是做著玩的、不太會迭代更新,但部分用戶確實在使用中發(fā)現(xiàn)了一些bug,于是論壇上涌現(xiàn)了很多愿意參與其中的開發(fā)者,有的人制作出了“原神玩家指示器升級版”,有的發(fā)明了適用于B站、微博、知乎在內的全平臺版本腳本,還有的將王者榮耀、明日方舟、新三相之力等大熱游戲都涵蓋在內,支持識別更多游戲玩家群體。
在使用了該拓展腳本的用戶界面中,每個網友的昵稱后面被貼上了五顏六色的標簽,且針對不同標簽的群體數(shù)量,指示器還會顯示“普通”、“稀有”、“史詩”、“隱藏”等前綴。
而指示器檢測不出任何標簽的用戶,會被標注為“普通|純良”。
圖片圖源:升級版本的指示器,為網友打上了五顏六色的標簽
這場始于游戲圈的“指示器”制作大賽到這里并沒有結束。
為了響應用戶們對其他領域身份識別的需求,越來越多類型的指示器出現(xiàn)在了拓展腳本的論壇上,包括識別虛擬主播(Vtuber)的V圈指示器、明星粉絲的飯圈指示器、蘋果/華為用戶的指示器、抽獎轉發(fā)參與者指示器……..
匿名開發(fā)者們很快制作出了應用范圍更廣的拓展腳本。在一個名為“成分指示器”的腳本中,用戶可以通過自定義關鍵詞來實現(xiàn)識別不同網絡群體的目的。換言之,這款“指示器”是一個可供用戶個性化使用的“給網友打標簽機器”。
僅從技術實現(xiàn)角度來看,指示器的制作并不復雜。
它主要利用了爬蟲技術來讀取社交平臺的API數(shù)據,通過挖掘評論區(qū)和用戶發(fā)布動態(tài)的內容,按照一定的匹配規(guī)則進行篩選。這種爬蟲技術最早應用于互聯(lián)網搜索引擎中,近年來曾被大數(shù)據公司用于獲取用戶個人信息和簡歷,一些公司對它的濫用也助長了互聯(lián)網金融借貸的導流獲客和暴力催收等行業(yè)亂象。
雖然隨著AI技術的發(fā)展,很多互聯(lián)網平臺開啟了智能反爬蟲功能來保護用戶的個人隱私,但對于社交媒體平臺來說,用戶所發(fā)布的動態(tài)、評論轉發(fā)點贊的內容,以及頭像和昵稱等公開信息,仍可以被爬蟲軟件輕易獲取。
一方面是拓展腳本的技術實現(xiàn)成本和用戶獲取成本無限低,另一方面則是互聯(lián)網世界的割裂程度的加劇,于是爬蟲“擺脫”了商業(yè)目的的束縛,爬到了數(shù)萬網友的手中。
在最先火出圈的“原神玩家指示器”拓展腳本評論區(qū)中,已經聚集了很多對原神游戲及其玩家具有負面情緒的用戶,在不少用戶互動對話里,也開始了基于各自喜愛游戲立場的對線。

圖片

圖源:Greasy fork論壇截圖


整體來看,這類“對線”針對游戲內容本身的并不多,更多是在以游戲作為標簽對社交媒體上的陌生網友進行群像化分類。事實上,很多用戶需要“網友指示器”的原因,是希望對社交媒體中發(fā)表與自身觀點相反、談論自己不喜內容,或曾就某議題產生過爭執(zhí)的陌生網友,找到一種標簽式的合理解釋。
借助指示器來給網友打標簽的人中,相當大一部分用戶的訴求是——屏蔽不想看的標簽內容與社交賬戶。
“謝謝你,我真的很需要這個,如果能屏蔽掉這一群體的發(fā)言就更好了。”
“請問可以改成屏蔽id及內容嗎?不關心是不是,就是不想看。”
“需要一鍵拉黑功能,如果可以自動屏蔽就更好了?!?/span>
而能成功實現(xiàn)這種訴求的拓展腳本也很快被制作出來。
事實上今天的頭部社交媒體平臺上,屏蔽和拉黑早已成為必不可少的功能。
以微博為例,僅在拉黑上就做過多次調整,包括主頁是否可見、發(fā)文對誰可見、誰能參與評論在內的一系列具體功能,用戶都有著相對細分的選擇權限。即使對零互動的陌生網友所發(fā)內容,微博也設置了屏蔽關鍵詞的功能。

但看起來這些出于預防網絡暴力目的推出的功能對不少用戶來說還是不太夠。
不少使用了此類指示器的用戶發(fā)帖表示,他們反向追溯了以往看不慣的網友發(fā)言內容,不出意料地發(fā)現(xiàn)這些網友果然被打上了某類標簽。
圖片圖源:某網友發(fā)言截圖
一些有意思的變化也隨之發(fā)生,這一方面令他們更加確定了自己對某類觀點或內容的厭惡是正確的,另一方面也加深了他們對某個標簽化群體的厭惡情緒。
而不少網友顯然并不滿足于只是識別出來“敵軍”。
有網友觀察到,一些網絡對線愛好者在B站和微博等社交媒體開啟了“獵巫”行動,他們不在乎網友們具體發(fā)表了什么內容和觀點,而是專注于尋找被指示器打上了某類標簽的群體,并進行無差別攻擊。
一個荒謬的例子是,在“原神指示器”早期版本中,因為腳本的不完善,所有網友的發(fā)文內容之要含有“原”和“神”兩個字,都會被指示器打上標簽。于是,在一些名為“還原神州飛船”和“感染源神出鬼沒”的發(fā)問評論區(qū)中,明明內容與游戲毫不相關,卻出現(xiàn)了游戲玩家或團建或對線的群體行為。
當然,也有很多用戶認為用指示器給網友打標簽只是圖個樂玩一玩,并且隨著安裝腳本用戶的激增,大量發(fā)送到社交媒體服務器的數(shù)據請求,也很可能已經引起了平臺方的注意,對于濫用爬蟲技術的行為,開發(fā)者面臨著被平臺方起訴的風險,而使用者的賬號也存在被封禁的可能。
圖片圖源:一款應用于B站的標簽化視頻屏蔽腳本/網絡截圖
看著這類指示器的流行,很容易讓人再次確信,這些年互聯(lián)網對人們思維的最大改造就是貼標簽。移動互聯(lián)網時代的平臺無論是短視頻,資訊、外賣、出行還是電商購物,只要有用戶賬號存在的地方,平臺系統(tǒng)都在以打標簽的方式將用戶分門別類,再通過算法來推薦偏好內容或服務。
現(xiàn)在看來網友們也開始用同樣的方法對待彼此了。

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

fpga相關文章:fpga是什么


通信相關文章:通信原理


交換機相關文章:交換機工作原理




關鍵詞: AI

相關推薦

技術專區(qū)

關閉