博客專欄

EEPW首頁(yè) > 博客 > 大規(guī)模開(kāi)放數(shù)字商業(yè)知識(shí)圖譜評(píng)測(cè)基準(zhǔn)來(lái)了:OpenBG上線天池

大規(guī)模開(kāi)放數(shù)字商業(yè)知識(shí)圖譜評(píng)測(cè)基準(zhǔn)來(lái)了:OpenBG上線天池

發(fā)布人:機(jī)器之心 時(shí)間:2022-11-19 來(lái)源:工程師 發(fā)布文章
在數(shù)字商業(yè)領(lǐng)域,知識(shí)圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。由阿里巴巴藏經(jīng)閣團(tuán)隊(duì)和浙江大學(xué)開(kāi)放的數(shù)字商業(yè)知識(shí)圖譜評(píng)測(cè)基準(zhǔn) OpenBG 提供了豐富的數(shù)字商業(yè)領(lǐng)域知識(shí)圖譜的評(píng)測(cè)數(shù)據(jù)集,覆蓋基于知識(shí)圖譜的商品顯著性推理、商品同款挖掘、商品知識(shí)圖譜鏈接預(yù)測(cè)等任務(wù),對(duì)模型展開(kāi)了全方位評(píng)測(cè),旨在幫助算法人員對(duì)模型取得更好的理解。


圖片


近年來(lái),知識(shí)圖譜受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,在教育、生物醫(yī)學(xué)、金融等領(lǐng)域得到了廣泛的應(yīng)用,凸顯了結(jié)構(gòu)化知識(shí)在智能應(yīng)用中的重要作用。2020 年圖靈獎(jiǎng)得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》論文[1]曾指出:融合表示學(xué)習(xí)與復(fù)雜知識(shí)推理是人工智能進(jìn)步的階梯。在數(shù)字商業(yè)領(lǐng)域,知識(shí)圖譜業(yè)務(wù)的蓬勃發(fā)展在許多應(yīng)用顯示出了巨大的潛力,但它仍面臨著諸多挑戰(zhàn)。例如,現(xiàn)有的商業(yè)知識(shí)圖譜往往存在大量的缺失屬性、實(shí)體節(jié)點(diǎn)和大量相同的未對(duì)齊的實(shí)體節(jié)點(diǎn),且知識(shí)圖譜通常由多種模態(tài)構(gòu)成,因而如何對(duì)大規(guī)模數(shù)字知識(shí)圖譜進(jìn)行鏈接預(yù)測(cè)和實(shí)體對(duì)齊(同款商品挖掘)面臨嚴(yán)峻挑戰(zhàn);此外,現(xiàn)有的知識(shí)圖譜通常缺乏對(duì)知識(shí)顯著性的建模,如當(dāng)用戶在電商平臺(tái)搜索 “跑步”關(guān)鍵詞 時(shí),“瓶裝水”一般不是用戶真實(shí)的購(gòu)物意圖,用戶關(guān)注的商品一般是 “跑步鞋、跑步機(jī)” 等健身用品。顯著的常識(shí)可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品,因此如何基于數(shù)字商業(yè)知識(shí)圖譜進(jìn)行商品顯著性推理也面臨巨大挑戰(zhàn)。


由阿里巴巴藏經(jīng)閣團(tuán)隊(duì)和浙江大學(xué)開(kāi)放的數(shù)字商業(yè)知識(shí)圖譜評(píng)測(cè)基準(zhǔn) OpenBG Benchmark 提供了在數(shù)字商業(yè)領(lǐng)域知識(shí)圖譜的評(píng)測(cè)數(shù)據(jù)集,覆蓋基于知識(shí)圖譜的商品顯著性推理、商品同款挖掘、電商知識(shí)圖譜鏈接預(yù)測(cè)等任務(wù),對(duì)模型展開(kāi)了全方位的評(píng)測(cè),旨在幫助科研和算法人員對(duì)模型取得更好的理解。


OpenBG Benchmark 介紹


OpenBG Benchmark 是一個(gè)大規(guī)模開(kāi)放數(shù)字商業(yè)知識(shí)圖譜評(píng)測(cè)基準(zhǔn),包含多個(gè)子數(shù)據(jù)集任務(wù)。數(shù)據(jù)集以開(kāi)放的數(shù)字商業(yè)知識(shí)圖譜 OpenBG[2]為基礎(chǔ)構(gòu)建,OpenBG 是開(kāi)放的數(shù)字商業(yè)知識(shí)圖譜,是一個(gè)使用統(tǒng)一 Schema 組織、涵蓋產(chǎn)品和消費(fèi)需求的百萬(wàn)級(jí)多模態(tài)數(shù)據(jù)集。OpenBG 由阿里巴巴藏經(jīng)閣團(tuán)隊(duì)和浙江大學(xué)提供,開(kāi)放的目標(biāo)是利用開(kāi)放的商業(yè)知識(shí)發(fā)現(xiàn)社會(huì)經(jīng)濟(jì)的價(jià)值,促進(jìn)數(shù)字商務(wù)數(shù)字經(jīng)濟(jì)等領(lǐng)域的交叉學(xué)科研究,服務(wù)數(shù)字經(jīng)濟(jì)健康發(fā)展的國(guó)家戰(zhàn)略需求。首期開(kāi)放包含以下三大類任務(wù):


商品常識(shí)知識(shí)顯著性推理


  • 任務(wù)描述


常識(shí)知識(shí)是被社會(huì)廣泛承認(rèn)的對(duì)同一事物普遍存在的日常共識(shí)。在電商場(chǎng)景中,顯著性常識(shí)基于背后的知識(shí)體系,能為不同的用戶推薦合適的商品,對(duì)用戶體驗(yàn)和購(gòu)物效率有重要的意義?,F(xiàn)有的常識(shí)分類方法往往只注重評(píng)判常識(shí)是否合理,如 "跑步需要喝水"、"出差需要背包"。但當(dāng)在電商平臺(tái)搜索 "跑步" 時(shí),瓶裝水一般不是用戶真實(shí)的購(gòu)物意圖,用戶關(guān)注的商品一般是 “跑步鞋”、“跑步機(jī)” 等健身用品;在搜索 "出差" 時(shí),“背包”一般并不是用戶需要的商品,但 “旅行箱” 可能是符合用戶意圖的商品。顯著的常識(shí)可以幫助搜索引擎有更好的理解能力,從而返回更貼合用戶需要的商品。


  • 任務(wù)說(shuō)明


本任務(wù)要求對(duì)電商常識(shí)三元組的顯著性進(jìn)行判斷,即給定常識(shí)三元組(S,P,O),輸出其顯著性分類標(biāo)簽,如下表所示,其中 1 表示顯著,0 表示不顯著。


圖片

商品同款挖掘


  • 任務(wù)描述


同款商品是指商品的重要屬性完全相同且客觀可比的商品,商品同款識(shí)別的主要目的是從海量結(jié)構(gòu)化和無(wú)結(jié)構(gòu)化的商品圖文數(shù)據(jù)庫(kù)中匹配得到同款商品,是構(gòu)建電商產(chǎn)品關(guān)系的重要環(huán)節(jié)。商品同款作為商品知識(shí)圖譜的重要組成部分,有很多應(yīng)用場(chǎng)景,如同款商品發(fā)現(xiàn)等。


  • 任務(wù)說(shuō)明


我們將商品同款識(shí)別任務(wù)定義為二分類任務(wù),即給定商品對(duì)信息,判斷商品 item 是否同款,示例如下:


圖片


商品關(guān)系推理與鏈接預(yù)測(cè)


  • 任務(wù)描述


由于知識(shí)圖譜普遍存在不完整的問(wèn)題,因此需要關(guān)系推理與鏈接預(yù)測(cè)技術(shù)對(duì)缺失的圖譜節(jié)點(diǎn)進(jìn)行預(yù)測(cè)。本任務(wù)旨在提升數(shù)字商業(yè)場(chǎng)景下知識(shí)圖譜嵌入效果,滿足商品推薦等應(yīng)用對(duì)推理商品潛在關(guān)聯(lián)性的需求。


  • 任務(wù)說(shuō)明


知識(shí)圖譜一般通過(guò)三元組(h,r,t)的形式組織數(shù)據(jù),其中 h 被稱為頭實(shí)體,t 為尾實(shí)體,r 為連接頭、尾實(shí)體的關(guān)系。如下圖所示(“化妝棉”,“品牌”,“屈臣氏”)就是一個(gè)圖譜三元組。知識(shí)圖譜的鏈接預(yù)測(cè)任務(wù)指的是已知頭實(shí)體(或尾實(shí)體)和關(guān)系的情況下,預(yù)測(cè)缺失的尾實(shí)體(或頭實(shí)體)。下圖中,(“化妝棉”,“適用群體”,?)就是一個(gè)鏈接預(yù)測(cè)任務(wù),需要預(yù)測(cè)出尾實(shí)體。


圖片

  • 數(shù)據(jù)集


與商品常識(shí)顯著性推理以及同款挖掘任務(wù)不同的是,鏈接預(yù)測(cè)任務(wù)由 3 個(gè)子任務(wù)數(shù)據(jù)集組成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 類關(guān)系,含百萬(wàn)級(jí)別規(guī)模的圖譜數(shù)據(jù);OpenBG500-L 在 OpenBG500 的基礎(chǔ)上擴(kuò)大了數(shù)據(jù)規(guī)模,含千萬(wàn)級(jí)別規(guī)模的圖譜數(shù)據(jù),是電子商務(wù)領(lǐng)域大規(guī)模的知識(shí)圖譜;OpenBG-IMG 是電商領(lǐng)域的多模態(tài)知識(shí)圖譜。3 個(gè)數(shù)據(jù)集均以 OpenBG 為基礎(chǔ)構(gòu)建,構(gòu)建流程如下:


圖片

OpenBG Benchmark 挑戰(zhàn)榜


OpenBG Benchmark 的提出旨在解決當(dāng)前數(shù)字商業(yè)領(lǐng)域知識(shí)圖譜數(shù)據(jù)集相對(duì)匱乏的問(wèn)題,為算法和科研人員提供評(píng)測(cè)基準(zhǔn)去衡量算法模型的有效性?;?OpenBG Benchmark 阿里巴巴藏經(jīng)閣團(tuán)隊(duì)曾在 CCKS2022 大會(huì)成功組織了學(xué)術(shù)評(píng)測(cè)比賽,吸引了 3000 多支隊(duì)伍報(bào)名參賽。目前 OpenBG Benchmark 已經(jīng)在阿里云天池平臺(tái)長(zhǎng)期開(kāi)放,感興趣的研究者們可以訪問(wèn)如下鏈接參與挑戰(zhàn),平臺(tái)會(huì)在每個(gè)月的月底評(píng)出榜單 Top5 選手,并贈(zèng)予天池定制禮品! 


挑戰(zhàn)榜地址:https://tianchi.aliyun.com/dataset/122271


官方也提供了基線代碼供算法人員參考: https://github.com/OpenBGBenchmark


OpenBG 參考論文如下:

  • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.

  • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).

  • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


引用:

[1] https://www.nature.com/articles/nature14539

[2] https://kg.alibaba.com



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

離子色譜儀相關(guān)文章:離子色譜儀原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉