ACL 2021 | PENS: 個(gè)性化新聞標(biāo)題生成數(shù)據(jù)集
編者按:數(shù)字信息時(shí)代人們獲取新聞的方式越來越高效,但是獲取新聞中關(guān)鍵信息的效率卻很低。而 NLP 領(lǐng)域的新聞標(biāo)題生成任務(wù) (News Headline Generation)則可以基于新聞?wù)?,自?dòng)生成包含關(guān)鍵信息的簡短標(biāo)題,使讀者可以高效地獲知新聞中的重要內(nèi)容。
為了開展新聞標(biāo)題生成任務(wù)的研究,微軟亞洲研究院的研究員們構(gòu)建了第一個(gè)可以離線評測個(gè)性化新聞標(biāo)題生成方法的基準(zhǔn)數(shù)據(jù)集:PENS(PErsonalized News headlineS)數(shù)據(jù)集;同時(shí)還提出了一種個(gè)性化新聞標(biāo)題生成的通用框架,并且對其進(jìn)行了效果評估。該論文 “PENS: A Dataset and Generic Framework for Personalized News Headline Generation” 已被 ACL 2021 收錄。歡迎感興趣的讀者積極留言,交流感想!
在數(shù)字信息時(shí)代,由于文本信息的數(shù)量、傳播速度都以指數(shù)形式增長,因此導(dǎo)致信息過載問題日趨嚴(yán)重。以新聞為例,每天新發(fā)布的新聞消息不計(jì)其數(shù),用戶難以在有限的時(shí)間內(nèi),從海量的新聞中篩選出感興趣的文章進(jìn)一步閱讀,因而用簡明的語言概括新聞的關(guān)鍵信息非常重要。在 NLP 領(lǐng)域,新聞標(biāo)題生成任務(wù)(News Headline Generation)可以基于新聞?wù)模詣?dòng)生成包含關(guān)鍵信息的簡短標(biāo)題,使讀者高效地獲知新聞中的重要內(nèi)容。由于標(biāo)題本身是對新聞?wù)牡母叨雀爬?,因此生成?biāo)題的簡潔性、流暢性和事實(shí)一致性,對該技術(shù)來說是一項(xiàng)挑戰(zhàn)。
近年來,隨著用戶個(gè)性化服務(wù)的普及與人工智能技術(shù)的進(jìn)步,新聞網(wǎng)站等內(nèi)容平臺希望通過標(biāo)題來吸引讀者的閱讀興趣,但同時(shí)又要避免“標(biāo)題黨”現(xiàn)象的發(fā)生。因此,生成個(gè)性化新聞標(biāo)題成為標(biāo)題生成領(lǐng)域的一個(gè)全新研究方向。
什么是個(gè)性化新聞標(biāo)題呢?舉個(gè)例子,有一篇報(bào)道籃球比賽的新聞,其潛在的用戶受眾通常是比賽球隊(duì)的球迷。如果新聞標(biāo)題不考慮用戶的閱讀興趣,只是客觀地描述比賽結(jié)果,那么輸球一方的球迷進(jìn)一步閱讀這條新聞的概率可能較小,因?yàn)楫?dāng)他們看到標(biāo)題時(shí)就已經(jīng)知道自己支持的球隊(duì)輸了比賽,再具體了解輸球過程的意愿就會(huì)相對較低。但是,如果考慮用戶的閱讀興趣,對不同球隊(duì)的球迷呈現(xiàn)個(gè)性化的標(biāo)題(如圖1所示),那么即使是輸球方的球迷,可能也愿意去了解這條新聞的內(nèi)容。比如,以球迷支持的球星為標(biāo)題的核心詞,突出球員的個(gè)人表現(xiàn)。
圖1:個(gè)性化新聞標(biāo)題的實(shí)例
個(gè)性化新聞標(biāo)題生成任務(wù)的定義是:給定用戶歷史閱讀行為數(shù)據(jù)和候選新聞內(nèi)容,生成用戶專屬的不同新聞標(biāo)題。生成的標(biāo)題既要引起用戶的閱讀興趣,提高用戶進(jìn)一步閱讀、獲取更高點(diǎn)擊和閱讀量的可能,又要兼顧新聞標(biāo)題的事實(shí)一致性,保證用戶的閱讀質(zhì)量,避免成為標(biāo)題黨。它有兩個(gè)重點(diǎn)子任務(wù):
①學(xué)習(xí)用戶的個(gè)性化閱讀興趣:通過用戶歷史閱讀行為信息,可以對用戶的個(gè)性化閱讀興趣建模,從而學(xué)習(xí)用戶的個(gè)性化表示;
②生成個(gè)性化新聞標(biāo)題:將用戶的個(gè)性化表示算法與新聞標(biāo)題生成算法融合,實(shí)現(xiàn)為不同閱讀興趣的用戶生成不同的新聞標(biāo)題。
因此,以個(gè)性化標(biāo)題展示的新聞,由于更能引起用戶的閱讀興趣,進(jìn)而可能獲得更高的點(diǎn)擊和閱讀量,將成為新聞平臺關(guān)注的新興研究領(lǐng)域。
可離線評測的數(shù)據(jù)集 PENS
開展個(gè)性化新聞標(biāo)題生成的研究,需要一個(gè)大規(guī)模的數(shù)據(jù)集,以開展離線評測。否則,當(dāng)測試不同算法的表現(xiàn)時(shí),研究者可能需要不斷重復(fù)線上 A/B 測試,或者通過組織人工評價(jià)的方式來觀察算法效果,不但實(shí)現(xiàn)成本高,而且公平性及可復(fù)現(xiàn)性均難以保證。
為了進(jìn)一步研究個(gè)性化新聞標(biāo)題的生成,微軟亞洲研究院的研究員們構(gòu)建了PENS(PErsonalized News headlineS)數(shù)據(jù)集,該數(shù)據(jù)集是第一個(gè)離線評測個(gè)性化新聞標(biāo)題生成方法的基準(zhǔn)數(shù)據(jù)集,且所有數(shù)據(jù)基于 Microsoft News 用戶的匿名化新聞點(diǎn)擊記錄構(gòu)建,同時(shí)包含了用戶行為信息和新聞?wù)Z料信息。
PENS 的新聞?wù)Z料庫包含了約11萬則英文新聞文章,每篇新聞文章都由四部分內(nèi)容組成:新聞ID、新聞標(biāo)題、新聞?wù)暮托侣勵(lì)悇e標(biāo)簽。所有訓(xùn)練和測試數(shù)據(jù)中出現(xiàn)的新聞,都與語料庫中文章的新聞 ID一一對應(yīng)。
PENS 的訓(xùn)練數(shù)據(jù)集則包含了匿名用戶的新聞曝光日志(Impression Log),其中包括44萬名匿名用戶的50萬次新聞曝光日志,以及每名用戶的歷史點(diǎn)擊信息。具體而言,每一條訓(xùn)練數(shù)據(jù)都由五部分內(nèi)容組成:用戶 ID、曝光時(shí)間戳、點(diǎn)擊新聞列表、未點(diǎn)擊新聞列表、用戶歷史點(diǎn)擊新聞列表。所有列表中出現(xiàn)的新聞按首次曝光時(shí)間排序。
為了滿足離線評測的需求,研究員們邀請了103名以英語為母語的高校學(xué)生(以下簡稱“標(biāo)注者”),人工創(chuàng)建 PENS 的測試數(shù)據(jù)集。其構(gòu)造過程分為兩個(gè)階段:第一階段,每位標(biāo)注者瀏覽1000條從新聞?wù)Z料庫中隨機(jī)抽取的新聞標(biāo)題,并從中選擇至少50個(gè)自己感興趣的標(biāo)題,視為該用戶的歷史點(diǎn)擊行為;第二階段,每位標(biāo)注者為另外200篇新聞?wù)淖珜懶闹械睦硐霕?biāo)題。這些人工撰寫的新聞標(biāo)題由專業(yè)新聞編輯審查質(zhì)量。低質(zhì)量的標(biāo)題會(huì)被刪除(例如過長、過短或與正文不符),剩余合格的標(biāo)題作為相應(yīng)用戶的個(gè)性化新聞標(biāo)題的黃金標(biāo)準(zhǔn)。
研究員們認(rèn)為,這些標(biāo)注者雖然不具備專業(yè)的新聞編輯素養(yǎng),但其人工撰寫的標(biāo)題能夠充分反映他們的個(gè)性化閱讀興趣,因此可以作為測試時(shí)的“標(biāo)準(zhǔn)答案”。最終,這103名標(biāo)注者構(gòu)建的點(diǎn)擊行為數(shù)據(jù)和撰寫的2萬多個(gè)個(gè)性化新聞標(biāo)題構(gòu)成了 PENS 的測試數(shù)據(jù)集。在此數(shù)據(jù)集上,個(gè)性化新聞標(biāo)題生成方法可以采用文本生成中常采用的評價(jià)指標(biāo)來評估其效果,如 BLEU、ROUGE 等。
表1:PENS數(shù)據(jù)集統(tǒng)計(jì)信息
圖2:PENS數(shù)據(jù)集新聞標(biāo)題和正文長度分布(a,b)
標(biāo)題和正文中實(shí)體數(shù)量分布(c,d)、新聞主題分布(e)和用戶點(diǎn)擊歷史長度分布(f)
個(gè)性化新聞標(biāo)題生成通用框架
目前,還沒有專門的方法來生成個(gè)性化新聞標(biāo)題,為了填補(bǔ)這個(gè)空白,微軟亞洲研究院的研究員們還提出了一種個(gè)性化新聞標(biāo)題生成的通用框架。研究員們設(shè)計(jì)了一種以 Transformer 編碼器和指針網(wǎng)絡(luò)****為基本模型的新聞標(biāo)題生成器,并提出了三種通過向基本模型注入用戶個(gè)性化信息的方法,來生成個(gè)性化標(biāo)題。框架的結(jié)構(gòu)如圖3所示:
圖3:個(gè)性化新聞標(biāo)題生成的通用框架
標(biāo)題生成器,由 Transformer 編碼器和指針網(wǎng)絡(luò)****組成。Transformer 編碼器編碼候選新聞的文本信息,學(xué)習(xí)新聞?wù)膯卧~的隱藏表示 h=[h_(v_1),h_(v_2),?,h_(v_n)]。在解碼過程的第 t 步,指針網(wǎng)絡(luò)****首先會(huì)采用注意力機(jī)制來計(jì)算當(dāng)前隱藏狀態(tài) s_t 對新聞?wù)膯卧~的注意力分布 a_t=[a_(v_1),a_(v_2),?,a_(v_n)];然后基于此注意力分布,加權(quán)求和得到上下文向量 c_t;最后,原始詞匯表中每個(gè)單詞生成的概率分布 P_vocab,以及選擇原始詞匯或直接復(fù)制新聞?wù)膯卧~的指針 p_gen^t,可由 c_t,s_t 等參數(shù)得到。最后第 t 步解碼詞的總體概率 w_t 分布為:
用戶個(gè)性化注入,所提出的框架共設(shè)計(jì)了三種形式:①將用戶個(gè)性化表示( User Embedding ) 作為指針網(wǎng)絡(luò)****的初始隱藏狀態(tài),進(jìn)而實(shí)現(xiàn)影響生成詞語的總體概率分布 P(w_t);②將 User Embedding 加入到對正文單詞注意力分布 a_t 的計(jì)算中,區(qū)分不同用戶對正文單詞的關(guān)注程度,從而影響****從原文復(fù)制單詞的概率分布 P_copy;③將 User Embedding 加入到 p_gen^t 的計(jì)算中,從而影響解碼階段的單詞是來自詞表生成還是來自正文復(fù)制。
研究員們在 PENS 數(shù)據(jù)集上驗(yàn)證了該框架的效果。為了對比個(gè)性化與非個(gè)性化的差異,研究員們首先對比了兩種代表性的標(biāo)題生成方法:基本的指針生成網(wǎng)絡(luò)(用 Pointer-Gen 表示)和用強(qiáng)化學(xué)習(xí)框架拓展的指針生成網(wǎng)絡(luò)(用 PG+RL-ROUGE 表示)。由于論文中提出的框架并未限制用戶表示的學(xué)習(xí)方法(它們通??捎蓚€(gè)性化新聞推薦算法學(xué)習(xí)得到),因此研究員們采用了6種代表性的個(gè)性化新聞推薦算法:EBNR、DKN、NPA、NRMS、LSTUR 和 NAML。這6種個(gè)性化新聞推薦算法按照本文框架中的三種注入方式,分別注入研究員們提出的標(biāo)題生成器,從而可以得到18種具體的個(gè)性化新聞標(biāo)題生成方法。
評價(jià)指標(biāo)上,實(shí)驗(yàn)以 AUC、MRR、nDCG@5 和 nDCG@10 作為用戶興趣建模性能的評價(jià)指標(biāo),以 ROUGE-1,ROUGE-2,ROUGE-L 的 F1 均值作為個(gè)性化標(biāo)題生成質(zhì)量的評價(jià)指標(biāo)。這里采用 ROUGE 系列指標(biāo)是因?yàn)檠芯繂T們更關(guān)注召回率,即用戶撰寫的標(biāo)題內(nèi)容出現(xiàn)在生成結(jié)果中的比率。對比結(jié)果請見表2。
表2:實(shí)驗(yàn)結(jié)果(IM指用戶個(gè)性化表示的注入方式)
分析表2可得到以下結(jié)論:
①所有個(gè)性化新聞標(biāo)題生成方法的表現(xiàn)都優(yōu)于普通標(biāo)題生成方法。這是因?yàn)樵摲椒軌蚋鶕?jù)學(xué)習(xí)到的用戶興趣來生成個(gè)性化的新聞標(biāo)題,個(gè)性化標(biāo)題與用戶撰寫的新聞標(biāo)題具有更高的相似度。通過表3的樣例所示,該個(gè)性化標(biāo)題生成方法可以從用戶的歷史點(diǎn)擊行為中捕捉到個(gè)性化閱讀興趣的信息,并根據(jù)不同用戶的興趣,為同一篇新聞生成不同的個(gè)性化標(biāo)題。
表3:個(gè)性化標(biāo)題生成樣例
②用戶的個(gè)性化建模方法在個(gè)性化標(biāo)題生成任務(wù)中起到了重要作用。更好的用戶建模方法可以從用戶行為歷史中獲得更豐富的個(gè)性化信息,進(jìn)而生成更好的個(gè)性化標(biāo)題。如 NAML 方法在用戶興趣建模的4項(xiàng)指標(biāo)上均得到了最高分,同時(shí)也在3種個(gè)性化注入方式中取得了最高的 ROUGE 分?jǐn)?shù),這意味著該方法生成的個(gè)性化新聞標(biāo)題質(zhì)量更好。
③第二種用戶興趣注入方式在大多數(shù)用戶建模方法中表現(xiàn)最好。這可能是因?yàn)橛脩舻拈喿x興趣很可能具體表現(xiàn)為對正文中的人名、地名、事件等重點(diǎn)信息的關(guān)注,這些單詞有更大的概率是通過指針網(wǎng)絡(luò)****中的拷貝機(jī)制生成至標(biāo)題中的,所以讓用戶興趣表示直接去影響從正文復(fù)制單詞的概率分布,也許是最直接、有效的一種方法。但是第二種方式并沒有在所有用戶建模方法中達(dá)到最佳效果(如 NPA、LSTUR)。因此,更好的用戶個(gè)性化注入方式還有待進(jìn)一步探索。
總結(jié)
本文針對個(gè)性化新聞標(biāo)題生成進(jìn)行了研究,并構(gòu)建了名為 PENS 的數(shù)據(jù)集,這是第一個(gè)可以采用離線方式評測個(gè)性化新聞標(biāo)題生成方法的基準(zhǔn)數(shù)據(jù)集;此外,研究員們還提出了一個(gè)通用的個(gè)性化新聞標(biāo)題生成方法框架,以三種不同的方式將用戶興趣注入到編碼器-****結(jié)構(gòu)的標(biāo)題生成器中,用于生成個(gè)性化新聞標(biāo)題。最后,研究員們也比較了用戶建模和標(biāo)題生成的 SOTA 方法,用以提供 PENS 的基準(zhǔn)分?jǐn)?shù)。結(jié)果表明,該提出的方法及通用框架均達(dá)到了滿意的效果,不過目前仍存在一些問題,更好的用戶個(gè)性化注入方式還有待進(jìn)一步探索。
了解更多信息,請?jiān)L問:
論文鏈接:
https://www.microsoft.com/en-us/research/publication/pens-a-dataset-and-generic-framework-for-personalized-news-headline-generation/
GitHub主頁:
https://msnews.github.io/pens.html
本文作者:
敖翔、王希廷、羅玲、喬穎、何清、謝幸
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
高壓發(fā)生器相關(guān)文章:高壓發(fā)生器原理 絕緣電阻測試儀相關(guān)文章:絕緣電阻測試儀原理