探索大語言模型在圖學(xué)習(xí)上的潛力（附鏈接）

發(fā)布人：數(shù)據(jù)派THU 時間：2023-08-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

論文****：https://arxiv.org/abs/2307.03393
代碼地址https://github.com/CurryTang/Graph-LLM

圖是一種非常重要的結(jié)構(gòu)化數(shù)據(jù)，具有廣闊的應(yīng)用場景。在現(xiàn)實世界中，圖的節(jié)點往往與某些文本形式的屬性相關(guān)聯(lián)。以電商場景下的商品圖(OGBN-Products數(shù)據(jù)集)為例，每個節(jié)點代表了電商網(wǎng)站上的商品，而商品的介紹可以作為節(jié)點的對應(yīng)屬性。在圖學(xué)習(xí)領(lǐng)域，相關(guān)工作常把這一類以文本作為節(jié)點屬性的圖稱為文本屬性圖(Text-Attributed Graph, 以下簡稱為TAG)。TAG在圖機器學(xué)習(xí)的研究中是非常常見的, 比如圖學(xué)習(xí)中最常用的幾個論文引用相關(guān)的數(shù)據(jù)集都屬于TAG。除了圖本身的結(jié)構(gòu)信息以外，節(jié)點對應(yīng)的文本屬性也提供了重要的文本信息，因此需要同時兼顧圖的結(jié)構(gòu)信息、文本信息以及兩者之間的相互關(guān)系。然而，在以往的研究過程中，大家往往會忽視文本信息的重要性。舉例來說，像PYG與DGL這類常用庫中提供的常用數(shù)據(jù)集(比如最經(jīng)典的Cora數(shù)據(jù)集)，都并不提供原始的文本屬性，而只是提供了嵌入形式的詞袋特征。在研究過程中，目前常用的 GNN 更多關(guān)注于對圖的拓?fù)浣Y(jié)構(gòu)的建模，缺少了對節(jié)點屬性的理解。

相比于之前的工作，本文想要研究如何更好地處理文本信息，以及不同的文本嵌入與GNN結(jié)合后如何影響下游任務(wù)的性能。要更好地處理文本信息，那目前最流行的工具便非大語言模型(LLM)莫屬(本文考慮了BERT到GPT4這些在大規(guī)模語料上進(jìn)行了預(yù)訓(xùn)練的語言模型，因此使用LLM來泛指這些模型)。相比于TF-IDF這類基于詞袋模型的文本特征，LLM有以下這幾點潛在的優(yōu)勢。

首先，LLM具有上下文感知的能力，可以更好地處理同形不同意的單詞(polysemous)。
其次，通過在大規(guī)模語料上的預(yù)訓(xùn)練，LLM一般被認(rèn)為有更強的語義理解能力，這點可以從其在各類NLP任務(wù)上卓越的性能體現(xiàn)出來。

考慮到LLM的多種多樣性，本文的目標(biāo)是針對不同種類的LLM設(shè)計出合適的框架。鑒于LLM與GNN的融合問題，本文把LLM首先分類為了嵌入可見與嵌入不可見兩類。像ChatGPT這類只能通過接口進(jìn)行交互的LLM就屬于后者。其次，針對嵌入可見類的LLM，本文考慮三種范式：

以BERT為代表的基于encoder-only結(jié)構(gòu)的預(yù)訓(xùn)練語言模型。這類模型一般需要在下游數(shù)據(jù)進(jìn)行微調(diào)。
以Sentence-BERT為代表的句子嵌入模型，這類模型一般在第一類模型的基礎(chǔ)上進(jìn)行了進(jìn)一步的有監(jiān)督/無監(jiān)督訓(xùn)練，不需要針對下游數(shù)據(jù)進(jìn)行微調(diào)。本文也考慮了以O(shè)penai的text-ada-embedding為代表的商業(yè)嵌入模型。
以LLaMA為代表的開源decoder-only大模型，這類模型一般會比第一類模型有大得多的參數(shù)量。考慮到微調(diào)的成本與災(zāi)難性遺忘的存在，本文主要評測了未經(jīng)微調(diào)的底座模型。

對于這些嵌入可見的大模型，可以首先用它們來生成文本嵌入，然后將文本嵌入作為GNN的初始特征從而將兩類模型融合在一起。然而，對于嵌入不可見的ChatGPT等LLM，如何將它們強大的能力應(yīng)用于圖學(xué)習(xí)相關(guān)的任務(wù)便成為了一個挑戰(zhàn)。

針對這些問題，本文提出了一種將LLM應(yīng)用到圖學(xué)習(xí)相關(guān)任務(wù)的框架，如下圖1與圖2所示。對于第一種模式LLMs-as-Enhancers,主要是利用大模型的能力對原有的節(jié)點屬性進(jìn)行增強，然后再輸入到GNN模型之中來提升下游任務(wù)的性能。針對嵌入可見的LLM，采取特征級別的增強，然后采用層級或迭代式(GLEM, ICLR 2023)的優(yōu)化方法將語言模型與GNN結(jié)合起來。對于嵌入不可見的LLM，采取文本級別的增強，通過LLM對原有的節(jié)點屬性進(jìn)行擴充。考慮到以ChatGPT為代表的LLM的零樣本學(xué)習(xí)與推理能力，本文進(jìn)一步探索了利用prompt的形式來表示圖節(jié)點的屬性與結(jié)構(gòu)，然后利用大模型直接生成預(yù)測的模式，將這種范式稱為LLMs-as-Predictors。

在實驗部分，本文主要采用了節(jié)點分類這一任務(wù)作為研究對象，我們會在最后討論這一選擇的局限性，以及拓展到別的任務(wù)上的可能。接下來，順延著論文中的結(jié)構(gòu)，在這里簡要分享一下各種模式下有趣的發(fā)現(xiàn)。

圖1.LLMs-as-Enhancers的示意圖。對于嵌入可見的大語言模型，直接生成文本嵌入作為GNN的初始節(jié)點特征。對于嵌入不可見的大模型，設(shè)計prompt來增強原有的節(jié)點屬性。

圖2.LLMs-as-Predictors的示意圖。對于嵌入不可見的大語言模型，嘗試更進(jìn)一步，直接通過設(shè)計prompt來讓LLM輸出最后的結(jié)果。

利用LLM進(jìn)行特征增強：LLMs-as-Enhancers

首先，本文研究利用LLM生成文本嵌入，然后輸入到GNN中的模式。在這一模式下，根據(jù)LLM是否嵌入可見，提出了特征級別的增強與文本級別的增強。針對特征級別的增強，進(jìn)一步考慮了語言模型與GNN之間的優(yōu)化過程，將其進(jìn)一步細(xì)分為了級聯(lián)式結(jié)構(gòu)(cascading structure)與迭代式結(jié)構(gòu)(iterative structure)。下面分別介紹兩種增強方法。

圖3.LLMs-as-Enhancers的流程示意圖。前兩張對應(yīng)了特征級別的增強，分別為級聯(lián)式結(jié)構(gòu)與迭代式結(jié)構(gòu)。后一張對應(yīng)了文本級別的增強。

特征級別的增強

對于特征級別的增強，本文考慮的主要是語言模型、GNN、以及優(yōu)化方法三個因素。從語言模型上來說，本文考慮了以Deberta為代表的預(yù)訓(xùn)練語言模型、以Sentence-BERT為代表的開源句子嵌入模型、以text-ada-embedding-002為代表的商業(yè)嵌入模型，以及以LLaMA為代表的開源大模型。對于這些語言模型，本文主要從模型的種類以及模型的參數(shù)規(guī)模來考量其對下游任務(wù)的影響。

從GNN的角度來說，本文主要考慮GNN設(shè)計中的消息傳遞機制對下游任務(wù)的影響。本文主要選取了GCN,SAGE與GAT這兩個比較有代表性的模型，針對OGB上的數(shù)據(jù)集，本文選取了目前排行榜上名列前茅的模型RevGAT與SAGN。本文也納入了MLP對應(yīng)的性能來考察原始嵌入的下游任務(wù)性能。

從優(yōu)化方法的角度，本文主要考察了級聯(lián)式結(jié)構(gòu)與迭代式結(jié)構(gòu)。

對于級聯(lián)式結(jié)構(gòu)，本文考慮直接通過語言模型輸出文本嵌入。對于那些規(guī)模較小可以進(jìn)行微調(diào)的模型，本文考慮了基于文本的微調(diào)與基于結(jié)構(gòu)的自監(jiān)督訓(xùn)練(ICLR 2022, GIANT)。不管是哪種方式，最后會得到一個語言模型，然后利用它來生成文本嵌入。這一過程中，語言模型與GNN的訓(xùn)練是分開的。
對于迭代式結(jié)構(gòu)，本文主要考察GLEM方法(ICLR 2023)，它使用EM和變分推斷來對GNN和語言模型進(jìn)行迭代式的共同訓(xùn)練。

在實驗部分，本文選取了幾個有代表性的常用TAG數(shù)據(jù)集，具體的實驗設(shè)定可以參考我們的論文。接下來，首先展示這一部分的實驗結(jié)果(鑒于空間有限，在這里展示了兩個大圖上的實驗結(jié)果)，然后簡要討論一些有意思的實驗結(jié)果。

圖4.Arxiv與Products數(shù)據(jù)集上的實驗結(jié)果，左邊對應(yīng)的是不同的語言模型，上方對應(yīng)的是不同的GNN。黃綠紅分別對應(yīng)排名第一第二第三的組合。

從實驗結(jié)果來看，有以下幾個有意思的結(jié)論。

第一，GNN對不同的文本嵌入有截然不同的有效性。特別明顯的一個例子發(fā)生在Products數(shù)據(jù)集上，以MLP作為分類器時，經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型Deberta-base的嵌入要比TF-IDF的結(jié)果好很多。然而，當(dāng)使用GNN模型后，兩者的差異很小，特別是使用SAGN模型時TF-IDF的表現(xiàn)要更好。這一現(xiàn)象可能與GNN的過光滑、過相關(guān)性有關(guān)，但目前還沒有比較完整的解釋，因此也是一個有意思的研究課題。

第二，使用句子向量模型作為編碼器，然后與GNN級聯(lián)起來，可以獲得很好的下游任務(wù)性能。特別是在Arxiv這個數(shù)據(jù)集上，簡單將Sentence-BERT與RevGAT級聯(lián)起來，就可以達(dá)到接近GLEM的性能，甚至超過了做了自監(jiān)督訓(xùn)練的GIANT。注意，這并不是因為用了一個參數(shù)量更大的語言模型，這里使用的Sentence-BERT為MiniLM版本，甚至比GIANT使用的BERT參數(shù)量更小。這里可能的一個原因是基于Natural Language Inference(NLI)這個任務(wù)訓(xùn)練的Sentence-BERT提供了隱式的結(jié)構(gòu)信息，從形式上來說NLI與link prediction的形式也有一些相似。當(dāng)然，這還只是非常初步的猜想，具體的結(jié)論還需要進(jìn)一步探究。另外，從這一結(jié)果也給了一些啟發(fā)，比如考慮圖上的預(yù)訓(xùn)練模型時，能不能直接預(yù)訓(xùn)練一個語言模型，通過語言模型預(yù)訓(xùn)練更加成熟的解決方案，是不是還可以獲得比預(yù)訓(xùn)練GNN更好的效果。同時，OpenAI提供的收費嵌入模型在節(jié)點分類這個任務(wù)上相比開源模型的提升很小。

第三，相比于未經(jīng)微調(diào)的Deberta，LLaMA能夠取得更好的結(jié)果，但是與句子嵌入這一類的模型還是有不小的差距。這說明相比于模型的參數(shù)大小，可能模型的種類是更重要的考量。對于Deberta，本文采用的是[CLS]作為句子向量。對于LLaMA，本文使用了langchain中的llama-cpp-embedding，它的實現(xiàn)中采用了[EOS]作為句子向量。在之前的相關(guān)研究中，已經(jīng)有一些工作說明了為什么[CLS]在未經(jīng)微調(diào)時性能很差，主要是由于其本身的各項異性，導(dǎo)致很差的可分性。經(jīng)過實驗，在高樣本率的情況下，LLaMA生成的文本嵌入可以取得不錯的下游任務(wù)性能，從側(cè)面說明了模型的參數(shù)量增大可能可以一定程度上緩解這一問題。

文本級別的增強

對于特征級別的增強，本文得到了一些有意思的結(jié)果。但是，特征級別的增強還是需要語言模型是嵌入可見的。對于ChatGPT這類嵌入不可見的模型，可以使用文本級別的增強。對于這一部分，本文首先研究了一篇最近掛在Arxiv上的文章Explanation as features(TAPE)，其思想是利用LLM生成的對于預(yù)測的解釋作為增強的屬性，并通過集成的方法在OGB Arxiv的榜單上排到了第一名的位置。另外，本文也提出了一種利用LLM進(jìn)行知識增強的手段Knowledge-Enhanced Augmentation(KEA)，其核心思想是把LLM作為知識庫，發(fā)掘出文本中與知識相關(guān)的關(guān)鍵信息，然后生成更為詳盡的解釋，主要是為了不足參數(shù)量較小的語言模型本身知識信息的不足。兩種模型的示意圖如下所示。

圖5.文本級別增強的示意圖

圖6.TAPE的輸出樣例。增強后的屬性有三部分：原始屬性TA，生成的解釋E，以及偽標(biāo)簽P。

圖7.KEA的輸出樣例。增強后可以得到一個字典形式的關(guān)鍵詞與對應(yīng)解釋的映射。本文嘗試了兩種方法來講原始屬性與增強屬性拼接起來，第一種是直接在文本層面的拼接，一種是分別編碼后進(jìn)行集成，分別記為KEA-I與KEA-S。

為了測試兩種方法的有效性，本文沿用了第一部分的實驗設(shè)定。同時，考慮到使用LLM的成本，本文在Cora與Pubmed兩個小圖上進(jìn)行了實驗。對于LLM，我們選用了gpt-3.5-turbo，也就是大家所熟知的ChatGPT。首先，為了更好地理解如何進(jìn)行文本級別的增強以及TAPE的有效性，我們針對TAPE進(jìn)行了詳細(xì)的消融實驗。

圖8.TAPE的消融實驗結(jié)果，TA表示原始特征，E表示LLM生成的預(yù)測與解釋，P表示LLM生成的偽標(biāo)簽

在消融實驗中，我們主要考慮了以下幾個問題

TAPE的有效性主要來源于生成的解釋E還是偽標(biāo)簽P
用哪種語言模型來編碼增強的屬性是最合適的

從實驗結(jié)果可以看到，偽標(biāo)簽非常依賴于LLM本身的zero shot預(yù)測能力（會在下一章詳細(xì)討論），在低樣本率時，可能反而會拖累集成后的性能。因此，在后續(xù)的實驗中，本文只使用原始屬性TA與解釋E。其次，句子編碼相比于微調(diào)預(yù)訓(xùn)練模型，可以在低標(biāo)注率下取得更好的效果，因此本文采用句子編碼模型e5。除此以外，一個有趣的現(xiàn)象是在Pubmed數(shù)據(jù)集上，當(dāng)使用了增強后的特征，基于微調(diào)的方法可以取得非常好的性能。一種可能的解釋是模型主要是學(xué)到了LLM預(yù)測結(jié)果的“捷徑”(shortcut)，因此TAPE的性能會與LLM本身的預(yù)測準(zhǔn)確率高度相關(guān)。接下來，我們比較TAPE與KEA之間的有效性。

圖9.KEA與TAPE的比較

實驗結(jié)果中，KEA與TAPE相比原始特征都有一定的提升。其中，KEA在Cora上可以取得更好的效果，而TAPE在Pubmed上更為有效。經(jīng)過下一章的討論后，會發(fā)現(xiàn)這與LLM在Pubmed上本身就有良好的預(yù)測性能有關(guān)。相比于TAPE，由于KEA不依賴LLM的預(yù)測，所以在不同數(shù)據(jù)集上的表現(xiàn)會更穩(wěn)定一些。超越這兩個數(shù)據(jù)集之外，這種文本級別的增強還有更多的應(yīng)用場景。像BERT或者T5這一類比較小的預(yù)訓(xùn)練語言模型，往往不具備ChatGPT級別的推理能力，同時也沒有辦法像ChatGPT那樣對不同領(lǐng)域的諸如代碼、格式化文本有良好的理解能力。因此，在涉及到這些場景的問題時，可以通過ChatGPT這類大模型對原有的內(nèi)容進(jìn)行轉(zhuǎn)換。在轉(zhuǎn)換過后的數(shù)據(jù)上訓(xùn)練一個較小的模型可以有更快的推理速度與更低的推理成本。同時，如果本身也有一定量的標(biāo)注樣本，通過微調(diào)的方式會比上下文學(xué)習(xí)更好地掌握數(shù)據(jù)集中的一些個性化信息。

利用LLM進(jìn)行預(yù)測: LLMs-as-Predictors

在這一部分，本文進(jìn)一步考慮能否拋棄GNN，通過設(shè)計prompt來讓LLM生成有效的預(yù)測。由于本文主要考慮的是節(jié)點分類任務(wù)，因此一個簡單的基線是把節(jié)點分類看作是文本分類任務(wù)來處理。基于這個想法，本文首先設(shè)計了一些簡單的prompt來測試LLM在不使用任何圖結(jié)構(gòu)的情況下能有多少性能。本文主要考慮了zero shot, few shot,并且測試了使用思維鏈Chain of thought的效果。

圖10.不考慮圖結(jié)構(gòu)信息的Prompt設(shè)計

實驗結(jié)果如下圖所示。LLM在不同的數(shù)據(jù)集上的性能差異非常大。在Pubmed數(shù)據(jù)集上，可以看到LLM在zero shot情況下的性能甚至超過了GNN。而在Cora,Arxiv等數(shù)據(jù)集上，又與GNN有較大的差距。注意，對于這里的GNN，在Cora，CiteSeer，Pubmed上，每一類有20個樣本被選為訓(xùn)練集，而Arxiv與Products數(shù)據(jù)集上有更多的訓(xùn)練樣本。相比之下，LLM的預(yù)測是基于零樣本或者少樣本的，而GNN并不具備零樣本學(xué)習(xí)的能力，在少樣本的情況下性能也會很差。當(dāng)然，輸入長度的限制也使得LLM無法囊括更多的上下文樣本。

圖11.不考慮圖結(jié)構(gòu)信息的Prompt結(jié)果

通過對實驗結(jié)果進(jìn)行分析，在某些情況下LLM預(yù)測錯的結(jié)果也是比較合理的。一個例子如圖12所示。可以看到，很多論文本身也是交叉領(lǐng)域的，因此預(yù)測時LLM通過自身的常識性信息進(jìn)行推理，有時并不能與標(biāo)注的偏好匹配到一起。這也是值得思考的問題：這種單標(biāo)簽的設(shè)定是合理的嗎？

圖12.合理的錯誤

此外，在Arxiv數(shù)據(jù)集上LLM的表現(xiàn)最差，這與TAPE中的結(jié)論并不一致，因此需要比較一下兩者的prompt有什么差異。TAPE使用的prompt如下所示。

Abstract: <abstract text> n Title: <title text> n Question: Which arXiv CS sub-categorydoes this paper belong to? Give 5 likely arXiv CS sub-categories as a comma-separated list ordered from most to least likely, in the form “cs.XX”, and provide your reasoning. n n Answer:

有意思的是，TAPE甚至都沒有在prompt中指明數(shù)據(jù)集中存在哪些類別，而是直接利用了LLM中存在的關(guān)于arxiv的知識信息。奇怪的是，通過這個小變化，LLM預(yù)測的性能有巨大的改變，這不禁讓人懷疑與本身測試集標(biāo)簽泄漏有關(guān)。作為高質(zhì)量的語料，arxiv上的數(shù)據(jù)大概率是被包含在了各種LLM的預(yù)訓(xùn)練之中，而TAPE的prompt可能使得LLM可以更好地回憶起這些預(yù)訓(xùn)練語料。這提醒我們需要重新思考評估的合理性，因為這時的準(zhǔn)確率可能反映的并不是prompt的好壞與語言模型的能力，而僅僅只是LLM的記憶問題。以上兩個問題都與數(shù)據(jù)集的評估有關(guān)，是非常有價值的未來方向。

進(jìn)一步地，本文也考慮了能否在prompt中通過文本的形式把結(jié)構(gòu)信息也包含進(jìn)來。本文測試了幾種方式來在prompt中表示結(jié)構(gòu)化的信息。具體地，我們嘗試了使用自然語言“連接”來表示邊關(guān)系以及通過總結(jié)周圍鄰居節(jié)點的信息來隱式表達(dá)邊關(guān)系。

結(jié)果表明，以下這種隱式表達(dá)的方式最為有效。

Paper:<paper content>
NeighborSummary:<Neighborsummary>
Instruction:<Task instruction>

具體來說，模仿GNN的思路，對二階鄰居節(jié)點進(jìn)行采樣，然后將對應(yīng)的文本內(nèi)容輸入到LLM中，讓其進(jìn)行一個總結(jié)，作為結(jié)構(gòu)相關(guān)信息，一個樣例如圖13所示。

圖13.利用LLM進(jìn)行總結(jié)的prompt示例

本文在幾個數(shù)據(jù)集上測試了prompt的有效性，結(jié)果如圖14所示。在除了Pubmed以外的其他四個數(shù)據(jù)集上，都可以相對不考慮結(jié)構(gòu)的情況獲得一定的提升，反映了方法的有效性。進(jìn)一步地，本文分析了這個prompt為什么在Pubmed數(shù)據(jù)集上失效。

圖14.考慮圖結(jié)構(gòu)信息的Prompt結(jié)果

在Pubmed數(shù)據(jù)集上，很多情況下樣本的標(biāo)注會直接出現(xiàn)在樣本的文本屬性中。一個例子如下所示。由于這個特性的存在，想要在Pubmed數(shù)據(jù)集上取得比較好的結(jié)果，可以通過學(xué)習(xí)到這種“捷徑”，而LLM在此數(shù)據(jù)集上特別好的表現(xiàn)可能也正源于此。在這種情況下，如果加上總結(jié)后的鄰居信息，可能反而會使得LLM更難捕捉到這種“捷徑”信息，因此性能會下降。

Title: Predictive power of sequential measures of albuminuria for progression to ESRD or death in Pima Indians with type 2 diabetes. ... (content omitted here)
Ground truth label: Diabetes Mellitus Type 2

進(jìn)一步地，在一些鄰居與本身標(biāo)簽不同的異配(heterophilous)點上，LLM同GNN一樣會受到鄰居信息的干擾，從而輸出錯誤的預(yù)測。

圖15.鄰居的異配性造成錯誤預(yù)測

GNN的異配性也是一個很有意思的研究方向，大家也可以參考我們的論文Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All?

案例研究：利用LLM生成標(biāo)注

從上文的討論中可以看到，在一些情況下LLM可以取得良好的零樣本預(yù)測性能，這使得它有代替人工為樣本生成標(biāo)注的潛力。本文初步探索了利用LLM生成標(biāo)注，然后用這些標(biāo)注訓(xùn)練GNN的可能性。

圖16.利用LLM生成標(biāo)注訓(xùn)練GNN

針對這一問題，有兩個需要研究的點

如何根據(jù)圖結(jié)構(gòu)和屬性選擇圖中重要的點，來使得標(biāo)注的收益最大化，這與圖上主動學(xué)習(xí)的設(shè)定類似
如果估計LLM生成的標(biāo)注質(zhì)量，并且過濾錯誤的標(biāo)注

討論

最后，簡要討論一下本文的局限性，以及一些有意思的后續(xù)方向。首先，需要說明的是本文主要針對的還是節(jié)點分類這個任務(wù)，而這個pipeline要擴展到更多的圖學(xué)習(xí)任務(wù)上還需要更多的研究，從這個角度來說標(biāo)題或許也有一些overclaim。另外，也有一些場景下無法獲取有效的節(jié)點屬性。比如，金融交易網(wǎng)絡(luò)中，很多情況下用戶節(jié)點是匿名的，這時如何構(gòu)造能夠讓LLM理解的有意義的prompt就成為了新的挑戰(zhàn)。

其次，如何降低LLM的使用成本也是一個值得考慮的問題。在文中，討論了利用LLM進(jìn)行增強，而這種增強需要使用每個節(jié)點作為輸入，如果有N個節(jié)點，那就需要與LLM有N次交互，有很高的使用成本。在實驗過程中，我們也嘗試了像Vicuna這類開源的模型，但是生成的內(nèi)容質(zhì)量相比ChatGPT還是相去甚遠(yuǎn)。另外，基于API對ChatGPT進(jìn)行調(diào)用目前也無法批處理化，所以效率也很低。如何在保證性能的情況下降低成本并提升效率，也是值得思考的問題。

最后，一個重要的問題就是LLM的評估。在文中，已經(jīng)討論了可能存在的測試集泄漏問題以及單標(biāo)注設(shè)定不合理的問題。要解決第一個問題，一個簡單的想法是使用不在大模型預(yù)訓(xùn)練語料范圍內(nèi)的數(shù)據(jù)，但這也需要我們不斷地更新數(shù)據(jù)集并且生成正確的人工標(biāo)注。對于第二個問題，一個可能的解決辦法是使用多標(biāo)簽(multi label)的設(shè)定。對于類似arxiv的論文分類數(shù)據(jù)集，可以通過arxiv本身的類別生成高質(zhì)量的多標(biāo)簽標(biāo)注，但對更一般的情況，如何生成正確的標(biāo)注還是一個難以解決的問題。

參考文獻(xiàn)

[1] Zhao J, Qu M, Li C, et al. Learning on large-scale text-attributed graphs via variational inference[J]. arXiv preprint arXiv:2210.14709, 2022.[2] Chien E, Chang W C, Hsieh C J, et al. Node feature extraction by self-supervised multi-scale neighborhood prediction[J]. arXiv preprint arXiv:2111.00064, 2021.[3] He X, Bresson X, Laurent T, et al. Explanations as Features: LLM-Based Features for Text-Attributed Graphs[J]. arXiv preprint arXiv:2305.19523, 2023.

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

探索大語言模型在圖學(xué)習(xí)上的潛力（附鏈接）

相關(guān)推薦

技術(shù)專區(qū)