基于模板的對(duì)幾種特殊結(jié)構(gòu)句子的語(yǔ)句改寫
0 引 言
語(yǔ)句改寫是在不改變?cè)Z(yǔ)句表達(dá)意思的條件下的另一種表達(dá)方式,其技術(shù)可以應(yīng)用到信息檢索、問(wèn)答系統(tǒng)、自動(dòng)文摘以及機(jī)器翻譯等系統(tǒng)中,并能夠有效地提高相應(yīng)系統(tǒng)的性能。
有關(guān)句改寫方面的研究資料有很多,如漢語(yǔ)語(yǔ)句改寫,對(duì)語(yǔ)句改寫語(yǔ)料庫(kù)的構(gòu)筑、改寫規(guī)則抽出及改寫句的生成等進(jìn)行了綜述,并介紹了采用外國(guó)名著的多個(gè)中文譯本進(jìn)行句子對(duì)齊,獲得句子的改寫實(shí)例從而構(gòu)建改寫語(yǔ)料庫(kù)的研究。文獻(xiàn)將語(yǔ)句改寫應(yīng)用于漢語(yǔ)口語(yǔ)的機(jī)器翻譯中,采用基于句子分析和語(yǔ)言生成技術(shù)的方法對(duì)口語(yǔ)句子進(jìn)行了改寫。關(guān)于英語(yǔ)和日語(yǔ)的語(yǔ)句改寫研究,如文獻(xiàn)從語(yǔ)料庫(kù)中抽取用于改寫研究的改寫句子語(yǔ)料,注重于改寫語(yǔ)料庫(kù)資源的構(gòu)筑研究,對(duì)改寫句的生成涉較少。文獻(xiàn)則采用一種近似于無(wú)指導(dǎo)的學(xué)習(xí)方法將日語(yǔ)中的名詞短語(yǔ)改寫為動(dòng)詞短語(yǔ)或是相關(guān)的從句,這種方法幾乎不需要手工干預(yù),而且易于實(shí)現(xiàn)機(jī)器學(xué)習(xí)。文獻(xiàn)實(shí)現(xiàn)了對(duì)英語(yǔ)的改寫,把被改寫句中一系列不間斷的單詞事先編碼后映射到模板中,將從模板語(yǔ)法中抽取出的改寫規(guī)則遞歸的運(yùn)用到改寫句的生成中,這種方法要求改寫句子的長(zhǎng)度一般在5~12個(gè)單詞內(nèi)。
由于漢語(yǔ)缺乏嚴(yán)格的形態(tài)變化,既不像英語(yǔ)有詞序、時(shí)態(tài)、人稱、詞尾變化等可參考,又不像日語(yǔ)有格助詞和詞尾變化等幫助決定句子的語(yǔ)法結(jié)構(gòu)和時(shí)態(tài),語(yǔ)序和虛詞是漢語(yǔ)表達(dá)的重要手段。所以漢語(yǔ)語(yǔ)句改寫的研究要相對(duì)困難。本文在對(duì)語(yǔ)句的語(yǔ)法結(jié)構(gòu)進(jìn)行分析的基礎(chǔ)上使用基于模板的方法對(duì)幾種具有特殊結(jié)構(gòu)的漢語(yǔ)語(yǔ)句的改寫進(jìn)行了研究。通過(guò)模板的抽出,可以積累改寫語(yǔ)料為后續(xù)研究提供資源。
l 基于模板的語(yǔ)句改寫方法
該文采用基于模板的語(yǔ)句改寫方法,方法中的模板分為實(shí)例化模板和規(guī)則化模板。實(shí)例化模板是針對(duì)句子結(jié)構(gòu)比較復(fù)雜的特殊句型設(shè)計(jì)的,鑒于這種特殊語(yǔ)句很難使用規(guī)則模板進(jìn)行描述,而實(shí)例模板能夠更好地體現(xiàn)其句子特性,并使模板匹配更加準(zhǔn)確;規(guī)則化模板是由標(biāo)志句子結(jié)構(gòu)的關(guān)鍵詞和其他的變項(xiàng)組成,語(yǔ)言知識(shí)的精細(xì)度高于規(guī)則并具有規(guī)則的抽象化特性。
這里涉及改寫內(nèi)容主要是:句子結(jié)構(gòu)的變換,利用單句的特殊句式改變句子的結(jié)構(gòu)達(dá)到改寫的目的。
1.1 模板獲取分析
漢語(yǔ)語(yǔ)法結(jié)構(gòu)的分析是模板建立的關(guān)鍵。漢語(yǔ)語(yǔ)言表達(dá)要求細(xì)致,語(yǔ)言中的同一個(gè)意義可以用不同的句法格式來(lái)表達(dá),這就造成大量的同義句式存在。在進(jìn)行語(yǔ)句分析中對(duì)于不同的詞類區(qū)別對(duì)待,將動(dòng)詞、助詞、介詞、和虛詞保留,通過(guò)用變量來(lái)替代其他的一些實(shí)詞構(gòu)筑句子改寫模板。以例句1為例進(jìn)行說(shuō)明。
例句1:我丟了辦公室的兩把鑰匙。
在保持基本表達(dá)意思不變的情況下,在不同的場(chǎng)合根據(jù)不同的表達(dá)需要有不同的表達(dá)形式,即可用不同的句式來(lái)表示。表1中的四種句式可以用來(lái)表達(dá)例句1的意思。
表1中的四種句式互為改寫句式。除A句式外,其他三種句式還可以因表達(dá)的需要而在內(nèi)部格式上有所變化,從而生成更多的改寫語(yǔ)句(見(jiàn)表2)。
可見(jiàn)例句1的改寫句達(dá)10余種,可對(duì)應(yīng)抽出10種句式的改寫模板。
根據(jù)漢語(yǔ)句子的結(jié)構(gòu)特點(diǎn)可以劃分出漢語(yǔ)句子的基本句型,通過(guò)對(duì)所有句型的分析歸納總結(jié)出能被改寫的幾類句型。對(duì)漢語(yǔ)中很難歸納到某種句型的特殊句式,通過(guò)分析最后歸納出存現(xiàn)句、倒裝句、名詞謂語(yǔ)句、雙重否定句、反問(wèn)句、特指問(wèn)句、選擇問(wèn)句、“把”字句、“被”字句、“比”字句等在句子結(jié)構(gòu)上可以變換的句式。這些句式的轉(zhuǎn)換主要是主題的轉(zhuǎn)移,非常規(guī)語(yǔ)序大都是修辭的需要引起的。這些變化都多少會(huì)影響句子的感情色彩,但句子所要傳遞的信息沒(méi)有改變。為了說(shuō)明和處理方便,在此僅介紹存現(xiàn)句。
1.2 存現(xiàn)句的模板獲取過(guò)程
存現(xiàn)句是表示什么地方存在、出現(xiàn)或消失什么人或事物的句子式。從結(jié)構(gòu)上來(lái)說(shuō)存現(xiàn)句由三部分組成:句首是表示處所或時(shí)間的詞或短語(yǔ),中間是動(dòng)詞或動(dòng)詞短語(yǔ),句末是名詞或名詞短語(yǔ)。存現(xiàn)句是一個(gè)歧義句式,既可以表示存在、表示靜態(tài),又可以表示活動(dòng)、表示動(dòng)態(tài)。因此同一個(gè)意思可以用不同的句式表達(dá)。下面通過(guò)例子給出了存現(xiàn)句的語(yǔ)句改寫模板的抽出過(guò)程。
例:墻上掛著一幅畫。
→(有)一幅畫在墻上掛著。
→(有)一幅畫掛在墻上。
對(duì)應(yīng)如下變換關(guān)系的句法結(jié)構(gòu)框架:
評(píng)論