讓機(jī)器“看圖譜曲” 百度意欲何為?
許多年之前,在一次講座中,人工智能先驅(qū)侯世達(dá)為臺(tái)下音樂專業(yè)的師生播放了兩首作品:一首來(lái)自肖邦,一首來(lái)自機(jī)器創(chuàng)作的“偽肖邦”,并讓他們判斷哪首是真肖邦,他們受過專業(yè)音樂訓(xùn)練,但多數(shù)人選擇了后者。
本文引用地址:http://m.butianyuan.cn/article/201607/294389.htm這算是圖靈測(cè)試在音樂領(lǐng)域的鏡像。直覺上看,音樂與計(jì)算分列認(rèn)知體系的兩極,前者關(guān)乎感性甚至靈性,后者則被多數(shù)人歸為“死理性派”,窺不見半點(diǎn)美感,但必須承認(rèn),倘若打穿知識(shí)邊界,在更本質(zhì)的意義上,音樂與計(jì)算共享同一套底層邏輯:某種抽象事物的形式組合——我個(gè)人聽到過關(guān)于音樂最好的定義來(lái)自數(shù)學(xué)家萊布尼茨:音樂是人類精神通過無(wú)意識(shí)計(jì)算獲得的愉悅。
正因如此,人類一直試圖讓機(jī)器擁有“譜寫”音樂的能力——最早的算法作曲(Algorithmic Composition)甚至可追溯到1957年化學(xué)家和音樂家Lejaren Hiller用算法生成了弦樂四重奏伊利亞組曲。如今幾十年過去,在大數(shù)據(jù)“喂養(yǎng)”下,機(jī)器學(xué)習(xí)技術(shù)的發(fā)展讓機(jī)器譜曲這件事愈加成熟,且與其他技術(shù)的嫁接也讓機(jī)器譜曲邁向應(yīng)用層面。
最近一個(gè)例子來(lái)自百度深度學(xué)習(xí)實(shí)驗(yàn)室,他們發(fā)明了一種基于輸入圖片生成曲譜的自動(dòng)化系統(tǒng):輸入一張圖片,系統(tǒng)會(huì)自動(dòng)生成一段符合該圖片內(nèi)容和意境,且符合韻律和節(jié)拍的曲譜——換句話說(shuō),試圖用機(jī)器視角理解一張圖片,然后創(chuàng)作一段音樂。
技術(shù)也正在落地。7月19日晚,百度聯(lián)手尤倫斯當(dāng)代藝術(shù)中心(UCCA)舉辦了一場(chǎng)主題為“AI科技與藝術(shù)之夜”的跨界活動(dòng)?;顒?dòng)現(xiàn)場(chǎng),百度人工智能根據(jù)藝術(shù)家勞森伯格“四分之一英里”畫作中的兩個(gè)部分,分別生成了與畫作元素相對(duì)應(yīng)的鋼琴曲。在隨后播放的視頻中,百度還展示了人工智能根據(jù)梵高的《星夜》和徐悲鴻的《奔馬圖》創(chuàng)作的曲子。這是百度首次嘗試將人工智能技術(shù)與藝術(shù)創(chuàng)作相結(jié)合。
那么問題來(lái)了,探究這樣一個(gè)看起來(lái)頗具藝術(shù)氣質(zhì)的技術(shù),百度意欲何為?
機(jī)器“看圖譜曲”
拆解來(lái)看,讓機(jī)器“看圖譜曲”的技術(shù)實(shí)現(xiàn)分兩部分:第一是訓(xùn)練過程,用海量數(shù)據(jù)對(duì)機(jī)器進(jìn)行飼養(yǎng)(如你所知,近些年來(lái),大規(guī)模計(jì)算能力,各種復(fù)雜模型和算法的誕生,讓深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)不斷增長(zhǎng)),輸入數(shù)據(jù)是帶有語(yǔ)義標(biāo)簽的圖片庫(kù),曲譜和對(duì)應(yīng)歌詞的曲庫(kù),輸出是語(yǔ)義標(biāo)簽提取模型和曲譜生成模型;第二部分是測(cè)試過程,當(dāng)機(jī)器智慧覓得規(guī)律,輸入一張圖片,則可輸出一曲音樂。
先說(shuō)訓(xùn)練。訓(xùn)練的第一階段即是利用圖片庫(kù)訓(xùn)練學(xué)習(xí),得到語(yǔ)義標(biāo)簽提取模型,訓(xùn)練圖片則由人工標(biāo)注關(guān)鍵詞,包含兩種類型:第一,圖片中出現(xiàn)的物體,譬如高山,大海,天空等;第二,圖片色調(diào)和意境,譬如灰暗的,晴朗的,憤怒的,壓抑的等。訓(xùn)練的第二階段是學(xué)習(xí)得到曲譜生成模型,具體則通過局部曲譜聚類(對(duì)所有曲庫(kù)中每半個(gè)小節(jié)作為一個(gè)曲譜單元,將所有相似曲譜聚集到同一個(gè)聚類上),統(tǒng)計(jì)語(yǔ)義標(biāo)簽與曲譜單元相關(guān)性,統(tǒng)計(jì)局部曲譜單元聚類的相鄰概率等步驟實(shí)現(xiàn)。
再說(shuō)測(cè)試。這一過程同樣包含兩個(gè)階段,第一階段是給定一張圖片,根據(jù)語(yǔ)義標(biāo)簽提取模型判斷其是否可提取得到該語(yǔ)義標(biāo)簽;第二個(gè)階段則是曲譜生成——總之可以看出,作為一項(xiàng)復(fù)合型技術(shù),讓機(jī)器“看圖譜曲”的實(shí)現(xiàn)路徑委實(shí)不易。
不是替代,是合作
當(dāng)然,即便如此——即便機(jī)器譜寫的曲目聲音悅耳,由于“藝術(shù)”長(zhǎng)久以來(lái)的某種蠱惑性(其實(shí)藝術(shù)形式的演進(jìn)從來(lái)都與技術(shù)進(jìn)步息息相關(guān)),也一定會(huì)有人覺得,這種聲音不是“人工”而是“合成”的,從而構(gòu)建鄙視鏈。但如前所述,作為一門課題,探尋音樂與數(shù)學(xué)的關(guān)系一直存在,不少作曲家都對(duì)二者的結(jié)合進(jìn)行過大膽實(shí)驗(yàn)。
評(píng)論