探索 GCC 前端的內(nèi)部結(jié)構(gòu)(1)
GNU 編譯器家族 GCC 介紹
作為自由軟件的旗艦項(xiàng)目,Richard Stallman 在十多年前剛開始寫作 GCC 的時(shí)候,還只是把它當(dāng)作僅僅一個(gè) C 程序語言的編譯器;GCC 的意思也只是 GNU C Compiler 而已。經(jīng)過了這么多年的發(fā)展,GCC 已經(jīng)不僅僅能支持 C 語言;它現(xiàn)在還支持 Ada 語言,C++ 語言,Java 語言,Objective C 語言,Pascal 語言,COBOL 語言,以及支持函數(shù)式編程和邏輯編程的 Mercury 語言,等等。而 GCC 也不再單只是 GNU C 語言編譯器的意思了,而是變成了 GNU Compiler Collection 也即是 GNU 編譯器家族的意思了。
另一方面,說到 GCC 對(duì)于各種硬件平臺(tái)的支持,概括起來就是一句話:無所不在。幾乎所有有點(diǎn)實(shí)際用途的硬件平臺(tái),甚至包括有些不那么有實(shí)際用途的硬件平臺(tái),比如 Don Knuth 設(shè)計(jì)的 MMIX 計(jì)算機(jī),GCC 都提供了完善的支持。
我們?cè)谶@篇文章中要弄清楚的就是 GCC 是如何做到能夠支持這么多種程序語言的。所謂的 GCC 的程序語言前端到底是怎么回事。如果我們要設(shè)計(jì)實(shí)現(xiàn)自己的編程語言的話,應(yīng)該從何入手?;卮疬@些問題的第一步,就是分析清楚 GCC 源碼包中,為了說明 GCC 的程序語言前端的編寫方法,而寫作的 Treelang 編程語言在 GCC 中的實(shí)現(xiàn)細(xì)節(jié)。
如果把我們自己的程序語言的實(shí)現(xiàn)建立于 GCC 之上,也立刻使得我們的程序語言的實(shí)現(xiàn)版本可以運(yùn)行在幾乎所有有用的硬件平臺(tái)之上。這對(duì)于程序語言的作者來說,也是一個(gè)確實(shí)的有極大誘惑力的好處。
關(guān)于代碼分析
在這一小節(jié)里面我們著重說明兩個(gè)問題:第一、為什么要閱讀源代碼;第二、代碼分析應(yīng)該怎么寫。
閱讀源代碼對(duì)提高自己的編程水平是非常有幫助的。這個(gè)幫助至少體現(xiàn)在兩個(gè)方面。第一個(gè)方面是學(xué)會(huì)大型軟件項(xiàng)目設(shè)計(jì)的模式。這樣的模式是真實(shí)可靠的第一手資料,這樣學(xué)來的模式要比從書本上,用日常語言陳述的模式,更能深入到你的腦海中去。而且它的真實(shí)性和可靠性都是有保證的。并且這樣的模式還非常的具體。我曾經(jīng)看到計(jì)算機(jī)系的同學(xué)推薦去讀亞歷山大的建筑學(xué)方面的經(jīng)典著作;個(gè)人以為這是走的太遠(yuǎn)了。與其去讀建筑學(xué)的書,不如去分析一下成功的自由軟件項(xiàng)目的源代碼。具體的用代碼說明的模式,無論如何要比虛無飄渺的美學(xué)概念,或者模棱兩可的工程紀(jì)律,都要更加容易學(xué)習(xí)吧?
閱讀源代碼的第二個(gè)好處,是增加自己的自信心。就象學(xué)習(xí)英語,要和別人談話,要看看別人的文章,不能只是看教科書上的簡(jiǎn)單的例子。教科書上的例子限于篇幅,不可能做到像真實(shí)、完整的英文小說那樣,把一個(gè)完整的設(shè)計(jì)呈現(xiàn)在你的面前。只有當(dāng)你硬著頭皮,拋開字典,把一本英文小說生生啃下來之后,你才能有把握說:我的確能做到。類似的,只有當(dāng)我們看過大型軟件項(xiàng)目的源代碼,作過修改,摸爬滾打之后,我們才能有把握的說:我也能寫出來。
上面說了閱讀源代碼至少有這么兩個(gè)好處。那么在閱讀源代碼的時(shí)候,我們必然要做代碼分析筆記。這個(gè)代碼分析筆記如何寫,這就是我們關(guān)心的一個(gè)問題了。在這里,我提出一些我自己的也許不太成熟的看法,也請(qǐng)讀者朋友們不吝指教。
我總覺得,與其作一行一行的代碼注釋,說明每一行代碼的作用;不如設(shè)計(jì)一個(gè)故事,把代碼的框架說清楚。這也是我前面提到的,所謂模式一說。因?yàn)殚喿x源代碼,最關(guān)鍵的是要了解大型軟件項(xiàng)目設(shè)計(jì)的模式,而不是要把每一次讀者分析每一行代碼細(xì)節(jié)的樂趣從此剝奪掉。
另一方面,代碼分析的寫作風(fēng)格,可以是參考手冊(cè)似的;也可以是航海日志似的。我個(gè)人覺得參考手冊(cè)似的代碼分析是比較乏味的,讀起來乏味,寫起來也不免乏味,雖然它可能更有用。對(duì)于一個(gè)急著要快點(diǎn)結(jié)束加班工作的軟件工程師來說,也許參考手冊(cè)更加實(shí)用。但是對(duì)于一個(gè)想要了解這一份成功的軟件背后的工作奧秘的探索者來說,一個(gè)航海日志似的代碼分析,也許讀起來更有味道,更能讓一個(gè)程序員在鍵盤與屏幕之間,體會(huì)到那地理大發(fā)現(xiàn)的激動(dòng)與樂趣。
Treelang 的代碼框架
讀者朋友們?cè)陂喿x這一部分代碼分析的時(shí)候,手邊最好能準(zhǔn)備上一份 GCC 3.3 的源代碼。這個(gè)源代碼可以從 GCC 的站點(diǎn) http://gcc.gnu.org上獲得。本文作者力圖做到把整個(gè)情況像說故事一樣娓娓道來,但是讀者朋友們?nèi)绻谶m當(dāng)?shù)臅r(shí)候能夠查閱一下源代碼,可能更能把問題了解的清楚透徹。
這個(gè) treelang 語言的實(shí)現(xiàn),主要有兩個(gè) C 語言文件,把整個(gè)代碼框架分成兩個(gè)部分。第一部分以 tree1.c 為主,帶上 parse.y 這個(gè) YACC 源程序,組成了和 GCC 前端的接口;第二部分以 treetree.c 為主,組成了和 GCC 后端的接口。
這里首先說明一下 tree1.c 這個(gè)文件。它和上級(jí)目錄中的 GCC 框架文件 toplev.c 交互作用,實(shí)現(xiàn) tree1 這個(gè)執(zhí)行程序的主體部分。這個(gè) tree1 就相當(dāng)于 GCC 的 C 語言前端中的 cc1 執(zhí)行程序,該程序是 C 語言編譯器前端的主體。
我們首先試圖說明從 toplev.c 到 tree1.c 的路徑。這樣我們就注意到 toplev.c 中這個(gè)引人注目的 lang_hooks 變量。當(dāng)然,接下來就注意到在 toplev.c 同一目錄下的 langhooks.c 這個(gè)文件。我們希望在其中發(fā)現(xiàn)一點(diǎn)有趣的東西。這一共是三個(gè)文件:langhooks.[ch] 和 langhooks-def.h 其中在 langhooks.h 中定義了一堆各式各樣的 struct lang_hooks_for_xxx 結(jié)構(gòu),以及最后還有一個(gè) struct lang_hooks 結(jié)構(gòu)把前面的那些 for_xxx 的結(jié)構(gòu)都總括了起來。這每一個(gè)結(jié)構(gòu)都是若干個(gè)至少看上去像是回調(diào)函數(shù)的函數(shù)指針??磥磉@就是我們要尋找的東西。那么大概就是這樣了,編譯器前端向 GCC 主體部分注冊(cè)自己的 lang_hooks 來完成各樣的任務(wù)。接下來一個(gè)自然的問題就是這個(gè)注冊(cè)是如何進(jìn)行的;另外一個(gè)問題就是要對(duì)這些回調(diào)函數(shù)指針進(jìn)行分析了。
這個(gè) langhooks.h 文件中關(guān)于 struct lang_hooks 結(jié)構(gòu)字段的注釋很詳細(xì),這里我們暫時(shí)先跳過去。等到 treelang 中具體的注冊(cè)回調(diào)函數(shù)出現(xiàn)的時(shí)候,我們根據(jù)需要再做仔細(xì)說明。在 langhooks-def.h 文件中定義了一些這個(gè) struct lang_hooks 結(jié)構(gòu)的默認(rèn)值。
現(xiàn)在我們進(jìn)入 treelang 目錄下的 treetree.c 這個(gè)文件。來察看一下在 treelang 中對(duì) struct lang_hooks 這個(gè)結(jié)構(gòu)的初始化過程。這個(gè)過程不是按照我們通常所熟悉的 C 語言的 C99 標(biāo)準(zhǔn)或者是 GCC 擴(kuò)展語法來進(jìn)行的。而是采用了大量的 #define 和 #undef 并結(jié)合上層目錄中的 langhooks-def.h 來進(jìn)行。細(xì)想一下,這是理所當(dāng)然的事情,因?yàn)檫@是在編譯 C 語言編譯器本身嘛。當(dāng)然就不好用到 C 語言的新的東西或者是自己做的擴(kuò)展的東西。
評(píng)論