2500余件中國IT技術(shù)收藏品“驚現(xiàn)”斯坦福大學(xué),獨家解密中文電腦字體研發(fā)全過程
“把它們送回自己的祖國!”
近日,斯坦福大學(xué)的中國歷史教授托馬斯·穆拉尼(Thomas Mullaney)在 Tik Tok 上收到這樣一則信息。
前不久,他在 Tik Tok 上發(fā)視頻表示,斯坦福大學(xué)獲得了全球史上最大的現(xiàn)代中國信息技術(shù)收藏品,這些檔案收藏在斯坦福大學(xué)圖書館中,館藏檔案 2500 余件。
當(dāng)?shù)貢r間 6 月 6 日,托馬斯·穆拉尼在《南華早報》英文版,發(fā)表了題為“Why is the world’s largest collection on China’s modern IT history in the US?”《為什么世界上最大的中國現(xiàn)代 IT 歷史合集在美國》的文章,并成為該網(wǎng)站當(dāng)天的頭版頭條。
他表示,斯坦福大學(xué)圖書館館藏藏品中,包括幾十臺珍稀的中文打字機、文字處理器和電腦,以及中文電報、打字機、油印、圖書制作、大型機、編碼系統(tǒng)、軟件、操作系統(tǒng)、打印機、顯示器、字體、照排、輸入系統(tǒng)、文字處理器、個人電腦等
托馬斯·穆拉尼的個人首頁顯示,他從 20 世紀(jì) 90 年代開始研究東亞文化,并出版過多本和中國漢字發(fā)展相關(guān)的書籍
當(dāng)?shù)貢r間 5 月 31 日,《麻省理工科技評論》英文版獨家發(fā)表了托馬斯·穆拉尼撰寫的文章“Behind the painstaking process of creating Chinese computer fonts”《制作中文電腦字體的艱辛背后過程》。
這篇文章并未體現(xiàn)他的全部研究領(lǐng)域,但卻最具有科技特征??梢哉f,目前你正在閱讀的這篇文章,離不來幾十年前中文電腦字體設(shè)計師們的辛勤付出。以下為該文章的譯文,個別地方有改動:
幾十年前,畢業(yè)于麻省理工學(xué)院的 Photography Systems 公司創(chuàng)始人路易斯?羅斯布魯姆(Louis Rosenblum),接到了位于馬薩諸塞州劍橋市的圖形藝術(shù)研究基金會(GARF)的一個訂單。
在該項目中,設(shè)計師們通過手工畫圖和編輯了數(shù)以千計的字符,使得中文的打字和印刷成為可能。
回憶最初他曾表示,其兒子布魯斯·羅森布魯姆(Bruce Rosenblum)打開了他的蘋果二代,此時電腦先是發(fā)出了一個高音的 F 音,然后是軟驅(qū)又發(fā)出了咔噠聲。
在一連串 “砰砰” 的按鍵聲后,12 英寸的三洋顯示器終于開始反應(yīng):在最開始的開機畫面上,顯示屏上出現(xiàn)了一個綠色的網(wǎng)格,寬 16 個單位,高 16 個單位。
而這個綠色的網(wǎng)格,就是 “Gridmaster”,這是羅森布魯姆建立的全球首批中文數(shù)字字體之一,也是用 BASIC 編程語言編寫的一個程序。
當(dāng)時,他的任務(wù)是為一臺名為 Sinotype III 的實驗性機器開發(fā)字體,Sinotype III 機器也是史上首批能處理中文輸入和中文輸出的個人電腦之一。
在 20 世紀(jì) 70 年代末和 80 年代初,中國還沒有個人電腦。因此,為了制造一臺能處理 “中文” 的個人電腦,羅森布魯姆團隊需要對蘋果二代電腦進行重新編程,以便用中文操作。
這項任務(wù)十分艱巨,他必須從頭開始對一個操作系統(tǒng)進行編譯,因為蘋果 II 的 DOS 3.3 根本無法操作中文。同時,他還必須對中文文字處理器本身進行編程。就這樣,羅森布魯姆不知疲倦地工作了幾個月。
盡管在今天看來,Gridmaster 是一個簡單的程序,但它當(dāng)時要處理的任務(wù)是創(chuàng)建成千上萬個漢字的數(shù)字位圖,在那時面臨的設(shè)計挑戰(zhàn)極大。
Sinotype III 機器是由圖形藝術(shù)研究基金會開發(fā)的機器。在 Sinotype III 身上,創(chuàng)建字體所用的時間遠超計算機編程的時間,因為沒有字體,就沒有辦法在屏幕上顯示漢字,也沒有辦法在機器的點陣打印機上輸出漢字。
對于每個漢字的設(shè)計,設(shè)計師都必須親自決定如何將漢字安排在由 256 個像素組成的位圖中。也就是說,對于每個漢字都需要做出 256 個決定。
位圖是一種數(shù)字存儲圖像的方式,每一個符號和圖像都是由許多像素填充的網(wǎng)格所組成的,目前常見的圖片存儲格式如 JPEG、GIF、BMP 等都屬于位圖存儲方式。因此,如果每個漢字需要 256 個決定,就要設(shè)計數(shù)以千計的漢字,相當(dāng)于設(shè)計師需要在在兩年多的開發(fā)過程中作出數(shù)十萬個決定。
不過,事后羅森布魯姆回想到 Gridmaster 編程程序時,他卻將其描述為 "頂多是個笨拙的能用的程序",但就是靠著這個笨拙的程序,他的父親路易斯·羅森布魯姆(Louis Rosenblum)和圖形藝術(shù)研究基金會,得以讓數(shù)據(jù)輸入臨時人員遠程創(chuàng)建并保存新的漢字位圖。
對設(shè)計人員來說,只需擁有一臺 Apple II 電腦,通過在軟盤上運行 Gridmaster 程序,數(shù)據(jù)錄入員就能遠程創(chuàng)建和保存新的漢字位圖。一旦這些漢字的位圖被創(chuàng)建和存儲好,羅森布魯姆就能通過他設(shè)計的另一個程序,將設(shè)計好的漢字和它們相應(yīng)的輸入代碼植入系統(tǒng)的數(shù)據(jù)庫,這樣就能把新設(shè)計好的漢字的數(shù)字位圖安裝到 Sinotype III 機器上。
盡管 Sinotype III 機器從未作為商業(yè)產(chǎn)品發(fā)布過。但是,為開發(fā)該系統(tǒng)所進行的艱苦工作內(nèi)容比如開發(fā)位圖中文字體,卻正是一個需要全球共同努力才能解決的問題,而這一問題就是:如何使計算機能夠處理地球上使用最廣泛的語言之一 —— 中文。
當(dāng)給西方字體做計算機和文字處理設(shè)計時,工程師和設(shè)計師們約定,在一個 5 乘 7 的位圖網(wǎng)格上,來創(chuàng)建一種低分辨率的數(shù)字英語字體。這樣,每個符號只需要五個字節(jié)的內(nèi)存。
在美國信息交換標(biāo)準(zhǔn)代碼(ASCII)中存儲所有 128 個低分辨率字符,只需要640 字節(jié)的內(nèi)存,而且這 128 個字符已包括所有英語字母、數(shù)字 0 到 9 以及常見的標(biāo)點符號。640 字節(jié)即使對于當(dāng)時的蘋果 II 來說,也只是其 64 千字節(jié)板載內(nèi)存的很小的部分。
與英文不同的是,漢字不僅在數(shù)目上以萬計,而且對于結(jié)構(gòu)復(fù)雜的漢字來說,5 乘 7 的網(wǎng)格太小,很難讓這些漢字清晰可辨。設(shè)計人員發(fā)現(xiàn),每個漢字需要 16 乘 16 或者更大的網(wǎng)格,這就要求每個字符至少有 32 字節(jié)的內(nèi)存(256 比特)。
這種情況下,要想研發(fā)一個擁有 70000 個低分辨率漢字的字體庫,需要超過兩兆字節(jié)的內(nèi)存量。即使對一個只包含 8000 個最常見的漢字的字體庫,僅存儲位圖就需大約 256 千字節(jié)的內(nèi)存。對于 20 世紀(jì) 80 年代初大多數(shù)個人電腦來說, 這已是電腦總內(nèi)存容量的四倍。
盡管漢字字體庫給電腦內(nèi)存帶來了巨大挑戰(zhàn),但在當(dāng)時更難的是如何把低分辨率的中文字體制作得美觀又好認。在 Gridmaster 這樣的程序被發(fā)明之前,大部分的設(shè)計工作都用筆、紙和修正液完成的。
為此,設(shè)計師們花了數(shù)年時間,以期設(shè)計出既能滿足低內(nèi)存、又能保持一定書法美感的字體位圖。凌煥銘(Lily Huan-Ming Ling)和艾倫·迪·喬瓦尼(Ellen Di Giovanni)是創(chuàng)建這套字符集的人,他們通過手繪特定漢字的位圖草稿,并使用 Gridmaster 將其數(shù)字化。
對設(shè)計師們來說,最核心的問題是如何在兩種完全不同的中文書寫方式之間切換:一種是用鋼筆或毛筆書寫的手繪字,另一種是用排列在網(wǎng)格中的、由像素陣列書寫的位圖字。設(shè)計師們必須決定如何創(chuàng)造手寫中文的某些特征,比如入口筆畫、筆畫漸變和出口筆畫。
慶幸的是,把 Sinotype III 字體設(shè)計成低分辨率中文位圖的全過程得以記錄下來。其中最吸引人的檔案資料之一,是一個裝滿格子圖的冊子,這些手繪的散點符號就是漢字位圖的草稿圖。
每一個漢字都經(jīng)過了精心設(shè)計,從手繪中也可看到,大多數(shù)情況下設(shè)計師都對圖形做了多次修改,路易斯·羅森布魯姆和圖形藝術(shù)研究基金會的設(shè)計師們,還會用修正液擦掉專業(yè)漢字編輯不同意的那些 "位"。
如下圖,最初的標(biāo)記是綠色的,紅色標(biāo)記的才算是 "最終" 草案。只有經(jīng)過最終確認,才能開始數(shù)據(jù)輸入工作。
考慮到團隊需要設(shè)計的字體的字?jǐn)?shù)龐大,至少需要設(shè)計 3000 個以上的基本漢字。人們可能會猜測,設(shè)計師們會不會使用一些可以簡化設(shè)計工作的方法。
比如,通過復(fù)制中文偏旁部首來簡化設(shè)計,這樣當(dāng)不同的字有同樣的偏旁時比如 “女” 字旁,就無需再次設(shè)計 “女” 字旁,而是直接復(fù)制之前設(shè)計好的 “女” 字旁。
但是,筆者從當(dāng)時設(shè)計的檔案資料中,并未發(fā)現(xiàn)設(shè)計師們使用了任何類似上面所說的工作機制。與此相反,路易斯·羅森布魯姆堅持讓設(shè)計師親自對漢字的每一個細節(jié)進行設(shè)計和調(diào)整,為的是保證每個漢字的筆畫部首在整個漢字中的協(xié)調(diào),盡管這種協(xié)調(diào)通常以十分細微、甚至難以察覺的調(diào)整來實現(xiàn)。
例如,在同樣包含了 “女” 字旁的 “娟” 字和 “娩” 字的字體位圖中,這兩個字的 “女” 字旁部首并不完全一樣。在 “娟” 字中,“女” 字旁的寬度為 6 個像素,而在 “綿” 字中,“女” 字旁的寬度僅為 5 個像素。此外,在 “娩” 字中,“女” 字旁的右下角的筆畫向外延伸了一個像素,而在 “娟” 字中,該筆畫并沒有延伸。
在整個字體庫中,這種程度的精確度的要求十分常見,并非特例。當(dāng)我們把位圖草稿和它們的最終形式放在一起對比時,就會發(fā)現(xiàn)更多有趣的變化。
比如,在 “羅” 字的草稿中,左下角的最后一撇是以一個 45° 角向下延伸的。但在最終版本中,這一撇被 "拉平" 了一些,先以 45° 開始向下,但之后這一撇的傾斜角度變小了一些,并且變得更平了。
盡管設(shè)計師的設(shè)計空間似乎很小,僅僅是 16 乘 16 的網(wǎng)格,但他們必須在小小的網(wǎng)格中做出數(shù)量驚人的決定。而這些決定中的每一個,都會影響到他們?yōu)樘囟h字所做的其他決定,因為即使增加一個像素,也會改變整個漢字的水平和垂直平衡。
網(wǎng)格尺寸的無情限制,以其意想不到的方式影響了設(shè)計師的工作。這一點在為了實現(xiàn)對稱性這一“魔鬼”問題時表現(xiàn)最為明顯。
比如,在漢字中經(jīng)常見到的對稱布局,在低分辨率的框架中卻尤其難以表現(xiàn),因為根據(jù)數(shù)學(xué)規(guī)則,創(chuàng)造對稱性需要奇數(shù)的空間區(qū)域。
但偶數(shù)尺寸的位圖網(wǎng)格的局限(如 16 乘 16 的網(wǎng)格)讓對稱性變得不可能。在許多情況下,圖形藝術(shù)研究基金會通過只使用整個網(wǎng)格的一部分來實現(xiàn)對稱性:比如說在 16 乘 16 的網(wǎng)格中只使用 15 乘 15 的區(qū)域來設(shè)計,但這也進一步減少了可用空間的數(shù)量。
而當(dāng)我們對比不同公司或不同創(chuàng)作者為不同項目創(chuàng)造的位圖字體時,情況變得更加復(fù)雜,差異也更多。
比如說下圖中出現(xiàn)在 Sinotype III 字體中的三點水偏旁:“氵”(下圖中的右圖),與另一種由 H.C. Tien(左圖)創(chuàng)造的早期中文字體中的三點水偏旁的對比。H.C. Tien 是一位華裔美國心理治療師和企業(yè)家,他曾在在 20 世紀(jì) 70 年代和 80 年代嘗試過漢字的計算機字體設(shè)計。
盡管上述例子看起來與本文的關(guān)系看上去不大,但從以上所說的每一個例子,我們能看出無論是在起草階段還是在數(shù)字化階段,圖形藝術(shù)研究基金會的設(shè)計團隊必須做出的一個又一個決定。
當(dāng)然,漢字字體的分辨率并沒有長期保持在 "低" 的水平。計算技術(shù)的進步使得漢字的字體設(shè)計能使用越來越密集的位圖、越來越快的處理速度、以及越來越低的內(nèi)存成本。
而在如今這個 4K 分辨率、視網(wǎng)膜顯示器等的時代,可能很難體會到早期中國位圖字體創(chuàng)作中的藝術(shù)性 —— 包括美學(xué)和技術(shù)上的。但是,正是通過這些人的艱苦工作和不含糊的解決問題的方式,使得全球六分之一的人口現(xiàn)今能夠使用計算機、新媒體和互聯(lián)網(wǎng),而且非?;钴S。
-End-
翻譯:vantee
原文:
https://www.technologyreview.com/2021/05/31/1025599/history-first-chinese-digital-computer-fonts/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。