2011年1月8日星期六

萬卷書變身文化晴雨計 (Ngram Viewer) - Nick Lee

2011年1月5日 - 信報

不建高鐵,香港怕被邊緣化;不建第三條跑道,怕航空樞紐地位不保;內地發展金融業,怕丟失金融中心的名銜;徵收遺產稅,怕資金逃往新加坡。

說得好聽一點,香港「居安慮危」,正合溫總的訓示。從壞處看,香港人心惶惶,草木皆兵,我們真是這樣不濟嗎?

市場學有所謂「品牌知名度」,最重要是人家知道你的存在,聽過你的名字,你有話題談論;一個有價值的品牌,必須街知巷聞。香港堪稱亞洲國際都會,是否名副其實呢?在外國人心目中,亞洲哪個城市最具知名度?

網上最大搜尋器谷歌,正在掃描數以百萬計的書本,讓網民查閱,至今共掃描超過一千五百萬本(所有書的12%),出版日期遠至四百多年前;這一大堆文字經過整理,可供各式各樣的統計和研究,片言隻字、流行用語、各類名詞、動詞、形容詞的興衰起跌,標誌着文化的變遷。

一千五百萬本書,沒可能人手整理,谷歌採用字體辨識技術,把工序自動化。由於紙張、印刷等參差,只有約五百萬本(所有書的4%)的掃描質素容許自動辨識,其中英文居多,法文、西班牙文、德文、中文、俄文、希伯來文都有,最舊的書籍遠至十六世紀。早期每年只得寥寥數本作品,不夠字數作有意義的統計,1800年增至每年六千萬字,1900 年達十四億字,2000 年達八十億字。八十億字有多少?通常洋人每分鐘閱讀 200字,不吃不睡也要八十年才讀完;不要忘記,這只是所有書的 4%,是現代「資訊泛濫」的另一寫照。

普通人都可以查看這些資料,谷歌有個 Books Ngram Viewer,只要輸入詞彙,便可看到歷年用字的興衰起跌。單字叫「1-gram」,兩個字的phrase 叫「2-gram」,三個字的 phrase 叫「3-gram」,如此類推,故有「Ngram Viewer」之名,不僅可以查看單字的頻率,也可查看phrase 的頻率。

香港vs新加坡

亞洲哪個城市最具知名度?香港對手我首先想起新加坡再而東京,我輸入「Hong Kong,Singapore,Tokyo」,得到一張圖片【圖一】。可見香港在八十年代超越新加坡,數年後再超越東京。東京由 1990 年開始下滑,相信與日本經濟衰落不無關係。留意上圖截至 2000年,十年人事幾番新,近十年的知名度有何變化,圖中沒有顯示。據觀察,Ngram Viewer 的數據近至 2008 年,可是 2000年後三個城市的「見書率」不約而同大幅下滑,我懷疑谷歌尚未完全掃描近期書籍,2000 年後的數據暫時未必完整。那 2000 年的數據肯定完整嗎?以 2000年為截止有何根據?首先,Ngram Viewer 的預設年期為 1800 年至 2000 年。其次,一篇在學術期刊 Science發表、以谷歌數據作基礎的研究也用 1800 年至 2000 年這個時段,看來以 2000 年作結應該是準確的。

中國城市中,香港知名度又如何?對手城市,我想起上海和北京,北京舊譯「Peking」,現譯「Beijing」,我輸入「Hong Kong,Shanghai,Peking,Beijing」,得到一張圖片【圖二】。三、四十年代是上海的輝煌歲月。此外,留意「Beijing」在七十年代開始採用,代替沿用了一百五十年的「Peking」,上圖見證了慣用譯名的演變。

文首提過「邊緣化」一詞,來自英語「marginalized」或「marginalised」,這是近三十年才流行的用語,哪個串法較通行呢【圖三】?

Ngram Viewer 也可搜尋中文字,它註明是「Chinese(simplified)」,令人以為只可搜尋簡體字,其實它繁簡體均適用,可是繁簡不能互通。舉例,輸入「國」字,它只會搜尋這個繁體字,不包括簡體;輸入「国」字,它只會搜尋這個簡體字,不包括繁體。繁簡體均可搜尋,但是獨立不互通。同時搜尋「國」和「国」,便知道繁體何時沒落,簡體何時興起。

黨包尾有驚喜

已掃描的中文書籍先於五十年代的十分少,不夠字數作有意義的統計,因此我把年限定為 1960年之後。國內言文強調人民、黨、國家、社會等概念,哪個最常提及呢?我輸入「人民,党,国家,社会」,亦得到一張圖片【圖四】。

黨包尾,有點驚喜。人民漸次低於社會和國家,是不是好現象呢?

溫家寶早前大談民主,大家不必見怪。民主斷斷續續談了四十年,但一談改革,是經濟改革居多;民主依然在談,民主改革免問【圖五】。

最後順帶一提,如果搜尋「共 产主义」,必須在「共 产」與「主义」之間加一個空白,這是英語主導的「後遺症」。上面說過,谷歌用字體辨識軟件分析掃描影像,英文詞與詞之間以空白分隔,非常易辦;中文沒有分隔詞語,辨識軟件看見「共产主义」四字,怎知是「共」「 产主义」、「共 产」「主义」還是「共 产主」「义」呢?有些叫「segmenter」的軟件,懂得「共 产」為一常用詞,「主义」為另一常用詞,故在兩詞之間加一個「虛擬」的空白,讓辨識軟件能把英文的分詞法用於中文。「共 产主义」四字,載到資料庫裏拆成三行:「共 产」這個單詞(1-gram)出現一次,「主义」這個單詞出現一次,「共 产」「主义」這個雙詞 phrase(2-gram)出現一次。為了迎合資料庫的「口味」,當搜尋「共 产主义」,我們必須主動分詞,在中間加一空白,資料庫才知道我們真正想搜尋什麼。

Ngram Viewer很好玩,大家上網試試吧。

沒有留言:

發佈留言