添多一個世界: 萬卷書變身文化晴雨計 (Ngram Viewer)

2011年1月8日星期六

萬卷書變身文化晴雨計 (Ngram Viewer) - Nick Lee

2011年1月5日 - 信報

不建高鐵，香港怕被邊緣化；不建第三條跑道，怕航空樞紐地位不保；內地發展金融業，怕丟失金融中心的名銜；徵收遺產稅，怕資金逃往新加坡。

說得好聽一點，香港「居安慮危」，正合溫總的訓示。從壞處看，香港人心惶惶，草木皆兵，我們真是這樣不濟嗎？

市場學有所謂「品牌知名度」，最重要是人家知道你的存在，聽過你的名字，你有話題談論；一個有價值的品牌，必須街知巷聞。香港堪稱亞洲國際都會，是否名副其實呢？在外國人心目中，亞洲哪個城市最具知名度？

網上最大搜尋器谷歌，正在掃描數以百萬計的書本，讓網民查閱，至今共掃描超過一千五百萬本（所有書的12%），出版日期遠至四百多年前；這一大堆文字經過整理，可供各式各樣的統計和研究，片言隻字、流行用語、各類名詞、動詞、形容詞的興衰起跌，標誌着文化的變遷。

一千五百萬本書，沒可能人手整理，谷歌採用字體辨識技術，把工序自動化。由於紙張、印刷等參差，只有約五百萬本（所有書的4%）的掃描質素容許自動辨識，其中英文居多，法文、西班牙文、德文、中文、俄文、希伯來文都有，最舊的書籍遠至十六世紀。早期每年只得寥寥數本作品，不夠字數作有意義的統計，1800年增至每年六千萬字，1900 年達十四億字，2000 年達八十億字。八十億字有多少？通常洋人每分鐘閱讀 200字，不吃不睡也要八十年才讀完；不要忘記，這只是所有書的 4%，是現代「資訊泛濫」的另一寫照。

普通人都可以查看這些資料，谷歌有個 Books Ngram Viewer，只要輸入詞彙，便可看到歷年用字的興衰起跌。單字叫「1-gram」，兩個字的phrase 叫「2-gram」，三個字的 phrase 叫「3-gram」，如此類推，故有「Ngram Viewer」之名，不僅可以查看單字的頻率，也可查看phrase 的頻率。

香港vs新加坡

亞洲哪個城市最具知名度？香港對手我首先想起新加坡再而東京，我輸入「Hong Kong,Singapore,Tokyo」，得到一張圖片【圖一】。可見香港在八十年代超越新加坡，數年後再超越東京。東京由 1990 年開始下滑，相信與日本經濟衰落不無關係。留意上圖截至 2000年，十年人事幾番新，近十年的知名度有何變化，圖中沒有顯示。據觀察，Ngram Viewer 的數據近至 2008 年，可是 2000年後三個城市的「見書率」不約而同大幅下滑，我懷疑谷歌尚未完全掃描近期書籍，2000 年後的數據暫時未必完整。那 2000 年的數據肯定完整嗎？以 2000年為截止有何根據？首先，Ngram Viewer 的預設年期為 1800 年至 2000 年。其次，一篇在學術期刊 Science發表、以谷歌數據作基礎的研究也用 1800 年至 2000 年這個時段，看來以 2000 年作結應該是準確的。

中國城市中，香港知名度又如何？對手城市，我想起上海和北京，北京舊譯「Peking」，現譯「Beijing」，我輸入「Hong Kong,Shanghai,Peking,Beijing」，得到一張圖片【圖二】。三、四十年代是上海的輝煌歲月。此外，留意「Beijing」在七十年代開始採用，代替沿用了一百五十年的「Peking」，上圖見證了慣用譯名的演變。

文首提過「邊緣化」一詞，來自英語「marginalized」或「marginalised」，這是近三十年才流行的用語，哪個串法較通行呢【圖三】？

Ngram Viewer 也可搜尋中文字，它註明是「Chinese（simplified）」，令人以為只可搜尋簡體字，其實它繁簡體均適用，可是繁簡不能互通。舉例，輸入「國」字，它只會搜尋這個繁體字，不包括簡體；輸入「国」字，它只會搜尋這個簡體字，不包括繁體。繁簡體均可搜尋，但是獨立不互通。同時搜尋「國」和「国」，便知道繁體何時沒落，簡體何時興起。

黨包尾有驚喜

已掃描的中文書籍先於五十年代的十分少，不夠字數作有意義的統計，因此我把年限定為 1960年之後。國內言文強調人民、黨、國家、社會等概念，哪個最常提及呢？我輸入「人民，党，国家，社会」，亦得到一張圖片【圖四】。

黨包尾，有點驚喜。人民漸次低於社會和國家，是不是好現象呢？

溫家寶早前大談民主，大家不必見怪。民主斷斷續續談了四十年，但一談改革，是經濟改革居多；民主依然在談，民主改革免問【圖五】。

最後順帶一提，如果搜尋「共产主义」，必須在「共产」與「主义」之間加一個空白，這是英語主導的「後遺症」。上面說過，谷歌用字體辨識軟件分析掃描影像，英文詞與詞之間以空白分隔，非常易辦；中文沒有分隔詞語，辨識軟件看見「共产主义」四字，怎知是「共」「产主义」、「共产」「主义」還是「共产主」「义」呢？有些叫「segmenter」的軟件，懂得「共产」為一常用詞，「主义」為另一常用詞，故在兩詞之間加一個「虛擬」的空白，讓辨識軟件能把英文的分詞法用於中文。「共产主义」四字，載到資料庫裏拆成三行：「共产」這個單詞（1-gram）出現一次，「主义」這個單詞出現一次，「共产」「主义」這個雙詞 phrase（2-gram）出現一次。為了迎合資料庫的「口味」，當搜尋「共产主义」，我們必須主動分詞，在中間加一空白，資料庫才知道我們真正想搜尋什麼。

Ngram Viewer很好玩，大家上網試試吧。

添多一個世界

2011年1月8日星期六

萬卷書變身文化晴雨計 (Ngram Viewer) - Nick Lee

沒有留言:

發佈留言

作者

網誌封存

Daddy Pow專欄

人生

新時代‧靈性‧趣味

健康

投資、理財

市場‧商業‧經濟

文化‧學術

成長‧家庭

政府‧政治