2014年6月19日星期四

一圖勝萬言 - 李一鳴、楊良河

2014年6月19日 - 信報

2004年上映的美國影片《忘了.忘不了》(The Notebook)的美版海報上有這樣一句話:「每一場曠世的愛戀背後都有一個偉大的故事。」

筆者認為,每一個優秀的數據視覺化(data visualization)背後也同樣必有一個故事。倘若數據視覺化不能講出數據背後的故事,無論它多美,都是不合格的。

多維數據視覺化

最簡單的數據視覺化即為傳統的統計圖表(statistical chart),比如散點圖(scatter plot)、直方圖(histogram)、圓形圖(pie chart)、折線圖(line chart)等。這些圖都只能表述一至兩個變量的數據。那麽,當數據的變量數目很多時,我們如何能用圖去表示它呢?

早在1973年,統計學家Herman Chernoff就提出了利用類似人的面孔的Chernoff臉譜圖(Chernoff face)來呈現多維數據的方法。

我們以政府統計處發表的2013年年中按18個區議會分區劃分的統計數據為例。【圖1】便是根據上述數據中有關人口及社會經濟的六個方面繪制的Chernoff 臉譜圖。

在圖中,每張臉代表一個區議會分區,而臉上的每個特徵就代表該區的一種人口或社會經濟的數據:面代表住戶每月入息中位數,口代表住戶平均人數,眼代表居於自置居所的住戶百分比,頭髮代表勞動人口參與率,鼻代表具中學及以上教育程度人士的百分比,而耳就代表年齡中位數。

由【圖1】可見,中西區和灣仔有最高的住戶入息(面)與具中學及以上教育程度人士的百分比(鼻),而深水埗和觀塘則在這兩方面偏低;對於勞動人口參與率(頭髮)和居於自置居所的住戶百分比(眼)來說,西貢則是最高。除此之外,我們還可以從圖中直觀地看出哪些分區在人口及社會經濟特徵上比較相似,例如深水埗和觀塘這兩個舊區。

圖表形式助解讀

為了能結合更多的訊息、講出更好的故事,我們常常在一張圖內結合多種統計圖表,並使用顏色、輔助線等工具以助讀者閱讀。【圖2】是筆者利用政府統計處發表的相關數據繪製而成的。我們可以看出,由2002年至2012年的10年間,香港的人口有老化的趨勢,且女性比重略有增長。此外,市民的就業率、教育水平及互聯網使用率均有提升,其中尤以互聯網使用率提升得最多。

從某種角度來講,統計圖表是客觀的。它不會對數據本身進行挑選,亦不摻雜製圖者的個人立場。可是,講一個故事,必然是要帶有主觀色彩的。

於是,訊息圖(infographics)便應運而生了。訊息圖與數據視覺化之間,具有重疊的部分:訊息圖將各種能支撐自己觀點的文字、圖片、統計圖表結合在一起,以求清晰快捷地傳達複雜訊息。綠色和平去年十月就設計了一張訊息圖來帶出工業用的棕櫚油常於製造我們生活的的日用品中,但卻同時間成為破壞森林的幫兇【圖3】。

繪圖軟件功不可沒

要畫出以上美輪美奐的圖形,非利用不同電腦軟件幫手不可。近年來科技不斷創新,不少統計軟件(例如SAS,R等)亦加强了繪圖功能。有些工具更是為了進行數據視覺化或繪製訊息圖而編寫的,例如D3.js,Tableau和Visual.ly。視覺化不僅限於靜態,它還可以抓取實時數據,繪製出如視頻一樣的動態圖形。

美國Google數據藝術團隊的創意總監Aaron Koblin,根據美國聯邦航空管理局的航班起飛和降落的實時數據,利用Processing電腦語言程式,製造出動畫般體現的飛行流量模式和頻密程度的動態圖,效果着實令人驚艷【圖4】。

到今期為止,本欄的大數據系列已寫到第九篇。總結過去的內容,我們主要提出了三個重要的大數據技術,包括通過雲端運算來增加計算速度,利用數據及文本挖掘工具來分析複雜而非結構化的數據,以及藉助數據視覺化技術來以圖像方式表達數據的特性。這是大數據的時代,而以上的技術正是馴服大數據最重要的鎖匙。大數據產業才剛剛起步,相信未來會有更多創新的大數據技術應運而生,我們將可以看到一幅大數據技術百花齊放的盛景。

李一鳴為香港大學理學士(統計)應屆畢業生

楊良河博士為香港大學統計及精算學系副教授

沒有留言:

發佈留言