2024年12月19日 - 信報
從事社會科學實證研究的,都會聽過「脆弱家庭與兒童福祉研究」(Fragile Families and Child Wellbeing Study)這個數據庫。顧名思義,研究追蹤的不是一般家庭,而是問題多多、很可能需要社福部門介入的家庭。研究由對象出生開始,收集家中兒童及其家人的資料,意圖找出家庭背景和兒童成長的關係。
在幾年前,當兒童自出生至9歲的數據已經公開之時,有人就想出了一條妙計:邀請來自不同國家不同大學的過百隊研究團隊,利用同一大堆數據,各自用他們認為最合適、最先進的統計模型(包括人工智能),預測這些兒童在15歲時的情況(亦即下一輪當時未公開的數據)。
各團隊的表現,取決能否準確預測6個量度,包括兒童的GPA、意志力(grit)指數、家庭有否被逼遷、家庭的經濟困難、主要照顧者有否被辭退,以及主要照顧者有沒有參加職業培訓。結果,掌握了大量數據、擁有充足人力物力的研究團隊,表現相當麻麻,當中成績最好的團隊,解釋力(亦即R平方)也未能超過兩成,預測不了這些家庭未來絕大部分的變數。令人不太意外的,是複雜無比的機器學習模型,預測表現往往比簡單的迴歸分析還要差。
數據再多也難知未來
這次賽後檢討發表在著名學報PNAS,得出的教訓之一,是研究人員對社會現象的深入了解(有關破碎家庭、兒童問題的實證研究數以萬計),跟準確預測這些社會現象是兩回事。例如一個研究兒童學習表現的頂級專家,從事多年有關GPA的大量統計分析,發表了無數重要學術文章,也只能達到事後孔明的層次,未能以現有的數據預測兒童幾年後的學習表現。
這場學術界預測比賽的失望結果,令人想起海耶克「在地知識」(local knowledge)的概念。研究團隊對於每個家庭的一些數字指標,知道的可能比家庭成員所記得的還要多,但研究團隊不會知道的,是「家家有本難念的經」,不知道每個家庭裏的特殊情況:大至個別成員的性格變化、研究難以量度的重要經歷、結交鄰居的近墨者黑,小至家人之間說過的幾句話、看過發人深省的電視節目、老師在學校給兒童的一點鼓勵等。這些足以影響未來的大小事件,只有那個家庭裏的人知道,「脆弱家庭與兒童福祉研究」再詳盡仔細,也不能收集到這些數據。由於擁有這些「在地知識」,每個家庭對自己的未來,會看得比研究團隊清楚透徹。
預測市場反映「在地知識」
同一道理,也能應用於選舉預測。過去幾屆美國選舉,都有不少專家應用機器學習等的高深技術,透過消化民調和其他公開的數據(例如經濟指標),建立龐大而高深的預測模型,定期公布某某候選人勝出的機會率。雖然數據源源不絕,以及電腦快如閃電,但這些模型面對着的是同樣的局限:一些只有在個別地方個別人士知道的事實(例如某搖擺州某小型選區的選民意向),不會在數據中找到,就算統計技術再驚天動地,也不能跨越這個知識上的距離。
預測市場的巧妙之處,在於提供金錢動機,讓掌握「在地知識」的人在市場上把知識傳達出去。例如我在某搖擺州居住,很熟悉某選區的民情,知道民調數字並不準確(又或根本沒有相關民調),認為市場低估了某候選人的勝算。於是,我就買入那個候選人,而候選人的市價,就會因為我的「在地知識」而有一點變動。當所有參與者都各出其謀,利用所知道的一點一滴試圖在預測市場獲利,市價反映的就是「在地知識」的總和。當市場愈大,交易愈頻繁,市價收集和傳播資訊的功能就愈明顯,愈能利用所謂的眾人智慧,打敗沒有「在地知識」的專家。
超過半世紀以前,海耶克從「在地知識」分散四方的角度指出價格機制的效率所在,斷定中央計劃的失敗。今天,我們可以同一角度去理解預測市場的功能,明白預測專家何以有所不足。
作者為美國維珍尼亞理工大學經濟系副教授
原文:
沒有留言:
發佈留言