立場新聞 Stand News

你.呃.人!

2017/10/29 — 10:47

「你好!想做個簡單調查,請問你每月大約行房幾多次?當中幾多次會用安全套?」

根據美國統計,當地異性戀女性平均一年行房55次,當中16%時間用安全套,以此推算,每年消耗11億個安全套;同一組問題問異性戀男性,卻推算出使用16億個。但理論上,這兩組數字應該相等,是否男人喜歡報大數?原來,安全套公司數據顯示,全美國每年只賣出6億個,換言之,男人女人都是大話精,只是程度之別。這不單是誇大安全性行為習慣,因另一個關於沒有避孕性行為的調查數字假如屬實,美國婦女懷孕頻率應該是實際的10倍!

類似情況向來是社會研究的大問題,一來憑個人印象及估計的數據往往不準確,更要命的是受訪者傾向提供符合社會期許的回應,像「你支持環保嗎?」、「有做義工嗎?」、「有投票嗎?」之類的調查,正面結果必然比實際數字高。不過,《Everybody Lies:Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》作者認為,大數據有望扭轉這局面。他曾任Google數據分析員,現在則專門利用互聯網和大數據分析社會現象。

廣告

2008年奧巴馬成為美國首位黑人總統,4年後又成功連任,好像引證一般調查顯示美國種族歧視比以前大為減低,但作者分析Google熱門搜尋詞彙發現,奧巴馬當選引發大量歧視詞句和種族仇恨組織的搜尋,而從各個地區的搜尋數據,對照奧巴馬和2004年黨友克里在當地得票,他認為隱藏種族歧視令奧巴馬失去4個百份點選票,他的當選並非代表歧視消退,只是當年環境對民主黨有利(適值金融海嘯)加上他的過人魅力。這個分區隱藏歧視研究,亦反映鼓吹排外的特朗普,在民調落後下爆冷勝出的州分絕非意外。

作者另一傑作,是研究色情網站數據,分析不同地區瀏覽及搜尋習慣,這看似不務正業的研究,除了有不少趣怪結論(譬如印度成年男人特別喜歡重拾母親哺乳感覺),其實亦有非常嚴肅的啟示,例如在美國思想最保守、反同性戀的州分,有大量隱藏同志生活在「衣櫃」裏,甚至要被迫表面上支持反同。

廣告

其他大數據應用,更有潛力改善人類生活,譬如亞馬遜公司的個人化產品推薦,是找跟你口味相近的「人辦」來推算你的興趣,同樣方法其實可應用在醫療,把身體狀況和病歷類似的人歸類,推斷病況和風險,比現在粗疏的年齡性別生活習慣分析,將會準確得多。

原刊蘋果日報

發表意見