首頁/ 健康/ 正文

如何更好利用資料輔助決策?|大資料時代的科學思維方式

大資料就像是老婆餅,加了大本質還是資料,統計學依舊重要。

——中國人民大學統計與大資料研究院 朱利平

如何更好利用資料輔助決策?|大資料時代的科學思維方式

現在的社會是一個高速發展的社會,科技發達、資訊流通,人們之間的交流越來越密切,生活也更加的方面,大資料就是這個高科技時代的產物。

大資料和雲計算,人工智慧一起成為了科技產業界的熱門話題。

如何更好利用資料輔助決策?

1.選擇更有代表性的樣本

大資料時代並不意味著就是全樣本分析,資料也並不是說越多越好。重要的是能夠選擇更有代表性的樣本。

1936年的民主黨羅斯福和共和黨蘭登之爭。

《文學摘要》以鋪天蓋地之勢發出了1000萬份問卷,覆蓋了美國1/4的選民人口。如此之高的樣本量至今罕見。經過認真的的統計,《文學摘要》宣佈,蘭登將以57%對43%的比例獲勝,當選總統。

如何更好利用資料輔助決策?|大資料時代的科學思維方式

實際的選舉結果卻和預測大相徑庭:羅斯福以62%對38%的巨大優勢獲勝。從此《文學摘要》雜誌社一蹶不振,不久只得關門停刊。

如此大樣本的調查為何會失敗?從統計學角度來看,失敗的原因是抽樣方法不正確。

《文學摘要》為了寄送調查問卷,隨機抽取了電話黃頁和車輛註冊系統的地址。可是在1936年的美國,富裕的家庭才有私人電話和汽車。為了挽救大蕭條造成的經濟打擊,當時的羅斯福政府強行干預市場經濟,從而在富人中普遍缺乏好感。

因此,《文學摘要》的調查樣本不是從總體(全體美國選民)中隨機地抽取,而是主要從富人中抽取,這樣的調查結果當然不夠科學 。

與此同時,另一個統計學家蓋洛普,卻用一個樣本小得多的民意調查,預測羅斯福會獲勝。

蓋洛普的民意調查僅有5萬個樣本,數量是《文學摘要》1000萬個樣本的1/200 。然而

他對調查做了精細的規劃,樣本中白人和黑人的比例,富人和窮人的比例,都要能反映全體選民的比例。

如何更好利用資料輔助決策?|大資料時代的科學思維方式

正確的統計學抽樣方法,樣本不需要很大,只要能良好地反映總體,就能對總體進行準確的推測。

樣本偏差指的是什麼習慣於透過很少的觀測值就得出結論。這樣的結論往往不能正確反映事實。

例如倖存者偏差,只看到透過某種篩選而出的結果,沒有看到這個篩選的過程,從而忽略掉被篩選的關鍵資訊。

做出XXX抽菸照樣很健康,所以抽菸不影響健康;XXX狀元出來還不如XXX初中畢業賺得多,所以讀書無用這樣的結論。

2.明白相關不能代替因果

關注相關,但也要明白相關並不等於因果。

A 和 B具有相關性,可能有著很多的原因,可能是A→B或者B→A這樣的因果關係,也可能還存在另一個C對A和B都產生影響。

例如游泳死亡人數越高,冰淇淋賣得越多。游泳死亡人數和冰糕銷量之間存在著正相關關係。但是並不能因此作出吃冰淇淋會增加死亡的風險,這就犯了強加因果的錯誤。

冰淇淋的銷量和游泳死亡的人數顯然都受到另一個C事件,夏天天氣的氣溫升高的影響。

中世紀的歐洲人相信蝨子有利於身體的健康。因為他們發現健康的人身上都有蝨子,而那些發燒的人身上卻沒有蝨子。這也是犯了相關等於因果的錯誤。

真正的原因是發燒使人體溫度上升,蝨子離開,從而造成了這種虛假的相關。

很多“專家”也會犯這樣的錯誤,進行錯誤的科普和建議。

3.追求速度,但不能忽視精度

大資料更加關注效率,從而忽視精度,能夠容忍不精確的結果。

這種允許不精確性的出現已經成為大資料的一個亮點,而非缺點。因為放鬆了容錯的標準,人們掌握的資料也多了起來,還可以利用這些資料做更多新的事情。

然而隨著隨著資料量的增加,錯誤率也會相應增加。

在統計分析中需要對無效的資料進行剔除處理,錯誤的樣本資料會直接影響研究結果。

在大資料中,必然也會存在著蝴蝶效應。

如何更好利用資料輔助決策?|大資料時代的科學思維方式

例如人工智慧NLP,雖然樣本量足夠大,依然由於語聊篩選不夠的乾淨,造成很多badcase的產生。

在醫學應用上研究心臟疾病,想要利用大資料知道病人怎麼做才能更加健康。但一個人每天產生的各類資料是海量的,大量的資料跟病理反應本質上毫無關係,由此甚至會做出錯誤的分析結果。

在美國拉斯維加斯的賭場,紅黑轉盤邊都用一個大螢幕顯示之前的開獎資訊。

很多人看著前面出現“紅色”次數較多就下注“黑色”,這就是典型的“資料噪聲”,這些所謂的大資料造成的資料干擾。

統計中95%的置信區間,然後還是會有5%的區間外資料。資料可以幫助我們提高決策的準確性,但是也不能完全迷信資料,畢竟還是有隨機的存在。

決定還是要,自己做。

相關文章

頂部