這種防不勝防的套路，把我們騙慘了

最近機哥跟吃雞隊友吵起來了。

原因是我們都覺得對方太菜，一直在糾結隊友的失誤。

吵來吵去自然是沒有什麼結果，

於是我們開始擺資料。

因為我們只是偶爾雙排，再加上互相嫌棄對方，最終決定比單排的資料。

最後，機哥被吊打了。

雖然吃雞數差不多吧，但是前十數，淘汰數都比不過。

槍法上，命中率和爆頭率竟然也輸了。

總之，在隊友的口中，機哥已經被歸類成”小學生”了。

可是，不對啊，資料上的確被吊打了。

但是實際跟他雙排的時候根本不覺得有那麼強啊。

機哥眉頭一皺，發現事情沒那麼簡單。

其實資料統計這種東西是會騙人的。

倒不是說資料造假或者是不準確，而是解讀方式以及推論容易騙人。

就拿吃雞資料這件事來說吧。

場均排名高的玩家是不是就能代表水平更高呢？

顯然沒有那麼簡單粗暴，因為遊戲策略有不同。

有的人喜歡落地直接剛槍，跑圖聽到動靜一定要去勸架。

死了就再來一局，就圖個爽快。

有的人習慣跳野區，慢慢搜物資，躲廁所、當伏地魔。

總之就是要苟到一個好名次。

就算是同一個人，用不同的策略玩兩個賬號，也會給出截然不同的資料來。

顯然憑場均排名不能說明遊戲水平的高低。

（終極苟王玩家）

同理，命中率高的玩家槍法更好嗎？

可能也不太準確。

畢竟打狙講究的是子彈不落空，而近距離衝鋒需要更多的子彈來火力壓制。

平常偏好的槍械型別不同，對命中率的影響也比較大，至少要比較同種槍械的命中率。

那這麼說什麼資料都反映不了真實水平咯？

也不能這麼說，水平的高低是一個主觀且相對的評價，資料只能充當其中的材料。

有些資料背後其實是藏著陷阱的。

如果不會解讀它背後的邏輯，再怎麼自詡為資料控，也還是會被騙的。

機哥就來講一講資料是怎麼欺騙我們的。

（自欺欺人經典案例）

在網際網路上，除了討論遊戲技術的高低，還有一個一碰就會吵起來的話題。

那就是，女司機的駕駛水平究竟是不是比男司機差？

先宣告啊，機哥不是要挑起性別對立，只是舉例。

必須承認的是，網上真的有太多關於女司機的負面新聞。

也處處充斥著對女司機的調侃和惡意。

（網傳奇葩事故照片）

面對這樣的輿論，有些人就站不住了。

一查資料，嚯，明明是男司機的人均事故率更高。

這敢擱這惡人先告狀？

於是兩邊就罵起來了，一邊是客觀存在的事故新聞，一邊是權威部門的統計結果，怎麼還矛盾了？

首先，女司機負面新聞報道多屬於一種選擇，有人愛看就會有人發。

裡面提到的個例當然不能代表女性司機群體。

至於男司機事故率更高的問題，看起來好像更靠譜一些。

按照網上流傳比較多的資料，男性駕駛人平均萬人的發案率為女性的8。8倍。

資料應該不假，但卻不能說明駕駛技術的問題。

機哥這裡把群體簡化為個人，舉個極端的例子。

這裡就不拿性別開刀了，沒有意義。

假設一家公司有兩個司機，正常情況下司機A開，累計開了

20000公里，出了3次事故。

在前者不方便的情況下，才由司機B開，一共才開了4000公里，只有1次事故。

在這種情況下，只

看

事故次數，司機

A是司機

B的3

倍。

但是如果按駕駛里程來算，萬公里事故次數反而是司機B更高。

各位機友看明白了沒有？

不考慮駕駛里程的話，按人算事故率其實並不能說明什麼。

機哥說句公道話，

在開車這個問題上，大談男女差異是沒什麼意義的。

因為駕駛技術和駕駛里程才是強相關的，事故風險又和路況時段等強相關。

拿

到駕照後就沒碰過車的司機，和天天跑12個小時網約車的司機，是

沒有可比性的。

這些影響到事故風險的因素，專業的說法叫風險暴露面。

總之，不考慮風險暴露面的統計結果，其實並不能反映駕駛技術的問題，也得不出誰比誰更好的結論。

可能這個話題有點嚴肅了，我們換一個更詭異的案例。

就拿手機廠商的銷量和利潤來說吧。

機哥這裡做個假設，

品牌A走高階路線，品牌B走中低端路線。

注意是假設，只是假設啊，並沒有真實原型。

某年品牌A高階機賣爆，銷售額5。3億，減去5億的成本，利潤率有6%。

而品牌B高階機就不是很強勢，只有2。1億的營收。

減去2億的成本，利潤率也低一點，只有5%。

在中低端機上，品牌A的營收就只有2。18億，扣去成本2億，利潤率倒還不錯，有9%。

品牌B的重心在中低端機，營收有7。6億，成本7億，利潤率8。57%還是低於品牌A。

這麼比下來，品牌A在高階機和中低端機市場上的利潤率都要更高。

總的利潤率應該也是它最高吧，這很符合直覺。

但卻不符合數學。

實際上品牌B的

總利潤率有7。78%，要

比品牌A的6。86%更高。

什麼？這不是奇了怪了嗎？

這其實是統計學裡的一個現象，這叫辛普森悖論。

有些資料拆分開來統計是一種結果，但合起來統計卻有可能是完全相反的結果。

利潤率的問題其實可以這麼理解，如果高階機的利潤率偏低。

當高階機收入佔大頭時，它會拉低總的利潤率。

反過來也一樣，當中低端機佔比高時，利潤率就會被拉高。

當然，現實中高階機和低端機的利潤率可能並不是這個情況。

以上是機哥瞎編的，只是給大家舉一個辛普森悖論的例子。

這種奇怪的現象頻繁出現在各種統計當中，可以說是防不勝防。

比如兩個班比考試成績，如果以80分為界，分別對比兩個分數段的平均分。

就可能出現一班兩個分數段的平均分都比二班更高。

但總平均分一班卻比二班更低的詭異情況。

因為二班的學生成績高分段更多，但卻集中在80分出頭。

具體的邏輯機友們細品吧。

這一類資料騙人的案例不要太多，每個人都可能中過招。

如果只是無意為之還好說，最怕就是有人利用這些資料來實現自己某些目的。

機哥覺得，最防不勝防的就是擺出一個相關性研究，然後暗示其中的因果。

先說明，有些情況下，相關性研究確實能提供一些因果結論的。

比如說PTSD創傷綜合症與飲酒行為有密切相關性，可能代表前者容易導致酗酒行為。

但有一些就……相當牽強了，甚至全靠資料的解讀來暗示因果。

比如研究發現每天花更多時間讀書的人，他們的壽命也更長。

那是不是代表讀書就能變長壽？

不不不，很可能只是每天有時間看書的人，收入更高、受教育程度更好。

因此能享受到更好的醫療衛生條件，自然壽命也會相對更長。

如果有人吹讀書能增加壽命，如果他不是蠢，就是一定是賣書的。

國外就有人為了諷刺這種行為，搞了個沙雕相關性統計網站。

專門收錄一些統計學上強相關，但在因果關係上八竿子打不著的資料。

比如，街機的生產收入與美國計算機科學博士學位的授予數量。

都是從2000年開始緩慢增長，到2008年達到最高值，又在2009年回落。

相關性高達98。51%，但這兩者有關係嗎？

emm……好像有，又好像沒有。

再看這一組，歷屆美利堅小姐選手的年齡與高溫物質致死的謀殺案。

資料變化比較跳躍，但兩者的走勢又相當吻合，相關度達到了87。01%。

難道潛在的罪犯喜歡看選美還挑年齡？年齡大一點就忍不住要犯罪？

還有這個，人均芝士消費量和被床單纏死的人數，相關度94。71%

可能是芝士吃多了，就喜歡在床上撒潑，最後意外被床單纏死？

機哥覺得吧，資料和相關性研究這裡面是可以做很多文章的。

並不是擺出一堆資料來就能夠證明結論絕對嚴謹和權威。

有很多情況甚至是現有預設的結論，再去找合適的資料做文章。

資料的套路真的太深了，不多留幾個心眼是真的很容易被騙的

。

就像機哥擺出自己的數碼產品消費資料，用虛假的富裕掩蓋真實的

負債

。

要沒點知識水平，機哥這個暴發戶人設就能坐實了。

圖片來自網路

↓↓↓

百聞網

這種防不勝防的套路，把我們騙慘了

相關文章