最近機哥跟吃雞隊友吵起來了。
原因是我們都覺得對方太菜,一直在糾結隊友的失誤。
吵來吵去自然是沒有什麼結果,
於是我們開始擺資料。
因為我們只是偶爾雙排,再加上互相嫌棄對方,最終決定比單排的資料。
最後,機哥被吊打了。
雖然吃雞數差不多吧,但是前十數,淘汰數都比不過。
槍法上,命中率和爆頭率竟然也輸了。
總之,在隊友的口中,機哥已經被歸類成”小學生”了。
可是,不對啊,資料上的確被吊打了。
但是實際跟他雙排的時候根本不覺得有那麼強啊。
機哥眉頭一皺,發現事情沒那麼簡單。
其實資料統計這種東西是會騙人的。
倒不是說資料造假或者是不準確,而是解讀方式以及推論容易騙人。
就拿吃雞資料這件事來說吧。
場均排名高的玩家是不是就能代表水平更高呢?
顯然沒有那麼簡單粗暴,因為遊戲策略有不同。
有的人喜歡落地直接剛槍,跑圖聽到動靜一定要去勸架。
死了就再來一局,就圖個爽快。
有的人習慣跳野區,慢慢搜物資,躲廁所、當伏地魔。
總之就是要苟到一個好名次。
就算是同一個人,用不同的策略玩兩個賬號,也會給出截然不同的資料來。
顯然憑場均排名不能說明遊戲水平的高低。
(終極苟王玩家)
同理,命中率高的玩家槍法更好嗎?
可能也不太準確。
畢竟打狙講究的是子彈不落空,而近距離衝鋒需要更多的子彈來火力壓制。
平常偏好的槍械型別不同,對命中率的影響也比較大,至少要比較同種槍械的命中率。
那這麼說什麼資料都反映不了真實水平咯?
也不能這麼說,水平的高低是一個主觀且相對的評價,資料只能充當其中的材料。
有些資料背後其實是藏著陷阱的。
如果不會解讀它背後的邏輯,再怎麼自詡為資料控,也還是會被騙的。
機哥就來講一講資料是怎麼欺騙我們的。
(自欺欺人經典案例)
在網際網路上,除了討論遊戲技術的高低,還有一個一碰就會吵起來的話題。
那就是,女司機的駕駛水平究竟是不是比男司機差?
先宣告啊,機哥不是要挑起性別對立,只是舉例。
必須承認的是,網上真的有太多關於女司機的負面新聞。
也處處充斥著對女司機的調侃和惡意。
(網傳奇葩事故照片)
面對這樣的輿論,有些人就站不住了。
一查資料,嚯,明明是男司機的人均事故率更高。
這敢擱這惡人先告狀?
於是兩邊就罵起來了,一邊是客觀存在的事故新聞,一邊是權威部門的統計結果,怎麼還矛盾了?
首先,女司機負面新聞報道多屬於一種選擇,有人愛看就會有人發。
裡面提到的個例當然不能代表女性司機群體。
至於男司機事故率更高的問題,看起來好像更靠譜一些。
按照網上流傳比較多的資料,男性駕駛人平均萬人的發案率為女性的8。8倍。
資料應該不假,但卻不能說明駕駛技術的問題。
機哥這裡把群體簡化為個人,舉個極端的例子。
這裡就不拿性別開刀了,沒有意義。
假設一家公司有兩個司機,正常情況下司機A開,累計開了
20000公里,出了3次事故。
在前者不方便的情況下,才由司機B開,一共才開了4000公里,只有1次事故。
在這種情況下,只
看
事故次數,司機
A是司機
B的3
倍。
但是如果按駕駛里程來算,萬公里事故次數反而是司機B更高。
各位機友看明白了沒有?
不考慮駕駛里程的話,按人算事故率其實並不能說明什麼。
機哥說句公道話,
在開車這個問題上,大談男女差異是沒什麼意義的。
因為駕駛技術和駕駛里程才是強相關的,事故風險又和路況時段等強相關。
拿
到駕照後就沒碰過車的司機,和天天跑12個小時網約車的司機,是
沒有可比性的。
這些影響到事故風險的因素,專業的說法叫風險暴露面。
總之,不考慮風險暴露面的統計結果,其實並不能反映駕駛技術的問題,也得不出誰比誰更好的結論。
可能這個話題有點嚴肅了,我們換一個更詭異的案例。
就拿手機廠商的銷量和利潤來說吧。
機哥這裡做個假設,
品牌A走高階路線,品牌B走中低端路線。
注意是假設,只是假設啊,並沒有真實原型。
某年品牌A高階機賣爆,銷售額5。3億,減去5億的成本,利潤率有6%。
而品牌B高階機就不是很強勢,只有2。1億的營收。
減去2億的成本,利潤率也低一點,只有5%。
在中低端機上,品牌A的營收就只有2。18億,扣去成本2億,利潤率倒還不錯,有9%。
品牌B的重心在中低端機,營收有7。6億,成本7億,利潤率8。57%還是低於品牌A。
這麼比下來,品牌A在高階機和中低端機市場上的利潤率都要更高。
總的利潤率應該也是它最高吧,這很符合直覺。
但卻不符合數學。
實際上品牌B的
總利潤率有7。78%,要
比品牌A的6。86%更高。
什麼?這不是奇了怪了嗎?
這其實是統計學裡的一個現象,這叫辛普森悖論。
有些資料拆分開來統計是一種結果,但合起來統計卻有可能是完全相反的結果。
利潤率的問題其實可以這麼理解,如果高階機的利潤率偏低。
當高階機收入佔大頭時,它會拉低總的利潤率。
反過來也一樣,當中低端機佔比高時,利潤率就會被拉高。
當然,現實中高階機和低端機的利潤率可能並不是這個情況。
以上是機哥瞎編的,只是給大家舉一個辛普森悖論的例子。
這種奇怪的現象頻繁出現在各種統計當中,可以說是防不勝防。
比如兩個班比考試成績,如果以80分為界,分別對比兩個分數段的平均分。
就可能出現一班兩個分數段的平均分都比二班更高。
但總平均分一班卻比二班更低的詭異情況。
因為二班的學生成績高分段更多,但卻集中在80分出頭。
具體的邏輯機友們細品吧。
這一類資料騙人的案例不要太多,每個人都可能中過招。
如果只是無意為之還好說,最怕就是有人利用這些資料來實現自己某些目的。
機哥覺得,最防不勝防的就是擺出一個相關性研究,然後暗示其中的因果。
先說明,有些情況下,相關性研究確實能提供一些因果結論的。
比如說PTSD創傷綜合症與飲酒行為有密切相關性,可能代表前者容易導致酗酒行為。
但有一些就……相當牽強了,甚至全靠資料的解讀來暗示因果。
比如研究發現每天花更多時間讀書的人,他們的壽命也更長。
那是不是代表讀書就能變長壽?
不不不,很可能只是每天有時間看書的人,收入更高、受教育程度更好。
因此能享受到更好的醫療衛生條件,自然壽命也會相對更長。
如果有人吹讀書能增加壽命,如果他不是蠢,就是一定是賣書的。
國外就有人為了諷刺這種行為,搞了個沙雕相關性統計網站。
專門收錄一些統計學上強相關,但在因果關係上八竿子打不著的資料。
比如,街機的生產收入與美國計算機科學博士學位的授予數量。
都是從2000年開始緩慢增長,到2008年達到最高值,又在2009年回落。
相關性高達98。51%,但這兩者有關係嗎?
emm……好像有,又好像沒有。
再看這一組,歷屆美利堅小姐選手的年齡與高溫物質致死的謀殺案。
資料變化比較跳躍,但兩者的走勢又相當吻合,相關度達到了87。01%。
難道潛在的罪犯喜歡看選美還挑年齡?年齡大一點就忍不住要犯罪?
還有這個,人均芝士消費量和被床單纏死的人數,相關度94。71%
可能是芝士吃多了,就喜歡在床上撒潑,最後意外被床單纏死?
機哥覺得吧,資料和相關性研究這裡面是可以做很多文章的。
並不是擺出一堆資料來就能夠證明結論絕對嚴謹和權威。
有很多情況甚至是現有預設的結論,再去找合適的資料做文章。
資料的套路真的太深了,不多留幾個心眼是真的很容易被騙的
。
就像機哥擺出自己的數碼產品消費資料,用虛假的富裕掩蓋真實的
負債
。
要沒點知識水平,機哥這個暴發戶人設就能坐實了。
圖片來自網路
↓↓↓