小驗證碼藏大智慧，同時它還在悄悄獲取你的免費勞動力！

在網上衝過浪的大家，對驗證碼一點也不陌生。據網友統計，全世界網民一天共要輸入近2億次驗證碼，按照每次輸入花費十秒來計算，人類每天花在驗證碼上的時間已經超過了 50 萬小時。

輸入驗證碼既然是如此浪費時間的事情，為什麼還一直存在呢？

初代驗證碼解決垃圾郵件問題

2000年，雅虎的首席研究員來到卡內基梅隆大學，進行了一場名為“我們不知道如何解決的10個問題”的演講。

其中，他提到，深深困擾著當時的網際網路公司和使用者的一個問題是：有一夥人開發了一種程式，可以全天無休止地批次註冊新賬號，並使用這些賬號進行違規操作。

比如在公開版面上，刷評機器人用大量垃圾評論和廣告淹沒真人使用者留下的有價值的資訊；在金融交易平臺，指令碼程式可以靠不停試驗來暴力破解密碼；在票務網站，就算你有三頭六臂也搶不過自動刷票軟體；網站被人一次性註冊幾百萬個垃圾帳號，然後產生垃圾資訊，或者操縱投票，使網站失去了公正性。

其實，解決這一問題的關鍵在於，網路請求是真人操作還是機器人行為。

當時，聆聽演講的大學生路易斯·馮·安在聽到這個問題之後，陷入沉思，並在不久之後想到了，人可以用肉眼輕易識別出圖片裡的東西和手寫的文字，而計算機卻很難辨認。

正是基於這種思想，路易斯和他的同事合作開發了CAPTCHA （Completely Automated Public Turing Test To Tell Computers and Humans Apart）區分人機的全自動圖靈測試系統，俗稱驗證碼。

那麼，驗證碼是怎麼杜絕機器人對網站進行的非法操作呢？

當機器人像人一樣模擬登入網頁時，會碰到驗證碼，初代的驗證碼僅僅是一些扭曲的字母和數字，但即便是這樣，也能難住機器人，使它們根本識別不出驗證碼裡面的東西，這成為區分真人和機器人的重要方法。

當對真人和機器人做出了區分，網站就可以對機器人做出嚴厲的打擊與限制。

升級版驗證碼幫助紙質典籍電子化

近年來，電子書逐漸進入大眾視野，如何把浩如煙海的紙質典籍電子化成為一大難題。

一種方式是依靠人類手工錄入，不光費時費力，還容易出現錯誤；還有一種方法是掃描文字，再結合光學文字識別技術錄入文字。這種方法聽起來很美妙，但年代久遠的書籍掃描出來後十分模糊，光學文字識別技術也無法錄入正確字元。

為了將含有模糊文字的圖片電子化，路易斯於2007年推出了新的驗證碼系統 reCAPTCHA（re即新的意思）。

在 reCAPTCHA 驗證碼系統裡，一個驗證碼由兩部分構成。

第一部分和初代驗證碼相似，是自動生成並且經過變形處理的文字或數字，用來檢驗你是真人還是機器人。第二部分會提供一個機器無法識別的單詞給使用者，這些單詞來自書籍模糊掃描版的一部分，使用者需要錄入自己認為的結果。

當用戶可以正確輸入第一部分驗證碼後，reCAPTCHA 會假設使用者輸入的第二部分也是正確的，然後把錄入的結果返回至 reCAPTCHA 的專案主機，主機再把這個結果派發給多個使用者進行多次交叉驗證，以確保沒有不小心或故意輸錯單詞的情況。

也就是說，真正有效的人機測試在驗證碼的第一部分就已經完成了，而第二部分，則是使用者在義務為人類文明做貢獻了。

粗略統計，現今全世界每天都有 2 億個字元透過 reCAPTCHA 錄入，相當於人類 15萬小時的工作量。也就是說，一個人要不吃不喝不睡連軸轉兩年半，才能完成 reCAPTCHA 一天的工作量。這樣看來，驗證碼的功勞真的很大了！

你輸的驗證碼變成了人工智慧訓練的養料

在谷歌瀏覽器上，大家肯定都遇到過街景驗證碼，這是一類需要我們選中所給圖片上的房屋、小轎車或路牌等的驗證碼。當你費眼費腦地選中它們的時候，其實是在為谷歌的人工智慧免費打工。

這些圖片大多來自於谷歌街景，其中的一部分圖片人工智慧已經識別出來，用來辨別你是否是真人。

和上文所說的識別模糊文字是一樣的套路，其中還夾雜了幾張人工智慧難以識別的街景，用來獲得你的免費勞動力。從使用者這裡蒐集到的街景資料，幫助訓練人工智慧，使得人工智慧可以像人眼一樣準確地識別路況資訊。

谷歌無人駕駛汽車正是依靠這些接受過訓練的人工智慧，才得以實現準確識別路燈、其他車輛和行人等，從而保證自動駕駛的順利與安全。

在大家的“辛勤餵養”之下，谷歌旗下的無人駕駛汽車公司運用谷歌人工智慧技術研發的無人駕駛汽車，已經在自動駕駛領域處於遙遙領先的地位，被稱作是世界上最可能最先達到 L5 級別（完全自動駕駛）的汽車。

如今，收購了reCAPCHA 的谷歌已經把大部分驗證碼都升級成了 reCAPCHA v3。使用者只要點選一下“我不是機器人”的按鈕，就能輕鬆透過驗證。

即使是你的滑鼠這麼輕輕一點，驗證碼還是能從你身上得到些油水的。

因為，在你點選按鈕的同時，谷歌會持續監控你的使用者行為，滑鼠的運動軌跡甚至是你開啟的網頁都可能被收集，這些資料會被用來判斷你是否是真人，並且幫助驗證碼系統進一步升級打怪。

目前，國外有超過 65 萬個網站使用 reCAPCHA v3，每點選一次驗證按鈕，就等於網路打卡，告訴谷歌你來過這兒，谷歌則根據你去過的網站來給你推送定製的廣告。

怎麼樣，開篇的問題解決了吧！實際上，人類輸入驗證碼的大筆時間並沒有全部被浪費，反而每次輸入驗證碼，你都是在為人類文明添磚加瓦，或者是為人工智慧貢獻養料。這麼一想，是不是感覺自己的電腦都在散發著無私的榮光呢？

百聞網