首頁/ 科技/ 正文

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

當一個人因受傷或疾病而四肢癱瘓,甚至不能說話時,只要大腦的神經活動仍然存在,科學家們就有能力幫助患者恢復交流能力。

這不是科幻,最新的腦機介面(BCI)技術已經在這一方面實現突破,而且效率超乎想象,最高可超 99%。

此前,腦機介面領域的一大研究焦點是恢復患者 “運動技能”,比如透過腦機介面操控機械臂抓取物品,或透過腦機介面移動電腦游標、點選字母輸入等。

這次,來自斯坦福大學的研究人員開闢了一條新路徑,他們

將人工智慧(AI)軟體與腦機介面裝置結合,成功開發出一套全新的皮質內腦機介面系統

,該系統

利用大腦運動皮層的神經活動可解碼 “手寫” 筆跡,並使用遞迴神經網路(RNN)解碼方法將筆跡實時翻譯成文字,快速將患者對手寫的想法轉換為電腦螢幕上的文字。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|透過腦機介面 “手寫輸入” 的示意圖(來源:學術頭條基於 YouTube 影片製作)

研究論文以封面形式發表在最新一期的《自然》雜誌上

,被視為是該領域的一大技術進步。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

(來源:

Nature

該研究論文的作者之一、斯坦福大學霍華德・休斯醫學研究所(HHMI)研究員克里希納・謝諾伊(Krishna Shenoy)表示,

此次研究的最大的創新是首次破譯了與手寫筆記有關的大腦訊號,可以讓癱瘓患者不用手也能快速打字。

他與斯坦福神經外科醫生傑米・亨德森(Jaimie Henderson)共同參與了這項研究,論文的第一作者則是同樣來自 HHMI 的科學家弗蘭克・威利特(Frank Willett)博士。

在實驗中,

一名受試者可以每分鐘輸入 90 個字元,這是此前使用腦機介面打字紀錄的兩倍多,接近同齡健全人每分鐘 115 個字元的智慧手機打字速度

,而且線上原始準確率為 94。1%,離線自動校正的準確率超過 99%。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|受試者在實驗中(來源:NPG Press)

加州大學伯克利分校的神經工程師何塞・卡梅納(Jose Carmena)並未參與這項研究,但他認為,

這項技術有潛力幫助各種殘疾人,儘管研究結果是初步的,但 “這是該領域的一大進步。”

美國國立衛生研究院腦科學計劃(NIH BRAIN Initiative)主任約翰・恩蓋(John Ngai)博士表示:“

這項研究代表了 BCI 和機器學習技術發展的重要里程碑

,相關研究正在揭示人腦如何控制像通訊這樣複雜的過程,為改善神經損傷和癱瘓者的生活提供了重要基礎。”

腦中筆跡的神經表徵

事實上,這項研究其實是腦機介面專案 BrainGate 臨床試驗的一部分,這是一個多機構聯盟專案,旨在幫助那些失去肢體或其他身體功能控制能力的人,比如患有肌萎縮性側索硬化症(ALS)或脊髓損傷的患者等。實驗中被稱為 “T5” 的受試者,在 2007 年由於脊髓損傷幾乎失去了頸部以下的所有活動能力,手部動作僅限於抽搐和微動。

在實驗中,亨德森在 T5 的左側大腦植入了兩個腦機介面晶片,每一個晶片都有 100 個電極,負責接收運動皮層(大腦最外層的一個區域)神經元發出的訊號,運動皮層是控制手部運動的區域,這些神經訊號透過電線傳送到計算機,由人工智慧演算法解碼訊號並推測 T5 的手和手指的預期運動。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|植入大腦的微型電極陣列(來源:BrainGate)

與真實可見的手寫筆跡相比,要 “讀取” 想象中的筆跡最難的一點是什麼?無疑,是如何捕捉這些筆跡在大腦中的神經表徵,以及這些表徵能不能用。

為了評估手寫的神經表徵,受試者 T5 需要按照電腦螢幕給出的指令,一次 “手寫” 一個字元,每個字母重複 27 次試驗。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|受試者的 “手寫” 筆跡(來源:NPG Press)

根據以往的經驗,研究人員首先使用主成分分析來顯示包含最多方差的前三個神經維度特徵。

研究人員發現,由於神經活動的高峰和低谷因時間有所不同,可能由於書寫速度的波動,神經活動似乎是強烈和可重複的。為了直觀地觀察筆跡嘗試過程中記錄的神經活動,他們使用時間比對技術來消除時間變異性,這揭示了每個字元特有的顯著一致的神經活動模式。

為了確定神經活動是否編碼繪製了每個形狀所需的筆尖運動,研究人員透過從試驗平均神經活動中線性解碼筆尖速度來重建每個字元,容易辨認的字母形狀證實了筆尖速度是可靠編碼的,代表筆尖速度的神經維度佔總神經方差的 30%。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|筆跡的神經表徵(來源:

Nature

其次,研究人員採用非線性降維方法(t-SNE),對每個試驗的神經活動進行二維(2D)視覺化,再對受試者給出 “go” 的提示後記錄相關資訊。

t-SNE 方法顯示了每個字元的神經活動緊密簇和一種主導運動編碼,在這種編碼中,書寫相似的字元更接近,將近鄰分類器離線應用到神經活動中,可以對字元進行分類,準確率為 94。1%。

於是,研究人員得出結論,

即使在癱瘓多年後,運動皮層中筆跡的神經表徵可能仍足夠強大,可以透過腦機介面技術表達出來。

能不能解碼 “手寫句子”?

成功解碼手寫字母的最終目標,是讓癱瘓患者實現流暢的對外交流能力,這需要實時解碼 “意念” 手寫筆跡,並完整呈現出他們想要表達的資訊。

為此,研究人員

特意訓練了一個遞迴神經網路

,將神經活動轉化為描述每個字元在每個時刻被寫入的可能性機率,這些機率可以用一種簡單的方法來設定閾值,從而發出離散字元,或者透過使用一個大詞彙量語言模型進行更廣泛的處理,以模擬離線應用的自校正特徵。

研究人員在實驗中使用了 31 個字元的限定集,包括字母表中的 26 個小寫字母,以及逗號、頓號、問號、句號和空格,為了收集實驗中遞迴神經網路的訓練資料,他們需要記錄 T5 按照電腦顯示器上的指示,以自己的速度手寫完整句子時的神經活動。

在第一天的實時評估之前,研究人員收集了 3 個試驗日內總共 242 句話,這些句子被組合起來訓練遞迴神經網路。在隨後每一天的實時測試中收集額外的訓練資料,並在評估前重新校準,至最後一天總共產生了 572 個訓練句子(包括 31472 個字元)。

為了訓練這個遞迴神經網路,研究人員採用了語音識別中的神經網路方法來克服兩個關鍵挑戰:

(1)訓練資料中每個字母的書寫時間未知(因為 T5 的手癱瘓),這使得應用監督學習技術具有挑戰性;

(2)與典型的 RNN 資料集相比,資料集的大小有限,因此很難防止對訓練資料的過度擬合。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|對手寫神經訊號進行實時解碼(來源:

Nature

在這樣的基礎上,研究人員在 5 天的時間裡對遞迴神經網路的表現進行評估,每天包含 4 個評估塊,包含 7-10 個遞迴神經網路從未接受過訓練的句子。受試者 T5 會從螢幕提示中複製每個句子,試圖一個字母一個字母地手寫,而解碼的字元在遞迴神經網路檢測到時實時出現在螢幕上。

經測試,字元出現與 T5 在大腦裡 “手寫” 之間會有一個短暫的延遲,大概為 0。4-0。7 秒,

令人興奮的是,整體打字速度很快,平均每分鐘可打出 90 個字元,平均錯誤率僅為 5。4%。

當研究人員使用語言模型離線進行自動更正錯誤時,整個系統的錯誤率則進一步降低了,

其字元錯誤率下降到 0。89%,單詞錯誤率下降到 3。4%

,與世界上最先進的語音識別系統(單詞錯誤率為 4–5%)相比,展現出了極好的可用性。

最後,為了探索可能的解碼效能限制,研究人員還離線訓練了一個新的遞迴神經網路,使用所有可用的句子以非因果的方式處理整個句子。在這種情況下,

僅出現了 0。17% 的字元錯誤率

,這表明效能的潛在上限其實很高,儘管這種解碼器目前無法向用戶提供逐字反饋。

實驗結果還證實,當受試者編寫自己生成的句子(而不是複製螢幕上的提示句)時,也可以獲得較高的效能,

每分鐘可打出 73。8 個字元,實時字元錯誤率為 8。54%,語言模型錯誤率為 2。25%。

解碼器的改進方向

藉助每天收集的 “校準” 資料,研究人員每天也對 “手寫筆跡” 解碼器進行再訓練。

再訓練有助於解釋隨著時間的推移而產生的神經記錄變化,這可能是由神經可塑性或電極陣列微動引起的,而理想情況下,為了減輕受試者的負擔,應該用最少或不需要校準資料。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|解碼器效能變化(來源:

Nature

值得注意的是,實驗資料表明,當兩個會話之間只經過 2-7 天時,在沒有解碼器重新訓練的情況下,效能顯示出了神經記錄的短期穩定性。

面對這種情況,研究人員測試瞭解碼器是否可以透過使用語言模型來糾錯和重新訓練解碼器,從而繞過中斷使用者校準的需要,以無監督的方式重新訓練。令人鼓舞的是,無監督再訓練的原始錯誤率僅為 7。3%。

解碼器是否能用最少的重新校準資料成功地再訓練,也取決於神經活動隨時間變化的速度。實驗評估了與每個特徵相關的神經模式的穩定性,發現短期穩定性很高(相隔 7 天或更短時間),這些結果對臨床病例是有希望的,因為它們表明無監督解碼器再訓練,可能有助於實現高效能。

腦機介面重磅突破!可將腦中“筆跡”轉為螢幕字句,準確率超99%

圖|輸入速度對比(來源:NPG Press)

這項研究實現的每分鐘輸入 90 個字元,

創造了迄今為止報道的相關型別腦機介面技術的最快速度

,對於皮質內腦機介面來說,之前最好的方法是用 2D 電腦游標點選輸入,每分鐘僅可以輸入 40 個正確字元,點選式腦機介面的輸入速度主要受解碼精度的限制,在引數最佳化過程中增加游標增益以提高打字速度,直到游標移動過快,由於解碼錯誤而變得無法控制為止。

研究人員經對比分析,手寫字母可能比點對點運動更容易區分,因為手寫字母的神經活動時空模式比直線運動更為多樣,而隨時間變化的運動模式,從根本上說比點對點運動更容易解碼。

結語

據瞭解,其實目前業內用於恢復患者交流能力的腦機介面有很多種方案。

其中,基於奇異電位或運動想象的腦電拼寫器通常每分鐘能達到 1-5 個字元;使用視覺誘發電位的腦電拼寫器已經達到了每分鐘 60 個字元的速度,但有明顯的可用性限制,比如會束縛眼睛,通常不會自動調整節奏,以及需要在螢幕上安裝閃光燈等;儘管基於 2D 游標移動的皮層內 BCI 技術讓使用者可以更自由地四處檢視並設定自己的交流節奏,但每分鐘的正確字元數還沒有超過 40 個。

此次研究人員不僅將腦機介面通訊速率提升到了每分鐘 90 個字元,而且該實時系統還具有

通用性

(使用者可以表達任何句子)、

易用性

(完全自定節奏,眼睛可以自由移動)和

足夠精確

的特點(94。1% 的原始準確率,在大詞彙量語言模型下離線準確率大於 99%),在現實世界中非常有用。

當前的實驗結果證明了高效能 “手寫” 腦機介面是可能的,但它目前還不是一個完整的、臨床上的商用系統,

接下來還有更多工作值得探索,比如進一步提高打字效能,擴充套件字符集、啟用文字編輯和刪除等操作。

來自華盛頓大學生物工程系的專家帕維斯特拉・拉傑斯瓦蘭(Pavithra Rajeswaran)、華盛頓大學電氣和計算機工程系專家艾米・奧斯本(Amy L。 Orsborn)在評論文章中表示,這項研究仍需要經過試驗論證,將電極植入大腦的費用和風險是否合理。另外一點重要的是,打字速度並不是決定這項技術能否落地的唯一因素 —— 這種方法的壽命和健壯性同樣需要分析,是否可以推廣到其他使用者和實驗室以外的環境中也至關重要。

目前的微電極陣列技術已被證明在植入後能保持功能超過 1000 天,而隨著皮質內微電極陣列技術的成熟,也需要進一步證明其壽命、安全性和有效性,才能廣泛應用於臨床。

總體來講,

將腦中的 “筆跡” 轉化為螢幕上的單詞、句子,其技術前景和商用潛力都十分令人鼓舞,人機結合的時代正在走來。

參考資料:

https://www。nature。com/articles/s41586-021-03506-2

https://www。nature。com/articles/d41586-021-00776-8

https://www。youtube。com/watch?v=3Y7BJbtMSVk&ab_channel=NPGPress

https://www。youtubemy。com/watch?v=FISFa-JkveQ&ab_channel=NPGPress

https://www。youtube。com/watch?v=3gVvde54iro&ab_channel=NPGPress

https://www。eurekalert。org/pub_releases/2021-05/sm-sss051021。php

https://www。eurekalert。org/pub_releases/2021-05/nion-ctm051121。php

https://www。eurekalert。org/pub_releases/2021-05/bu-bic051021。php

https://www。eurekalert。org/pub_releases/2021-05/hhmi-bci050721。php

相關文章

頂部