21對話|中美腦機接口競速,差異在哪裡?

21世紀經濟報道記者駱軼琪 廣州報道

中國腦機接口公司上大分!這兩年已經有不少“全球首個”“中國首次”的案例出現。

在腦機接口行業,中國公司到底發展到了什麼程度,全球頭部企業之間的路線有什麼差異,AI又會給這個行業帶來什麼新的催化?

21世紀經濟報道記者對話腦虎科技創始人兼首席科學家陶虎,聽聽他的分析。

《21世紀》:近兩年國內侵入式腦機接口臨牀試驗案例增多的原因?

陶虎:最近這兩年,隨着技術的進步,尤其是AI技術的進步。對於行業來說,一方面,讓我們對大腦腦電信號採集的能力,從數量和質量方面都大幅提高。同時隨着AI技術發展,對於之前採集來的高質量、大規模數據,能夠更好去分析,進而進行神經編解碼。

這讓行業可以較好實現用意念合成運動、腦虎團隊做到用意念合成語言。這都是基於近些年技術的發展實現的。

當然同時也有很多外因促進。第一是技術本身,第二是政策,第三是資源或資本。

所以不管在臨牀進展、技術性能體現上,以及更大的資源、資本投入上,可能比前兩年,會呈現出一個新的高峰。

《21世紀》:腦虎科技全球率先實現實時漢語言解碼技術,是否比英語解碼更難?

陶虎:首先介紹一下運動和語言之間的差別。用意念合成運動,其實早在20年前,美國就有公司做出來,實現用意念控制拿杯子、拿可樂,握手甚至進行剪刀石頭布(的遊戲)都可以做到。到目前爲止,國內幾家頭部企業和科研團隊,也都能實現用意念合成運動。

相對來說,用意念合成語言,是比運動更爲高級的功能。一方面,神經編解碼機制更爲複雜、涉及的腦區更多,本身完成這一項工作所需要的信息量也更大。

漢語的特殊性在於,第一,漢語是單音節的,但英語是多音節的,體現在大腦中,對語言本身相應的大腦編解碼方式就不太一樣。第二,漢語有語調,而且語調特別重要,比如普通話有四調、粵語甚至有八調,其實每個音調代表不同的意思,這也意味着一些解碼機制的不同。第三,漢語到現在爲止屬於方塊字,有些字本身蘊含一些“會意”。

在這些漢語和英語間基本的不同之下,編解碼方式也需要有較大調整。當然二者依然有共通的地方,比如雖然是漢語或西語體系,依然在人類大腦的語言區來處理。

《21世紀》:從實時運動解碼到實時語言解碼,整體邏輯是怎樣的?

陶虎:我來舉個例子,至少我們內部是這樣認爲的。

例如智能駕駛或無人駕駛,有相對明確的L1-L5技術邊界。那麼腦機接口行業也有類似定義,至少我們內部會有這樣的定義,也是根據本身實現的難易程度、實現後的獲益程度決定的。

L1基本就認爲是實時運動解碼。相對來說,其涉及的腦區比較單一、所需通道數也比較少。其實目前行業做到幾十甚至幾千通道數,但對運動來說,幾個通道數就可以實現用意念控制輪椅、抓取杯子、意念控制打遊戲等動作。

L2我們認爲是實時語言解碼。因爲語言涉及腦區更多,可能帶來的信息量更快,特別是輸出速度方面。例如人與人之間日常溝通半個小時左右,但通過實時語言解碼,繞開發聲器官,直接用腦機接口技術來實現溝通,可能幾分鐘甚至幾秒鐘就可以溝通完成。

L3我認爲是進行視覺解碼。因爲人類獲取信息,絕大部分是通過視覺來完成,而且視覺本身信息量更大。雖然視覺皮層在腦部的偏後方,但視覺皮層覆蓋的面積非常大,就是爲了獲取更多信息,未來可能還要處理更多的信息。這是馬斯克和我們都在佈局的方面。

到了L4,可能就是大家一直期待,也是腦虎科技在佈局的情感、記憶、認知等方面。倒不是說它的信息如何難,而是涉及的腦功能更爲複雜,所涉及的腦區神經環路也更爲複雜和先進。

當然腦機接口行業的L1-L4,與無人駕駛行業還有所不同。因爲智能駕駛還是比較嚴格遵循L1-L2、L2-L3的升維路線。但在腦機接口行業,L3和L2之間似乎還沒有必然的先後順序,有些人選擇不做語言解碼,先做視覺解碼也可以。