從思想到言語：人工智慧如何破解神經訊號以幫助 ALS 患者說話

腦機介面是一項突破性的技術，可以幫助癱瘓的人恢復失去的功能，例如移動手。這些設備記錄來自大腦的訊號並破解使用者的預期動作，繞過通常會傳輸這些大腦訊號來控制肌肉的受損或退化的神經。

自2006年起，人類腦機介面的演示主要集中於透過使人們能夠恢復手臂和手部的運動控制電腦游標或者機械手臂。最近，研究人員開始開發語音腦機介面為無法說話的人恢復溝通。

當使用者嘗試說話時，這些腦機介面會記錄該人與嘗試說話的肌肉運動相關的獨特大腦訊號，然後將其翻譯成單字。然後，這些單字可以在螢幕上顯示為文本，或使用文字轉語音軟體大聲朗讀。

我是一個研究員在這神經假體實驗室加州大學戴維斯分校，該大學是腦門2 臨床試驗。我和我的同事最近展示了一種語音腦機接口破解一名患有肌萎縮側索硬化症（ALS）的男子試圖講話的內容，或肌萎縮性側索硬化症，也稱為盧伽雷氏症。此介面將神經訊號轉換為文本，準確率超過 97%。我們系統的關鍵是一組人工智慧語言模型——幫助解釋自然語言的人工神經網路。

記錄大腦訊號

我們的語音-腦機介面的第一步是記錄大腦訊號。大腦訊號有多種來源，其中一些需要手術才能記錄。透過手術植入的記錄設備可以捕捉高品質的大腦訊號，因為它們放置得更靠近神經元，從而產生更強的訊號，幹擾更少。這些神經記錄設備包括放置在大腦表面的電極網格或直接植入腦組織的電極。

在我們的研究中，我們透過手術將電極陣列放置在參與者凱西·哈勒爾的言語運動皮質中，言語運動皮質是大腦中控制與言語相關的肌肉的部分。當 Harrell 試圖說話時，我們記錄了 256 個電極的神經活動。

嵌入腦組織的 64 個電極陣列記錄神經訊號。加州大學戴維斯分校健康中心

解碼大腦訊號

下一個挑戰是將複雜的大腦訊號與使用者試圖說的話聯繫起來。

一種方法是將神經活動模式直接映射到口語單字。此方法需要多次記錄每個單字對應的大腦訊號，以識別神經活動與特定單字之間的平均關係。雖然這種策略對於小詞彙量來說效果很好，如 2021年學習50個單字詞彙，對於較大的來說變得不切實際。想像一下，要求腦機介面使用者多次嘗試說出字典中的每個單字——這可能需要幾個月的時間，而且對於新單字仍然不起作用。

相反，我們使用另一種策略：將大腦訊號映射到音素，即構成單字的聲音的基本單位。英語中有 39 個音素，包括 ch、er、oo、pl 和 sh，可以組合形成任何單字。我們可以透過要求參與者大聲朗讀幾個句子來多次測量與每個音素相關的神經活動。透過準確地將神經活動映射到音素，我們可以將它們組裝成任何英語單詞，甚至是系統沒有明確訓練的單字。

為了將大腦訊號映射到音素，我們使用先進的機器學習模型。這些模型特別適合這項任務，因為它們能夠在大量複雜數據中找到人類無法辨別的模式。將這些模型視為超級聰明的聽眾，他們可以從嘈雜的大腦訊號中挑選出重要訊息，就像你在擁擠的房間裡專注於談話一樣。使用這些模型，我們能夠以超過 90% 的準確率破解嘗試語音期間的音素序列。

腦機介面使用凱西·哈勒爾聲音的克隆來大聲朗讀從他的神經活動中破譯的文本。

從音素到單字

一旦我們破解了音素序列，我們就需要將它們轉換成單字和句子。這是具有挑戰性的，特別是如果破解的音素序列不完全準確的話。為了解決這個難題，我們使用兩種互補類型的機器學習語言模型。

第一個是 n-gram 語言模型，它預測哪個單字最有可能遵循一組 n 字。我們訓練了一個 5 克或五個單字的語言模型數以百萬計的句子根據前四個單字預測單字的可能性，捕捉本地上下文和常用短語。例如，在“我很好”之後，它可能會比“土豆”更可能暗示“今天”。使用這個模型，我們將音素序列轉換為 100 個最可能的單字序列，每個序列都有一個相關的機率。

第二個是大型語言模型，它為人工智慧聊天機器人提供動力，並預測哪些單字最有可能跟隨其他單字。我們使用大型語言模型來完善我們的選擇。這些模型經過大量不同文本的訓練，對語言結構和意義有更廣泛的理解。它們幫助我們確定 100 個候選句子中哪一個在更廣泛的上下文中最有意義。

透過仔細平衡 n-gram 模型、大語言模型和我們最初的音素預測的機率，我們可以對腦機介面使用者想要說什麼做出有根據的猜測。這個多步驟過程使我們能夠處理音素解碼中的不確定性，並產生連貫的、上下文適當的句子。

加州大學戴維斯分校的語音腦機介面如何破解神經活動並將其轉化為單字。加州大學戴維斯分校健康中心

現實世界的好處

在實踐中，這種語音解碼策略非常成功。我們讓患有 ALS 的凱西·哈勒爾 (Casey Harrell) 能夠僅憑自己的想法“說話”，準確率超過 97%。這項突破使他多年來第一次能夠在舒適的家中輕鬆地與家人和朋友交談。

語音腦機介面代表著恢復溝通方面向前邁出的重要一步。隨著我們不斷改進這些設備，它們有望為那些失去說話能力的人提供發聲的機會，讓他們與親人和周圍的世界重新建立聯繫。

然而，挑戰仍然存在，例如如何使該技術更易於使用、便攜且經久耐用。儘管存在這些障礙，語音腦機介面仍然是科學和技術如何結合起來解決複雜問題並顯著改善人們生活的有力例子。

尼古拉斯·卡德 (Nicholas Card) 是加州大學戴維斯分校神經科學和神經工程博士後研究員。本文轉載自對話在一個知識共享許可。閱讀原創文章。

Trav Chaep

從思想到言語：人工智慧如何破解神經訊號以幫助 ALS 患者說話

記錄大腦訊號

解碼大腦訊號

從音素到單字

現實世界的好處

admin

More From Author

南非岩石藝術中的神秘生物「像香蕉一樣奇怪地彎曲」可能是早於恐龍的長牙爬行動物

扎克瑞昆圖 (Zachary Quinto) 在 NBC 的《聰明才智》中扮演巨型醫生的角色

更安全的加密貨幣方式

勒布朗·詹姆斯在職業生涯之夜後向凱特琳·克拉克的批評者發出四個字的信息

波音公司的 Starliner 將於 9 月 6 日在沒有機組人員的情況下返回

Leave a Reply Cancel reply

Recent Posts

Recent Comments

Archives

Categories