肌萎缩侧索硬化(ALS)俗称渐冻症,是一种导致肌肉逐渐失去控制的神经系统退行性疾病。当疾病累及控制发声系统的神经时,患者将出现构音障碍,即丧失清晰的语言表达能力。
《新英格兰医学杂志》(NEJM)发表一项由美国斯坦福大学等机构联合团队开展的最新临床试验。研究者为一名患病5年的肌萎缩侧索硬化(ALS)伴构音障碍患者实施手术,将语音神经假体植入大脑皮层。术后25天,即设备启动第一天,该神经假体实现了对50个词汇99.6%的解码准确率。第二天,经过1.4小时校准,其性能进一步提升,达到了对12.5万词汇90.2%的解码准确率。随后8.4个月期间,准确率更是攀升至97.5%,患者交流速度也达到每分钟32个单词。
《NEJM医学前沿》邀请清华大学生物医学工程学院洪波教授解读此项研究。阅读全文翻译,请访问《NEJM医学前沿》官网或点击小程序图片。阅读英文原文,请点击文末"阅读原文"。
语音解码脑机接口性能再创新高,
12.5万词汇解码准确率97.5%
语言推动了抽象概念的产生,促进了人际交流。《人类简史》作者尤瓦尔·赫拉利认为,语言的出现是人类进化史上最重要的认知革命,人工智能大模型的出现更是把语言符号推到了信息处理和智能技术发展的最前沿。人脑中的语言有两个层次,底层语言是我们用于思考和推理的符号和概念体系,涉及大脑前额叶、海马等脑区,人工智能大模型要努力模仿的正是这个层次的推理机制;表层语言是我们用于沟通的语音、手势和书写系统,它和运动脑区的功能密不可分。
语音占据语言沟通的核心位置。口唇和声带等发音器官的精细运动能够发出a/o/e这样的元音,也能发出b/p/d/t这样的辅音,这些基本的音素用不同顺序和节奏连接起来,组成了人类赖以沟通的语音。口唇和声带的运动,实际上和四肢运动一样,都由大脑中央前回的运动皮层控制,中央后回的感觉皮层也会参与其中。
如果在控制手部运动的脑区植入微电极,即可记录人在动手时的神经细胞放电活动,并通过解码算法就能翻译出手部运动的参数,例如坐标位置、运动速度等,这些参数可以用来控制光标、机械手、轮椅等。这就是我们熟知的运动控制的脑机接口。类似地,在控制口唇、声带运动的脑区植入微电极,也可以记录神经活动,翻译出语音的音素,并在语言模型的协助下组装成完整句子,通过语音合成器播放出来。这就是语音脑机接口的工作原理。
语音脑机接口近年来有很大进展,从手术中短期植入的皮层电极,发展到长期植入的硅电极阵列;从离线的音素分类,发展到在线实时语音解码;从对癫痫患者的临床研究,发展到ALS(肌萎缩侧索硬化症,俗称渐冻症)患者的临床试验[1]。8月15日,《新英格兰医学杂志》(NEJM)报道了美国斯坦福大学、加州大学戴维斯分校、布朗大学等多个团队联合完成的一项最新临床试验结果:一位ALS患者植入了根据神经细胞放电活动解码语音的脑机接口,其解码准确率和训练校准所需时间这两项关键指标取得飞跃式进展[2]。
脑机接口开机第一天(植入后第25天),对50个单词词汇表解码取得了99.6%的准确率;第二天,经过1个多小时的系统训练校准,脑机接口对患者使用的12.5万单词词汇表的解码准确率达到90.2%;持续训练8个多月后,准确率更是提升到97.5%。在自主说话测试中,脑机接口每分钟可以解码32个英文单词(正常人语速一般在每分钟160个单词左右)。这样的进展是如何实现的?笔者下面从电极数量和植入位置优化,以及解码算法和训练方法改进两方面回答。
这项临床试验采用了4个由Blackrock Neurotech提供的犹他硅基电极阵列(Utah Array),每个电极阵列包含64个电极(8 × 8排布,阵列尺寸3.2 mm × 3.2 mm),3个电极阵列植入在中央前回腹侧控制口唇和声带运动的位置,1个电极阵列植入和语言处理相关的55b区(已有研究表明该区域与语音的神经表征相关,但尚未完全清楚其功能,图1)。这样总共有256个电极植入语音处理相关的脑区,它们分别汇总到两个集线插头上,通过HDMI有线连接到计算机上进行实时信号处理和语音翻译(图1)。
该研究组2023年发表于《自然》杂志的一项研究[3]也用了4个电极阵列,其中2个和这次一样放在中央前回腹侧,另外2个放在了前额叶额下回(IFG;通常所认为该区域与语言产生相关),但是额下回在语音解码中没有显著作用。总体上,在12.5万词汇表上的解码准确率只有76.2%。
所以,他们这次“集中火力”,把4个电极阵列都植入中央前回腹侧与发音相关的运动脑区,这一决定显然大大提升了有效信息的获取,这也是该研究取得如此高解码准确率的主要原因。这说明两点:一是控制发音的运动脑区提供了对于语音解码最为有效的神经活动信息,额下回等高级语言区贡献不大;二是发音器官在运动脑区的表征比较精细,需要较高的电极密度才能获得足够的解码信息。当然这也暗示,目前的语音脑机接口解码和运动控制脑机接口没有本质上的区别,都是运动控制的解码。因此,我们不能简单地将这项研究结果解读成当前的脑机接口已经可以解码人类语言了。从语义层面而非语音层面,通过神经信号解码出人类想说的话,还有很长的路要走。
对于语音如何在人脑中编码的问题,加州大学旧金山分校Edward Chang研究组首先在癫痫患者身上开展高密度颅内脑电的分析与解码[4,5]。本文研究组2023年发表于《自然》杂志的研究进一步深入到神经细胞层面[3]。他们的研究都表明,控制发音器官的脑区神经活动主要编码口唇和声带相关的活动,这些精细活动直接对应所产生的音素[3,4]。基于这样的编码规律,解码算法的核心就是通过多电极的神经活动来预测发音的音素。不同位置的电极可能采集到不同音素对应的神经活动,多个电极的活动综合起来,就能区分出不同的音素单元。
NEJM发表的此项研究训练了一个五层的循环神经网络(recurrent neural network,RNN),解码当前时刻的音素,连续解码的音素再送入一个经典N-gram语言模型,预测出最有可能的前100个单词序列,最后再送入基于transformer的语言模型,选出最有可能的句子输出(图1)。这种两层解码策略是当前所有语音脑机接口的通用策略,其本质是整合了神经活动包含的解码信息和语言序列的前后依赖关系(即句子中本来就蕴含的对下一个词的预测能力[next-word prediction])。
与前文提到的《自然》2023年发表的研究相比,本研究在优化了经典的语言预测模型之后,增加了基于transformer的语言模型,进一步提升了输出句子的准确率。按照作者在《自然》论文中的估算,直接通过神经活动解码音素的准确率大约在80%左右,而更高的句子层面的准确率是由语言模型所提供的。也就是说,基于神经细胞放电的语音解码大概是2/8定律,8成信息来自患者自己的神经活动,2成信息是根据语言序列自身规律“猜出来”的。如果采用颅内脑电ECoG进行解码,神经信号中包含的语音信息更模糊,这个比例可能要低一些[4,5]。
这项研究的另一个重要成果是解码模型的快速训练。神经细胞层面的活动每天都有变化,因此以往的解码模型每天都要进行校准。校准模型时,通常要求患者逐字“读出”(默读)屏幕提示的几百个句子,同时记录神经活动,这相当于用有标签的样本去校准解码模型。在本研究中,因为更强语言模型的加入,实际上每次语言模型“猜出”的句子可以作为“弱”样本去训练解码模型,这也可以大大节约校准所需的时间[1]。作者提到在本研究中,只需要花7.5分钟“读出”20个句子,就可以完成模型校准更新,这一改进也大大降低了系统的使用成本。当然,随着患者越来越多地使用该系统,累积的训练样本用于系统校准,会进一步提升准确率。
这一语音解码脑机接口技术的准确率几乎接近正常人听写的准确率,这大大方便了ALS患者的语言沟通[2]。本研究招募的是一位45岁的ALS患者,确诊已经5年。入组试验时,患者完全依赖他人照护。因为口唇运动神经元的凋亡,患者有构音障碍,说话声音低、鼻音重,没有声调,即使在家人的帮助下,也只能每分钟说出6~7个正确的单词;使用检测头部运动的鼠标,每分钟也只能输出6~7个正确的单词。
植入语音脑机接口之后,患者与家人的沟通得到很大改善。除了前面提到的准确率很高之外,在植入后8.4个月的时间里,患者的累计使用时长达到近250小时。他可以日常使用该系统参加视频会议、写文档、回复邮件。患者在第一次使用脑机接口准确“说出”自己想说的话时,他和家人激动得热泪盈眶(见以下视频)。作者在讨论中也谨慎地指出,脑机接口解码的高准确率可能部分归因于患者残余的发音能力;ALS晚期患者能否使用类似系统也需要进一步验证[2]。
值得指出的是,这项临床试验是美国最主要的植入脑机接口方案BrainGate的第二代临床试验(NCT00912041)。除了用于运动控制解码,近几年由斯坦福大学联合团队主导开展了两名ALS患者的语音解码脑机接口临床试验[2,3],本次报道的是其中第二例。与第一代相比,BrainGate2的单个电极阵列尺寸缩小,电极数从96减为64。
但是,该系统仍然采用了开放创口的有线插头来传输神经数据,每次使用需要专业人士对皮肤伤口进行消毒,插上数据插头。这样的有线连接大大限制了脑机接口系统在普通家居环境中的使用。Neuralink团队两例运动控制脑机接口临床植入试验,以及国内清华大学团队控制手部外骨骼的微创脑机接口[7],都采用了无线传输技术,也把植入脑机接口应用推进到了普通的家居环境。
本文来自新知号自媒体,不代表商业新知观点和立场。
若有侵权嫌疑,请联系商业新知平台管理员。
联系方式:system@shangyexinzhi.com