谷歌用LLM帮渐冻人眼神打字,又快又省力!新研究登上Nature子刊

科技有夕小瑶 2024-11-26 12:24:59

渐冻症,大家应该都听说过。如果你不知道渐冻症,但你应该知道蔡磊。

最近,谷歌开发了一个工具,利用LLM帮助渐冻症患者更快更省力地用眼神打字,可以减少 57% 的眼动打字按键次数。

渐冻症,是一种运动神经元疾病,会导致脑和脊髓中的运动神经元受到损害,患者会逐渐出现肌肉无力、萎缩、肢体僵硬。

所以,对于他们来说,语言交流是一个巨大的挑战,我们习以为常的发声说话、用手打字,在他们身上都变得非常困难。

虽然有辅助沟通设备(AAC)和眼动追踪技术可以帮助患者进行基本交流,但依旧有很多问题,比如交流的速度很慢,不能流畅对话,而且频繁的眼动选字容易导致视觉疲劳。

谷歌研究团队最新开发了一款创新的交互界面——SpeakFaster。

这个系统基于大语言模型,可以把高度缩略的英文文本扩展为完整短语句子,高度缩略的文本仅包含单词首字母,必要时可以添加字母和单词,通过准确预测用户的意图,扩充为完整的句子,实现大幅减少所需的输入操作。

它不仅分析语境,还会结合非语言信息,帮助用户更快速、更轻松地表达想法。

,时长00:13

该系统帮助 ALS 患者减少了 57% 的眼动打字按键次数,文本输入速度相比基准提高了 29% 至 60%。

论文题目:《Using large language models to accelerate communication for eye gaze typing users with ALS》

论文链接:https://www.nature.com/articles/s41467-024-53873-3

这篇论文已经发表在Nature 子刊 Nature Communications 上,接下来和小鹿一起看下这项工作到底做了什么~

模型设计

研究团队利用大语言模型的强大功能,对患者用户的文本输入策略和用户界面设计进行了深入分析。

他们开发了一个名为SpeakFaster的系统,该系统通过对大语言模型(本研究使用经过微调的 LaMDA)进行微调并利用对话上下文,能够将高度缩写的英文文本(仅包含必要单词的首字母和一些额外的字母或单词)扩展成完整的短语,且具有极高的准确率。

SpeakFaster系统是Google Research与Team Gleason共同开发的成果。

根据研究团队的初步用户调研表明,这种共同设计的用户界面在离线模拟测试中,相比传统的预测键盘,减少了57%的操作动作,并且文本输入速度比传统基准快了29%至60%。

尽管缩写扩展技术前景广阔,但在实际应用中仍存在一些亟待解决的挑战。

其中最突出的是:当系统无法正确识别用户输入的缩写时,需要为用户提供输入任意短语的灵活选项。

为此,研究团队开发了一个完整的解决方案,包括用户界面系统和两个经过专门微调的大语言模型。这两个模型的训练数据来自四个公共英语对话数据集,研究人员从中提取并合成了约180万个独特的训练样本,每个样本都包含上下文、缩写和对应的完整短语三个要素。

第一种大语言模型是KeywordAE,该模型能够扩展混合首字、仅首字母母和完整或部分拼写单词的缩写:

第二种大语言模型是FillMask, 则根据周围单词的上下文中生成给定首字母开头的备选单词:

此外,为了形成通往微调 LLM 的通道,研究团队还设计了具有三个路径的 UI,即 Initials-only AE、KeywordAE 和 FillMask,以支持完整的缩写文本输入体验。

Initials-only AE 是 SpeakFaster UI 中所有短语输入的基础路径。它只需输入首字母,操作简单快捷,特别适合输入简短、常见的短语。

工作流程:

用户每输入一个字母,系统就会自动调用 KeywordAE LLMLLM 基于输入的缩写和历史对话记录,返回 5 个最可能的短语选项用户可以直接从推荐列表中选择目标短语如果首字母路径未能找到目标短语,SpeakFaster UI 还提供两条备选路径供用户使用。

第一种替代 UI 路径是 KeywordAE:

支持多个关键词输入实时响应每次按键操作自动展示 LLM 生成的 top-5 短语扩展

第二种替代 UI 路径是 FillMask:

用于修正短语中的个别词语主要处理单个词语不准确的情况作为无法找到精确匹配短语时的补充方案

KeywordAE和FillMask是两种互补的交互方式,帮助用户从首字母输入中恢复出完整短语。

SpeakFaster UI允许用户在使用KeywordAE模式后切换到FillMask模式,这在预测复杂短语时特别有用。

使用SpeakFaster时,用户首先输入短语中每个单词的首字母。接着,经过优化的LLM预测出完整短语,并根据首字母和对话上下文展示最可能的选项。如果所需短语未出现在选项中,用户可以通过拼写关键词或选择替代词来改进预测。

这种方式显著减少了按键次数,提高了交流效率。

模拟实验

为了评估SpeakFaster用户界面在减少用户操作步骤方面的潜在上限,研究团队进行了一系列模拟实验。实验中,他们利用Turk Dialogues语料库,测试了三种不同的用户交互策略:

策略1:首先使用首字母缩写(AE)进行输入,若未成功匹配,则转而使用KeywordAE进行迭代拼写,直至找到符合的短语。

策略2:基本与策略1相同,但在最佳匹配短语候选中只剩一个错误单词时,采用FillMask技术进行单词替换。

策略2A:是策略2的一种变体,更加积极地应用FillMask技术,在最佳选项中剩下两个或更少错误单词时即进行替换。

其中:

图A比较了不同条件下的键击节省率(KSRs)与Gboard基线(蓝色)。橙色条表示使用对话上下文的KSRs,灰色条表示不使用对话上下文的KSRs,其中所有结果基于KeywordAE和FillMask LLMs的前五个最优选项。图B展示了策略2中,LLM选项数量与KSRs的关系,并与Gboard基线进行对比。图C显示了首字母AE的成功输入比例,该比例随选项数量和对话上下文的可用性而变化。

所有数据点均来自测试集中280个Turk对话的模拟结果,仅包含长度不超过10个单位(包括单词和标点)的对话轮次。实验结果表明,SpeakFaster在所有三种策略中都优于Gboard基线。其中,策略2使用KeywordAE v2模型时表现最佳,达到0.657的键击节省率,比Gboard的0.482高出36%。这证实了结合LLM的上下文感知能力和FillMask的词替换功能可显著提升输入效率。研究还发现,五个选项是最优数量,且对话上下文对LLM预测至关重要。

用户研究

为了评估SpeakFaster的有效性,研究团队不仅进行了模拟实验,还开展了用户研究,涉及非AAC用户和ALS眼动用户。这些研究分为剧本和非剧本两个阶段,以全面测试系统的性能。

在剧本阶段,参与者按照屏幕上显示的文本输入对话内容,而在非剧本阶段,参与者与实验者进行5至6轮即兴对话。

为了帮助参与者熟悉SpeakFaster界面,研究团队提前提供了视频演示和五次对话的小练习。

用户研究中,主要评估了三个指标:

节省的动作(与完整字符集相比节省的击键数)实用性(每分钟的打字速度)SpeakFaster UI的可学习性(人们需要多少练习才能熟练使用系统)。

相比传统基准系统,SpeakFaster在减少用户操作负担——节省动作方面取得了显著成效。

如下图所示,使用SpeakFaster后,无论是ALS患者还是普通用户都能大幅降低输入操作次数,普通用户在固定场景下可减少56%的按键操作,在自由对话场景下也能减少45%的操作量。特别值得一提的是,对于依赖眼动控制的ALS患者,SpeakFaster在预设对话场景中也显著降低了他们的操作负担。

在实用性方面,对于普通用户而言,系统的文本输入速度与传统输入方式相比不相上下,而在针对ALS患者的专项研究中,系统表现出显著的优势:在预设对话场景(剧本)下,用户的输入速度提升了61.3%;即便在自由对话场景(非剧本)中,输入效率也提高了46.4%。这些数据充分证明了SpeakFaster在提升特殊群体沟通效率方面的突出贡献。

在可学习性上,研究团队选用了评估打字系统和用户界面时用户的学习过程和认知负担的曲线作为衡量指标。

如上图所示,ALS患者通过眼动操作 SpeakFaster 系统时,初期学习速度相对较慢,但经过适度练习后便可以熟练使用。大概完成约15次对话练习后,患者就能达到流畅且舒适的打字水平。

这种学习曲线虽然比普通用户略长,但对于需要辅助沟通的患者来说仍是可以接受的适应过程。

而且,研究观察到的用户KSR值可以通过模拟结果高精度预测。如上图的图7中顶部面板中的蓝点显示,在剧本对话中,所有用户的平均KSR值与逐轮模拟值之间存在显著的正相关(皮尔逊相关系数:R158 = 0.905,p < 0.001)。非剧本对话(橙色点)的模拟值和观察值之间也表现出显著的相关性(R158 = 0.636,p < 0.001)。

研究团队还展示了一个示例:

例子中包括两个对话者的六轮对话。

右侧则展示了从这些对话中提取的示例,用于训练KeywordAE和FillMask模型。这些示例在缩写策略上有所区别:

第一个示例只使用首字母缩写,不包含完整关键词第二个示例包含一个完整关键词第三个示例包含两个部分关键词。

在训练示例的缩写部分,关键词之间插入了空格,这有助于提高大语言模型微调的精度,因为它能从底层的SentencePiece分词器中提取更一致的分词。关键词下的下划线仅用于提高视觉清晰度。底部的FillMask示例展示了一个无上下文的实例,而实际数据集中既包含无上下文示例,也包含带有前几轮对话作为上下文的示例。在展示的示例中,黑色文字表示输入到LLMs的内容,蓝色文字表示LLMs被训练以生成的目标。

结语

大语言模型的出现标志着人工智能领域的范式转变,开创了认知计算的新纪元。这一技术突破不仅体现了计算机科学的重大进展,更预示着人机交互模式的革命性变革。

除了以上大的意义,大语言模型出现对人类生活质量的产生了大大的改善!

SpeakFaster这项突破性的进展让我们看到,通过整合大语言模型与精心设计的用户界面,我们竟然能够如此显著提升患有运动障碍者的沟通效率!,让他们能够更自如地表达思想、参与社会交流。

而且,效果如此好!

小鹿相信这仅仅是开始~未来,随着大语言模型技术的持续演进,未来将为数百万人带来更多的新希望~

0 阅读:1