不分割成token，直接从字节中高效学习，Mamba原来还能这样用

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：不分割成token，直接从字节中高效学习，Mamba原来还能这样用
关键字：模型,字节,序列,时间,建模
文章来源：机器之心
内容字数：6575字

内容摘要：

机器之心报道
编辑：张倩给出一句「Hello, world!」你要怎么把它喂给 AI 模型？目前常见的方法是利用某种算法将它分为若干 token，比如 [“Hello”, “,”, “world”, “!”]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法，而且可能无法很好地处理新词、专有名词或非标准用法。因此，不少研究者也在尝试另一种方法：直接让模型从字节中学习。在 Mamba 问世之后，这条路似乎有希望了。
在定义语言模型时，通常会使用一种基本分词方法，把句子分为词（word）、子词（subword）或字符（character）。其中，子词分词法一直是最受欢迎的选择，因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中。然而，一些研究指出了子词分词法的问题，如对、拼写和大小写变化以及形态变化缺乏稳健性。
因此，有些研究人员另辟蹊径，采用了一种使用字节序列的方法，即从原始数据到预测的端到端映射，中间不进行任何分词。与子词模型相比，基于字节级的语言模型能够更容易地在不同的书写形

原文链接：不分割成token，直接从字节中高效学习，Mamba原来还能这样用