The Fiefdom of Files

为什么 Claude 能解读 Byzantine Music Notation?

2025年3月31日

在训练数据中,如果特定的密码偏移量出现频率足够高,那么对于一个 Transformer 模型来说,学习在权重中实现一个 Caesar cipher 是一种合理的转换。输入的 Token 拼写会有一些隐藏的表示形式,并且这种表示形式可以用于将字母偏移到其他字母,即使是在单个 Attention Head 中。大多数前沿模型可以流利地读写 ASCII 文本上的 Caesar cipher,偏移量可能是 1、-1、2、3 等,这些值可能出现在它们的训练数据中。

我们很快就会看到,它们还可以在给定一个短句的情况下,动态地推断出正确的偏移量,这对于单个前向传播来说已经非常令人印象深刻了。

这种效果不能推广到不常见的偏移量也是很自然的,因为权重中实现的数值算法仅限于训练分布中的值。

现在,我们在前沿模型中进行测试,通过让它们在不允许任何测试时“思考 Token”的情况下解码密码,作为偏移量的函数。我们将偏移量添加到消息的每个 Unicode 编码中,然后转换回字符。与常规 Caesar cipher 不同,我们不执行模运算。

例如,消息 "i am somewhat of a researcher myself" 将变为 "𝁩𝀠𝁡𝁭𝀠𝁳𝁯𝁭𝁥𝁷𝁨𝁡𝁴𝀠𝁯𝁦𝀠𝁡𝀠𝁲𝁥𝁳𝁥𝁡𝁲𝁣𝁨𝁥𝁲𝀠𝁭𝁹𝁳𝁥𝁬𝁦"。

下图显示了解码每个密码偏移量对应的 6 条不同消息的成功率。我们禁止了思维链 (Chain-of-Thought),只考虑立即解码:“解码以下消息:{message}。仅回复解码后的消息,绝对不要回复其他任何内容。”

我们看到,Claude-3.7-Sonnet 可以在第一个前向传播中推断出偏移量(理解其机制将非常有趣),然后正确地应用解密。但是,随着偏移量远离零,成功率会逐渐降低。一切都大致符合预期。

至少这是我的理解,直到我读到 Erziev (2025),它描述了一种现象,即包括 Claude 和 gpt-4o 在内的许多模型可以流利地读写高 Unicode 范围内的隐藏消息,例如 href="https://en.wikipedia.org/wiki/Byzantine_Musical_Symbols">Byzantine music notation Unicode block。

对于 Byzantine music Unicode block 的特定情况,我们可以将这种转换理解为 Unicode 空间中的类似 Caesar 的密码,偏移量为 118784。在类似 Caesar 的 Unicode 密码中使用它会导致近乎完美的解码准确率。

之所以这有可能奏效,是因为至少在大多数公共分词器(如 o200k)中,某些 Unicode 范围内的加法与 Token 空间中的加法是可交换的。例如,如果我们将 τ:Σ∗→^Σ∗ 定义为 o200k 分词器,那么在 Byzantine music notation 范围 (U+118784−U+119029) 的一个子集中,线性性质成立。

τ([U+118881+k])=[43120,223,94+k],k∈{0,…,29}∖{12},

因此,除了一个符号外,所有这些符号都被映射到三个 Token,其中前两个 Token 相同,并且可以很容易地被 Attention Head 忽略,而第三个 Token 恰好随 Unicode 递增。

这些 Token 中的第一个(o200k 分词器的 Token 94)是其词汇表的第一个二进制 Token,并与后面的 93 个 Token 一起表示二进制字符串 b'\xa1' 到 b'\xff'。

这使得在理论上存在一个电路来实现对这些字符的移位密码成为可能。剩下的就是解释为什么实际上学习了这种密码。

特殊的偏移量 118784 将字符 "a" 映射到 U+118881,这是按上述算术序列进行分词的第一个字符。特别有趣的是,大一或二的偏移量不起作用。这意味着模型已经学习了一个专门从二进制范围 b'\xa1'−b'\xba' 到小写 ASCII 范围 97-122 的映射。如果有人告诉我这以某种方式经常出现在训练数据中,我会相信,但我无法确切地想到它如何发生。

然而,即使偏移量大一,gpt-4o 仍然保留了一些解密能力,这初步证实了 Unicode-Token 空间中加法的可交换性是其中的一部分。由于 Claude 可以很好地处理解密,我们可以得出结论,它的秘密分词器也以算术方式递增处理二进制字符串,例如 o200k。

这种不寻常的移位算法可以在多个模型系列中工作,甚至比常规 Caesar cipher 更一致,这非常奇怪,而常规 Caesar cipher 据说在训练数据中非常常见。这可能表明该算法使用了来自其他任务的电路,或者存在更根本的原因导致这种特定能力在下一个 Token 预测中很有用。

© 2021 - 2025 fi-le.net, the fiefdom of files | Newsletter Signup: