这项由马德里理工大学信息与处理电信中心、米兰理工大学以及西班牙央行联合开展的研究以预印本形式于2026年5月26日发布在arXiv平台论文编号为arXiv:2605.27268。感兴趣的读者可通过该编号检索完整原文。**一个你可能从未察觉的问题**你有没有注意到当你让AI帮你写文章、写邮件或者创作故事时它们的用词总是那么……规矩华丽的词藻几乎看不到转而充斥着此外、然而、总体而言这类中规中矩的表达。读多了甚至会有一种奇怪的感觉不同的AI写出来的东西好像都出自同一个人之手。这不是你的错觉。科学界已经有研究证实现代大型语言模型也就是我们常说的AI语言模型如ChatGPT背后的那类系统生成的文本彼此之间的相似度远远高于人类写作者之间的相似度。更有意思的是语言学家发现人类语言中词汇的使用频率遵循一个叫做齐普夫定律的自然规律——简单说就是常用词极常用罕见词极罕见但中间有大量丰富多彩的中频词构成了语言表达的主要色彩。而AI生成的文本则呈现出一种更为陡峭的分布高频词被反复使用那些原本应该出现的中间地带词汇几乎销声匿迹。这究竟是怎么回事AI是天生就不会用那些词还是说有什么机制在背后悄悄删除了它们马德里理工大学领导的这支研究团队决定深挖这个问题而他们的发现出乎所有人的意料。**一、词库里的隐形图书馆**要理解这项研究首先要明白AI语言模型在生成文字时是如何运作的。每当AI需要写下一个词它实际上是在对自己词库里的所有词汇进行一次全员投票——计算每一个词在当前语境下出现的可能性有多大。这个词库非常庞大通常包含数万个词汇条目。大多数词只有极低的可能性少数词有较高的可能性最终AI从中挑选出一个词来写下。问题来了数万个候选词每次都要从中挑选这个过程既耗时又危险。如果完全随机挑选AI偶尔会写出完全不合逻辑的词就像你在写今天天气很之后随机蹦出一个鳄鱼一样荒谬。为了让AI保持逻辑连贯工程师们设计了一套过滤机制——在最终挑选之前先把那些可能性极低的词通通剔除掉只保留最有可能、最合理的那一部分候选词。这套过滤机制有几种常见的形式研究团队重点考察了三种。第一种叫做Top-k采样顾名思义就是每次只保留可能性最高的k个词比如保留最高的10个候选词其余数万个全部淘汰。第二种叫做Top-p采样也叫核采样它不是固定保留k个词而是保留那些累积概率达到p的词比如p0.9意味着保留概率加起来刚好超过90%所需要的那批词。第三种叫做Min-p采样它设定一个最低门槛概率低于该门槛的词全部出局。这些过滤机制本来是好意——确保AI不会说胡话。但研究团队怀疑这种好意可能走过头了把很多本来合理、甚至精彩的词也一并误伤了。用一个比喻来理解这就像一个图书馆里面藏有几十万本书但管理员为了效率规定读者每次只能从最受欢迎的20本里借书。那些评分很高但借阅量不那么高的经典名著哪怕完全适合你的需求也永远不会出现在你面前。AI的词汇过滤机制做的就是这件事。**二、词汇覆盖率分数——给AI做一次词汇体检**为了量化这个问题研究团队设计了一个他们称之为词汇覆盖率分数Word Coverage Score简称WCS的评估工具。这个工具的核心逻辑很直接选取一批人类实际使用的词汇看看AI在生成文字时这些词汇有没有机会出现——不是问AI你知道这个词吗而是问你在实际写作时这个词还在不在候选范围内。研究团队首先精心挑选了一批目标词汇。他们使用了谷歌万亿词语料库作为参照从中选取了使用频率排名在第10000到40000位之间的词汇共100个。选这个区间是有讲究的排名在10000以内的词太常见就是的、了、是、有这类基础词AI肯定不会漏掉排名超过40000的词太生僻可能连AI的训练数据里都很少出现研究这些词没有说服力。10000到40000这个区间恰好对应了那些够丰富、不生僻的中等频率词汇——比如暴行、疑虑、沉淀、专制这类词人类作者会自然使用但AI是否会选择就很值得怀疑了。挑选完词汇后研究团队还需要给每个词找到它的出场场合——也就是给它配上真实的语境。他们使用了PG-19数据集这是一批1919年以前出版的人类书籍语言风格多样、词汇丰富而且没有现代AI生成文本的污染。对于每个目标词汇研究团队在这些书籍中找到该词实际出现的段落提取该词前面的256个词作为上下文共给每个词配了10个不同的语境最终形成1000个测试场景。接下来就是最关键的强制路径审查。研究团队把每一个测试场景的上下文输入给AI然后检查在这个上下文之后当AI计算概率分布时那个原本在人类文章里出现的目标词有没有被过滤机制拦截在外如果被拦截了说明该词不可达即AI在那个时刻根本没有机会写出那个词。如果顺利通过所有过滤则说明该词可达。将1000个测试场景的可达率汇总就得到了WCS分数。分数越高说明AI的词汇过滤机制对人类词汇的损失越少分数越低说明过滤机制删掉了大量原本合理的词汇选择。一个词的WCS需要满足一个严格的条件如果这个词由多个子词符号token组成——比如precipitated可能被切分为prec、ipit、ated三个部分——那么这三个部分必须全部通过过滤一个都不能被拦截否则这个词整体就算不可达。这个设计让评估更接近真实情况因为AI实际上就是一个子词一个子词地生成文本的。**三、被删除的词汇——实验结果令人惊讶**研究团队对多个主流AI模型进行了测试包括Llama-3.1-8B、Mistral-7B、Qwen系列、Gemma系列以及DeepSeek-R1等每个家族都同时测试了基础版未经特别训练调整的原始版本和对齐版经过人类反馈训练调整、面向用户对话的版本。结果相当触目惊心。以最常用的Top-p核采样为例当参数设置为p0.95这已经是比较宽松的设置意味着保留累积概率达95%的词汇、温度为0.7时绝大多数模型仍然有相当比例的词汇在所有10个测试语境中都无法被选中——也就是说这些词被彻底抹除了。就算把p提高到0.99依然有许多词逃不过被过滤的命运。更令人担忧的是当研究团队按照各厂商在产品手册中推荐的默认参数来测试时词汇损失情况更加严重。以实际使用中记录的默认设置为例Qwen2.5-14B-Instruct的默认设置是Top-p0.8、Top-k20、温度0.7在这个设置下整整43%的目标词汇在所有测试语境中一次都无法被选中Qwen3.5-9B的默认设置相同约48%的词汇彻底消失。Llama-3.1-8B-Instruct稍好一些设置为Top-p0.9、温度0.7有31%的词汇完全不可达。而表现最糟糕的是Gemma-4-E4B-it谷歌Gemma第四代经过对齐调整的版本其默认设置为Top-p0.95、Top-k64、温度1.0结果高达57%的目标词汇彻底消失综合WCS分数只有区区0.059意味着在全部1000个测试场景中只有不到6%的场景能够选中目标词汇。这些数字意味着什么换个说法你或许更直观你托AI帮你写一篇文章假设有50个精准、有表现力的词汇本来应该在恰当的地方出现但在默认设置下AI压根没机会考虑其中的20到30个因为它们早在投票还没开始前就被过滤掉了。**四、对齐训练让AI的词汇收缩了**研究团队还发现了一个颇为耐人寻味的规律经过人类反馈对齐训练后的版本词汇可达率普遍低于同家族的基础版本。所谓对齐训练是指让AI学习人类评价者的喜好从而生成更符合人类期待的回答。这种训练让AI更安全、更礼貌、更有帮助——但研究结果表明它同时也让AI的词汇选择更加保守和单一。在大多数模型家族中对齐版本虚线的词汇消失比例都高于基础版本实线。汇总来看基础版模型平均有74%的目标词汇至少在一个语境中可达对齐版本则降到了72.8%WCS分数从0.290降到了0.277。不过这个规律也有例外Gemma-3-12B经过对齐后词汇可达率反而有所提升。这说明对齐训练的影响并非一成不变具体效果取决于训练方式。而Gemma-4家族则呈现了戏剧性的反差——基础版Gemma-4-E4B表现正常经过对齐调整的Gemma-4-E4B-it则在所有测试设置下都表现出大幅的词汇缩减几乎成了测试中表现最差的模型。由于两个版本使用完全相同的分词器这种差异只能归因于训练过程本身这是对齐训练影响词汇多样性的直接证据。DeepSeek-R1-Distill-Qwen-14B也值得单独一提。这个模型是通过蒸馏技术让一个小模型去模仿一个大模型DeepSeek-R1的推理能力以基础版Qwen2.5-14B为起点训练而成。结果显示蒸馏版本相比原始基础版词汇可达率出现了明显下降。研究团队将此命名为蒸馏亏损——为了获得更强的推理能力模型在词汇表达的多样性上付出了代价。**五、换一种过滤方式能救回更多词汇吗**除了最常用的Top-p研究团队也测试了Top-k和Min-p两种过滤方式在相同条件下的表现。Top-k采样的测试结果显示随着k值增大也就是保留更多候选词词汇可达率确实有所提升大部分模型在k值达到15到20时词汇消失的比例明显下降。但即便如此仍有一些模型——尤其是Gemma-4-E4B-it——即使保留20个候选词依然有相当多的目标词汇无法进入候选范围。Min-p采样作为一种较新的方法理论上设计更灵活它根据当前最高概率词汇来动态调整门槛而不是固定截取排名或累积概率。测试结果显示当Min-p值较低也就是门槛更宽松时词汇可达率确实高于Top-p和Top-k但同样随着门槛升高而快速下降。在某些模型上Min-p的表现比Top-p更好但Gemma-4-E4B-it的问题依然突出。更值得关注的是即使把温度调到1.5这是一个很高的温度设置会让AI的概率分布更加扁平理论上应该能给罕见词更多机会仍然有相当多的测试场景无法选中目标词汇。温度提升对改善词汇多样性有一定帮助但效果有限而且高温度往往会让AI说出逻辑混乱的内容——这正好印证了研究团队所说的零和困境要词汇多样性就得牺牲连贯性要连贯性就得忍受词汇单一。**六、词汇频率不等于词汇可达性**研究团队还深入分析了每个目标词汇的具体可达情况发现了一个很有趣的现象词汇在语料库里越常用并不意味着AI越容易选择它。汇总所有模型、所有测试场景、所有温度和过滤设置后研究团队计算了每个目标词汇的平均可达率。结果显示词汇频率和可达率之间只有微弱的正相关相关系数r0.29也就是说仅凭词汇在语料库中有多常见只能解释极少部分的可达率差异。以具体数字为例频率排名较高也就是相对较常用的supposedly大约意为据说平均可达率只有0.076几乎完全无法被选中而频率排名相近或更低的profitable有利可图可达率高达0.537约一半的测试场景都能顺利选中。sylvan林间的、saddened感到悲伤的、precipitated沉淀的使突然发生的这些词的可达率都在0.08到0.09左右处于最难被选中的一档而disadvantage不利条件、bedside床边、strangers陌生人的可达率则都超过了0.47。这说明什么真正决定一个词能否被AI选中的不仅仅是这个词在训练数据中有多常见还与AI的分词方式同一个词在不同AI系统里可能被切分成不同数量的子词、特定语境下的概率分布结构以及模型自身的架构特性都有关系。这使得词汇可达性成为一个比词汇频率更复杂、也更难预测的属性。**七、这意味着什么——语言在悄悄被收窄**研究团队在论文中提出了一个令人深思的长期隐患。当AI生成的文本大量涌入网络——新闻、博客、社交媒体、教育材料、企业文档——这些文字将成为下一代AI模型的训练素材。而这些文字已经被过滤机制系统性地抹掉了大量中频词汇只剩下高频的、安全的、中规中矩的表达。下一代AI学习了这些数据会生成更加单一的文字再被用于训练下下代AI……这个循环如果不加干预最终可能导致人类书面语言中那些精妙的、罕见的、富有表现力的词汇在数字空间中逐渐消亡。研究团队把这个过程比作博尔赫斯小说《小径分叉的花园》中的意象——语言本来应该是无数条可能路径同时并存的迷宫每一个词都是一个分叉口每次写作都是一次在平行可能性中的游历。但现在的过滤机制强行把这个无限花园砍成了一条笔直的单行道几乎所有的分叉都被堵死了只剩下一条被高概率词汇铺就的安全走廊。在研究团队看来解决这个问题需要从两个方向努力。一方面可以探索语义引导解码器——让AI在过滤词汇时能够区分这个词概率低是因为它在这里真的不合适和这个词概率低是因为它表达精准、本就不常见这两种情况后者应该被保留下来。另一方面可以从训练目标入手在AI的学习过程中明确加入对词汇多样性的奖励让AI不只是追求让人满意的普通话答案而是真正珍视语言的丰富性。**八、这个研究工具本身的局限**当然研究团队也坦诚地指出了WCS这个工具的局限性这些局限决定了他们的结论是一个保守的下限估计。WCS采用的是非此即彼的二元判断一个词要么在候选范围内可达要么不在不可达。但实际上词汇被压制可能是一个渐进的过程——某个词可能还在候选范围内但它的概率被严重压低以至于实际上几乎不可能被选中。WCS无法捕捉这种软性消失所以真实的词汇损失很可能比WCS测量出来的更严重。此外这项研究只覆盖了英文且上下文窗口固定为256个词无法评估更长距离的语境依赖对词汇选择的影响。研究对象也仅限于参数少于200亿的开源模型那些更大的闭源模型比如GPT-4o、Claude Opus等因为无法访问完整的概率分布根本无法进行此类测试。不同模型使用不同的分词方式同一个词在不同模型里被切分成的子词数量不同这也使得跨模型比较时存在一定的不公平性——一个词被切分成越多子词它就需要通过越多道过滤关卡自然更难被全部顺利通过。说到底AI的词汇越来越像套话背后并不只是因为AI不够聪明或者没学到那些词——事实上那些精妙的词汇就隐藏在AI的内部只是被工程师们精心设计的安全过滤机制挡在了门外。就像一位博学的厨师明明精通数百种香料却因为餐厅的标准化菜单规定每次只能从十种最畅销的配料里选——结果做出来的菜当然千篇一律。如何在保持食物安全逻辑连贯的同时让厨师有机会大胆使用那些小众但美妙的香料罕见但精准的词汇这是AI语言研究接下来需要认真回答的问题而这支研究团队用WCS这把尺子至少让我们第一次清楚地看到了问题有多严重。有兴趣深入了解的读者可以通过arXiv:2605.27268查阅完整论文研究代码与数据也已在论文提及的开源平台公开。---QAQ1词汇覆盖率分数WCS是怎么测出来的A研究团队先从人类语料库里挑出一批中等频率词汇再找到这些词在真实书籍段落中出现的具体位置然后把每段文字的前面部分输入给AI检查AI在计算下一个词的概率时有没有把那个目标词过滤掉。如果这个词在10个不同语境中一次都没能进入候选范围就算彻底被删除。汇总所有词汇的可达情况就得到最终的WCS分数。Q2Top-p采样为什么会删掉本来合理的词汇ATop-p采样的逻辑是只保留概率加起来刚好达到设定阈值比如90%所需的那批词剩下的全部淘汰。问题是那些精准但使用频率不高的词本来概率就低很容易在累积到设定阈值之前就被排在门槛之外。即使设置了p0.95仍有大量中频词汇来不及被纳入就遭到淘汰。Q3经过对话优化训练后的AI词汇真的会变少吗A根据这项研究的实验数据大多数模型家族在经历对话对齐训练后词汇可达率确实有所下降。比较典型的是Gemma-4经过对齐后词汇完全不可达的比例从22%跳升到57%WCS分数也从0.173骤降至0.059。研究团队认为这是因为对齐训练倾向于奖励安全、常见、让人满意的回答导致模型越来越偏向高频词汇主动回避那些精准但不那么常用的表达。