康奈尔大学等发现:用更少的题目,反而能训练出更好的AI提示词
这项由康奈尔大学、微软、哈佛大学与Databricks AI Research联合开展的研究以预印本形式于2026年4月发表论文编号为arXiv:2604.08801有兴趣深入了解的读者可通过该编号查询完整论文。研究的核心发现颇为反直觉在训练AI写出更好的指令时用更少的练习题效果反而比用更多题目要好得多。要理解这项研究在做什么可以先从一个场景说起。假设你是一位厨师手下有一位徒弟你想教会他如何调配一种万能调味料让每道菜都变得好吃。每道菜就是一道用户题目调味料的配方就是系统提示词而徒弟学习调配配方的过程就是提示词优化。听起来很合理对吧理论上给徒弟看的菜越多他调出来的配方应该越好。然而研究团队发现现实并非如此。当徒弟同时面对大量风格迥异、口味千差万别的菜肴时调出来的万能配方反而越来越平庸——不咸不淡什么特色都没有。原因在于每道菜对调味料的偏好不一样有的菜喜欢辣有的菜需要清淡平均下来配方反而失去了辨别好与差的能力。这个研究用严谨的数学语言描述了这一现象并提出了一个名为p1的方法来解决它。p1的核心思路就是不用所有菜来训练只挑那些能最清楚区分好配方和坏配方的菜来练习。这项研究对AI领域具有相当重要的实际意义因为系统提示词如今已成为控制AI行为的关键工具而如何高效地优化这些提示词直接影响着AI的实际表现。一、什么是系统提示词它为什么这么重要要彻底理解这项研究首先得搞清楚什么叫系统提示词。当你打开一个AI助手比如某个客服机器人或数学辅导工具在你提问之前系统其实已经偷偷地给AI传达了一段幕后指令告诉它要表现得像个什么样的角色、用什么风格回答、遇到什么情况该怎么处理。这段幕后指令就是系统提示词。系统提示词的神奇之处在于它能在不改变AI内部参数的前提下大幅改变AI的行为。好比同一位演员给他不同的剧本他就能演出截然不同的角色。如果系统提示词写得好AI回答问题的准确率可以大幅提升写得差AI可能会答非所问甚至犯错连连。正因如此提示词优化这一研究方向近年来受到了广泛关注。研究人员希望让AI自动去寻找最好的系统提示词而不是依靠人工反复试验。这个过程有点像自动化地调整调味料配方用的是强化学习的方法——让一个负责出提示词的AI不断尝试不同的写法另一个做题的AI来检验哪种提示词效果更好然后根据结果反复改进。然而研究团队发现这套方法在某些任务上效果显著在另一些任务上却几乎没有任何改善。就像同一套教学方法教语文课很管用教数学竞赛却毫无进展。研究的起点正是这个令人困惑的现象。二、发现问题为什么有些任务根本学不动研究团队选取了两类典型任务进行对比实验。第一类是指令遵循任务也就是让AI按照严格的格式要求来回答问题比如用不超过三个词回答或回答必须以某个词开头。第二类是竞赛数学任务也就是让AI解答高难度的数学竞赛题例如AIME美国数学邀请赛的题目。实验结果非常鲜明。在指令遵循任务上提示词优化非常成功随着训练的进行AI的表现持续稳步提升。而在数学竞赛任务上提示词优化几乎完全失败——无论训练多少步AI的成绩几乎纹丝不动就好像在原地踏步。为了理解这种差异研究团队引入了一个关键分析工具方差分解。这个概念听起来复杂但其实就像区分骰子本身的不确定性和不同骰子之间的差异。具体来说当你用不同的系统提示词让AI解题每次得到的成绩会有波动。这种波动来自两个来源一是AI在同一个提示词下每次回答的随机性就像骰子每次摇出的数字不同二是不同提示词之间真正的质量差距就像一个六面骰和一个十面骰的本质区别。在指令遵循任务中不同提示词之间的真实质量差距很大——好的提示词和差的提示词导致AI答对的概率相差悬殊。这就像用不同的调音工具弹同一首曲子好乐器和坏乐器的差距一听便知。而在数学竞赛任务中提示词之间的差距极小但AI每次回答的随机性却很大——同一道题用同一个提示词有时AI能解出来有时又解不出来。这时候区分好提示词和坏提示词就变得极为困难就像在嘈杂的工厂里试图分辨两种音叉的音高——背景噪音太大你根本听不出来哪个更准。研究团队还做了一组更精细的实验他们把AIME 2024的30道题拆开每次只用一道题来训练观察不同题目的学习效果。结果发现有些单独的题目确实能产生足够大的提示词差异用这些题单独训练时AI的提示词质量真的得到了提升。这个发现引出了下一个关键谜题。三、反常识的发现更多练习题反而学得更差既然单独用某几道题训练是有效的那为什么把所有30道题放在一起反而不行研究团队深入分析后揭示了一个颇为反直觉的机制。随着训练数据中题目数量增加不同提示词之间的真实差距会系统性地缩小。原因在于不同题目对好的系统提示词各有偏好——对题目A有效的提示词未必对题目B也有效甚至可能反而让B的表现变差。当这些题目混在一起取平均时各种偏好相互抵消所有提示词的平均表现开始趋于相同原本的优劣差距被稀释掉了。这就好比你在调配一种万能调味料但锅里同时有一道需要辣的川菜、一道需要甜的粤菜、一道需要酸的湘菜和一道需要清淡的素菜。你调出来的配方必然是四不像哪道菜都不能特别突出。而如果你单独为川菜调配辣味就能被充分放大。研究团队用数学公式精确地描述了这一现象。当题目数量增加时不同提示词的平均奖励差距会以一定的速率下降而背景随机噪音的衰减速度却跟不上导致信噪比即有效信号相对于噪音的比例持续恶化。如果想维持原来的信噪比就必须以超过题目数量增长速度的比例来增加每题的采样次数这在计算上是极其昂贵的。相比之下指令遵循任务的表现则大相径庭。增加题目数量时信噪比几乎保持不变说明这类任务中好的提示词对大多数题目都是一致地有帮助的——调味料对这些菜的偏好是高度一致的无论加多少道菜好配方始终鹤立鸡群。研究团队将这类任务称为同质性任务而将像数学竞赛这样每道题偏好不同的任务称为异质性任务。四、p1方法只挑最能说明问题的题目来练习正是基于上述分析研究团队提出了p1方法。p1的名字来源于其核心思想——用极少量、但极具代表性的用户题目来进行提示词优化。p1的工作流程分为两个阶段可以用选材和烹饪来类比。在选材阶段研究团队首先从提示词生成模型中随机采样一批候选系统提示词然后把每个候选提示词分别应用于数据集中的每一道题收集大量答题结果。这一步的目的是估算每道题在不同提示词下的答对率以及这些答对率之间的差距。关键在于他们要找出那些在不同提示词之间答对率差异最大的题目。换句话说就是找出那些最能区分好提示词和坏提示词的题目——这些题目就是选材时的高区分度食材。在选材时研究团队特别注意一个细节他们不是直接计算不同提示词答对率的方差而是要减去因随机性带来的那部分假方差只保留真正反映提示词质量差异的那部分。这就像在评比厨师手艺时要把厨房温度波动造成的菜品差异扣除掉只看厨师本身技术水平带来的差异。完成选材之后就进入烹饪阶段只用选出来的少数题目来训练提示词生成模型训练方式和常规的强化学习方法完全一样但因为题目少了每道题可以分配更多次的采样从而让每一步训练都有更清晰的学习信号。p1方法的默认设置非常激进Ktop保留的题目数量默认为2也就是说从30道AIME题中只保留2道来训练。这个数字在直觉上很难接受但实验结果证明它是有效的。五、实验结果两道题打败了三十道题研究团队在多个基准测试上对p1方法进行了系统评估对比的基线方法包括全数据集强化学习RL和一种叫做GEPA的进化式提示词优化方法。在数学竞赛任务上结果非常清晰。用全部30道AIME 2024题目训练的强化学习方法最终在AIME 2025测试集上的准确率约为47%几乎与未经任何训练的基础模型相当说明优化几乎没有产生效果。GEPA方法的表现同样如此不管用什么数据分配方式准确率都在47%上下徘徊。而p1方法仅仅用AIME 2024中的第1题和第23题两道被识别为高区分度的题目来训练在AIME 2025上的准确率达到了54%比基础模型提升了约7个百分点是所有方法中最高的。不仅如此这一提升还跨越了多个测试集在AIME 2026上从54%上升到62%在HMMT哈佛-MIT数学锦标赛2025和2026上也分别取得了明显的进步。更令人印象深刻的是研究团队还把用Qwen3-4B模型优化出来的系统提示词直接拿去用在体量更大的Qwen3-30B模型上发现同样能带来性能提升。这意味着p1找到的提示词并不是针对特定模型的作弊技巧而是能够泛化的、真正有效的思维引导策略。相比之下GEPA方法生成的系统提示词内容非常具体充满了针对特定题目类型的详细数学知识点比如专门针对某类几何问题的解法步骤甚至包含了具体的计算结果。这种提示词明显是对训练数据的记忆而非理解自然无法推广到新题目上。而p1生成的提示词内容则更为普适主要是关于如何组织思路、如何展开推理过程的一般性引导更像是教会AI一种思维方式而非背诵具体答案。在指令遵循任务上情况则完全相反。全数据集强化学习方法和GEPA方法都取得了明显的提升将IFBench测试集的准确率从35%提升到了约39%。而p1方法在这一任务上表现欠佳当题目减少到极少时模型容易过拟合到那几道题上在更广泛的测试集上的表现反而下降。这一结果恰好印证了研究团队的理论分析对于同质性任务用更多数据训练是有益的因为学习信号本来就强且一致。六、为什么p1找到的提示词能推广而GEPA找到的不能这个问题的答案其实藏在两种方法的优化目标差异里。GEPA是一种进化式方法它通过反复修改和筛选提示词来改进这个过程天然倾向于把训练集的特征编码进提示词里——就像考前背题背的内容越具体考场上遇到原题就越有把握但遇到新题就越束手无策。而p1通过强化学习来优化提示词生成策略由于训练信号更清晰、更纯粹因为排除了会稀释信号的题目模型能更顺畅地向真正好的提示词方向移动而不是被噪音拉着原地转圈。这就好比在寂静的环境里练习辨音比在嘈杂环境里更容易找准音调。从生成的提示词内容来看p1优化出的最佳提示词AIME 2025准确率54%主要要求AI以流水账式的原始思维展开推理过程——不用格式化的段落不用数学符号就像人在脑子里自言自语一样把每个想法、每个试错、每个疑问都写下来最后才给出答案。这种风格让AI能充分探索解题路径而不是过早收敛到某个可能错误的方向上。另一个p1找到的有效提示词准确率50%则反其道而行之要求AI表现得像一个混乱、缓慢、犯错连连的人类思维过程充满错误猜测和死胡同。尽管这个风格听起来匪夷所思但它同样让AI在推理时更加放松减少了过于自信的快速跳步。这两种风格表面上看起来截然相反但背后的逻辑是一致的它们都在引导AI进行更充分、更深入的思维展开而不是走捷径。七、数学背后的逻辑信号与噪声的博弈对于希望深入理解这项研究的读者研究团队在论文中提供了完整的数学推导这里用直觉性的语言加以解释。当我们用N个候选提示词去评估每个提示词用K道题、每题采样M次来估算其表现时观察到的总体波动方差可以被分解为两部分来自随机采样的噪音方差和来自提示词本身质量差异的信号方差。噪音方差与1/KM成反比——即题目数量和采样次数的乘积越大噪音越小。信号方差则是各提示词真实表现之间的差距与K和M无关但在异质性数据集上随着K增大信号本身会系统性地缩小因为偏好相互抵消。这就产生了一个根本性的矛盾在异质性数据集上增加题目数量K虽然能降低噪音但同时也在压缩信号导致信噪比并不能改善甚至可能恶化。而p1通过主动筛选高信号题目在不牺牲信号的前提下保持了足够低的噪音从根本上破解了这个困境。研究团队还通过实验验证了这一理论他们单独对AIME 2024的10道不同题目进行训练测量每道题的提示词差异度信号方差结果发现训练奖励的改善程度与这个差异度之间呈现清晰的线性正相关关系——差异度越高的题目训练越有效。这一结果完美地支持了理论预测。八、这项研究的局限与未来方向研究团队在论文中也诚实地指出了几个值得关注的局限性。首先整个理论分析建立在奖励是0或1的二元值这一假设上而现实中的很多任务会给出连续的评分这类情况下的方差分解和最优题目选择策略还需要进一步研究。其次虽然实验结果表明用少数高区分度题目训练出的提示词能够泛化到更广泛的测试集但研究团队坦言目前还没有完整的理论来解释什么条件下这种泛化能够成立——这是一个留给未来研究的重要开放问题。此外p1方法在选题阶段需要对所有候选题目进行大量采样这本身也是有计算成本的。当数据集非常大时如何高效地找到高区分度题目可能需要更巧妙的近似方法。---说到底这项研究传达了一个非常朴素的道理学习的效率不在于做了多少题而在于做了什么题。在AI提示词优化这个具体问题上盲目堆砌训练数据不仅无益甚至有害真正有价值的是找到那些能最清楚地揭示质量差异的例子专注地从它们身上学习。这个道理或许对人类学习同样适用——与其漫无目的地刷题不如精准地找到最能检验薄弱点的题目来练习。对于使用大型语言模型的从业者而言这项研究提供了一个实用的思路当提示词优化效果不佳时问题很可能不在于算法本身而在于训练数据的选择。通过评估哪些样本对不同提示词最敏感可以用极少的计算资源获得显著的优化效果。有兴趣复现或扩展这一方法的读者可以通过arXiv:2604.08801获取完整论文和技术细节。---QAQ1提示词优化为什么在数学竞赛题上效果差在指令遵循任务上效果好A核心原因是两类任务的异质性不同。在数学竞赛中不同题目对系统提示词的偏好差异很大有的题喜欢A提示词有的题喜欢B提示词混在一起平均后各提示词的表现趋于相同优化算法就无从辨别好坏学习信号被稀释掉了。而指令遵循任务中好的提示词对大多数题都一致地有帮助信号清晰优化自然有效。Q2p1方法是如何挑选高区分度题目的Ap1首先随机采样一批候选系统提示词然后让每个提示词在所有候选题目上大量作答估算出每道题在不同提示词下的答对率差异。关键是要减去纯粹由随机性造成的假差异只保留真正反映提示词质量差距的部分。差异最大的题目就是最能区分好坏提示词的题目p1会选出这些题目用于正式训练。Q3p1训练出的系统提示词为什么能迁移到没见过的题目和更大的模型A因为p1找到的是能激发模型充分展开推理过程的通用引导策略而不是针对特定题型的具体知识。实验表明p1生成的提示词主要引导模型以更自然、更充分的方式思考这种思维方式对新题目和体量更大的模型同样有效而不像GEPA那样把训练集的具体内容记忆进提示词里。