kaiyun体育app 清华建议交叉熵看法: “纰缪熵”才是大模子领域定律真确的驱动项

开云app下载

kaiyun体育app 清华建议交叉熵看法: “纰缪熵”才是大模子领域定律真确的驱动项

发布日期：2026-03-25 08:28 点击次数：75

本文第一作家闫峻溪为清华大学 FAITH Lab 预科博士生，师从詹靖涛助理老师。FAITH Lab（Foundation of AI Lab at TsingHua）由詹靖涛老师创立，力图于于探索东说念主工智能的基应承趣，旨在揭示智能系统背后的底层规章。实验室隶属于清华大学信息检索探讨组（THUIR），探讨标的涵盖大谈话模子的表面基础与领域化规章。

领域定律（Scaling Law）一直是大谈话模子建造的中枢领导用具。从 Kaplan 等东说念主建议的经典幂律关系，到 Chinchilla 团队对最优老师政策的计较，业界造成了共鸣：跟着模子参数目的增长，交叉熵归天会以可预计的幂律速度捏续下落。

可是，越来越多的探讨者脱手发现令东说念主不安的景况：交叉熵领域定律在超大模子上失效了。归天的下落从幂律预计偏移，这让依赖Scaling Law来领导百亿甚而千亿参数模子老师的团队措手不足。

来自清华大学的探讨团队在一篇发表在ICLR 2026上的论文中，对这一问题给出了一个颇具瞻念察力的回复：交叉熵归天本人并不真确罢黜领域定律；真确scale的，是它里面一个掩盖的因素。

探讨团队建议了一种全新的交叉熵看法要津，将其拆分为三个部分：纰缪熵（Error-Entropy）、自对皆（Self-Alignment）和置信度（Confidence）。通过在多个数据集上对 32 个模子进行系统实验，他们发现唯独纰缪熵严格罢黜幂律缩放，其余两项基本不随模子增大而变化。这一发现不仅为交叉熵领域定律失效提供了新的表示，也为大模子的老师和表面探讨提供了一个更可靠的度量基准。

论文地址：https://arxiv.org/abs/2510.04067

开源代码：https://github.com/yanjx2021/RethinkCE

拆解交叉熵：从排行启程的新视角

为什么交叉熵领域定律会在大模子上失效？论文的中枢不雅点是：交叉熵本人是一个"搀杂度量"，其中唯唯独部分真确随模子领域改善，另外的部分则造成了侵略。要看清这少量，需要把交叉熵断绝。

探讨者为此建议了一个新方针：基于排行的纰缪（Rank-based Error， RBE）。与交叉熵见谅正确 token 的概率得分不同，RBE 胜利推测正确 token 在模子输出中的排行位置。举例，要是有 4 个 token 的得分高于正确谜底，那么 RBE 就便是 4。

选拔排行而非概率，是因为概率值很容易被推理阶段的后惩办操作（如温度缩放、top-k 采样）所改造，幸运8但 token 之间的相对排序不会被影响。因此，排行是一个更为持重的模子智商方针。

纰缪熵（Error-Entropy）：推测 RBE 踱步的香农熵。优化模子会让正确 token 尽可能排在前边，即模子学会「分别对错」。当模子弥漫不知说念哪个 token 正确时，RBE 踱步接近均匀踱步，此时纰缪熵最大。

自对皆（Self-Alignment）：描摹模子概率得分与 RBE 踱步之间的对皆进程。优化这一项，条款模子给排行越高的 token 分派越高的概率，使概率踱步与排行踱步保捏一致。

置信度（Confidence）：反应模子输出概率得分的举座大小，优化这一项意味着模子举座输出的分数更自信。

老师动态考据

论文通过不雅察竣工老师历程来考据看法的合感性。实验表示，三个因素在老师中呈现出明晰的优化设施：模子在老师早期领先连合镌汰纰缪熵，在其下落一段时分之后才脱手权贵优化自对皆和置信度运行。

进一步长远每个因素的细节：在老师初期，RBE 踱步接近均匀，模子对哪个 token 正确的确一无所知，开云体育排行近乎赶快。跟着老师鼓舞，RBE 踱步缓缓向头部连合，正确 token 被越来越多地排到前哨，纰缪熵因此捏续下落。

置信度方面，排行低于正确 token 的候选词得分在老师中被系统性压低，正确与无理 token 之间的分数差距逼迫拉大。模子在学会排序之后，进一步学会了"拉开差距"。

值得瞩主见是，自对皆和置信度都与概率数值密致关联，而纰缪熵胜利描摹排序准确度（不受采样政策影响），是三者中最能诚挚反应模子的确性能的因素。

唯独纰缪熵在缩放

探讨者进一步在 Wikipedia、C4、The Pile 的 GitHub子集三个数据集上，使用 32 个预老师模子（领域从数百万到数百亿参数），系统历练了交叉熵偏激三个看法因素随模子领域的变化趋势。

恶果十分明晰：在对数-对数坐标下，纰缪熵呈现接近线性的下落趋势，与模子参数目之间存在持重的幂律关系。

与之相背，自对皆项在模子增大时莫得改善，反而微细飞腾；置信度项则波动较大，短缺一致的变化规章。

探讨者由此建议了「纰缪熵领域定律」（Error-Entropy Scaling Law）：在交叉熵的三个因素中，唯独纰缪熵真确罢黜幂律缩放。

定量拟合的恶果进一步考据了这一论断。论文使用圭臬幂律模子对各因素进行拟合后发现，纰缪熵的拟合优度在所罕有据集上均权贵高于交叉熵本人。这证据交叉熵之是以「看起来像」在缩放，内容上是因为纰缪熵在驱动举座趋势，而自对皆和置信度带来的噪声收缩了拟合精度。

破解大模子领域定律失效之谜

探讨者哄骗这一发现回复了起首建议的重要问题：交叉熵领域定律为什么在大模子上失效？

谜底藏在三个因素的比例结构中。在小模子中，纰缪熵占据了交叉熵总量的近 90%。由于纰缪熵罢黜幂律，举座交叉熵当然也阐扬出追究的幂律趋势。

可是跟着模子领域增大，纰缪熵占总归天的比例缓缓下落，而不罢黜缩放规章的自对皆和置信度项占比相应飞腾。关于大模子来说，交叉熵中有越来越大的比例来自不缩放的因素。

这些不缩放的因素像是访佛在幂律趋势上的“噪声地板”，使得交叉熵偏离了纯正的幂律预计。模子越大，偏差越权贵——这恰是业界不雅察到的"领域定律失效"景况。

纰缪熵的启发

除了表示领域定律的失效机制，这一探讨也为实际和表面带来了新的可能。

在老师层面，既然纰缪熵才是真确随领域改善的因素，那么胜利以纰缪熵看成老师信号或评估方针，大概比交叉熵能更准确地反应模子智商的扶持，从而领导更高效的老师政策和资源分派。

在表面层面，这一看法揭示了一个更深层的原则：模子领域的增长内容上扶持的是排序智商，而非概率校准智商。这大概能为意会大模子的智商领域和优化标的提供新的教唆。

更多细节请参阅原论文kaiyun体育app。

九游体育(NineGameSports)官网

下一篇：kaiyun体育app 赛锐特 SRT-F1098 全自动苯结晶点测定仪 GB/T3710-2009 专注行业多年

上一篇：kaiyun体育app 论白酒的临界点和爆破点——从牛顿想维到量子想维的“豪情酿造”