开云app下载

kaiyun体育app 清华建议交叉熵看法: “纰缪熵”才是大模子领域定律真确的驱动项

发布日期:2026-03-25 08:28    点击次数:75

  

kaiyun体育app 清华建议交叉熵看法: “纰缪熵”才是大模子领域定律真确的驱动项

本文第一作家闫峻溪为清华大学 FAITH Lab 预科博士生,师从詹靖涛助理老师。FAITH Lab(Foundation of AI Lab at TsingHua)由詹靖涛老师创立,力图于于探索东说念主工智能的基应承趣,旨在揭示智能系统背后的底层规章。实验室隶属于清华大学信息检索探讨组(THUIR),探讨标的涵盖大谈话模子的表面基础与领域化规章。

领域定律(Scaling Law)一直是大谈话模子建造的中枢领导用具。从 Kaplan 等东说念主建议的经典幂律关系,到 Chinchilla 团队对最优老师政策的计较,业界造成了共鸣:跟着模子参数目的增长,交叉熵归天会以可预计的幂律速度捏续下落。

可是,越来越多的探讨者脱手发现令东说念主不安的景况:交叉熵领域定律在超大模子上失效了。归天的下落从幂律预计偏移,这让依赖Scaling Law来领导百亿甚而千亿参数模子老师的团队措手不足。

来自清华大学的探讨团队在一篇发表在ICLR 2026上的论文中,对这一问题给出了一个颇具瞻念察力的回复:交叉熵归天本人并不真确罢黜领域定律;真确scale的,是它里面一个掩盖的因素。

探讨团队建议了一种全新的交叉熵看法要津,将其拆分为三个部分:纰缪熵(Error-Entropy)、自对皆(Self-Alignment)和置信度(Confidence)。通过在多个数据集上对 32 个模子进行系统实验,他们发现唯独纰缪熵严格罢黜幂律缩放,其余两项基本不随模子增大而变化。这一发现不仅为交叉熵领域定律失效提供了新的表示,也为大模子的老师和表面探讨提供了一个更可靠的度量基准。

论文地址:https://arxiv.org/abs/2510.04067

开源代码:https://github.com/yanjx2021/RethinkCE

拆解交叉熵:从排行启程的新视角

为什么交叉熵领域定律会在大模子上失效?论文的中枢不雅点是:交叉熵本人是一个"搀杂度量",其中唯唯独部分真确随模子领域改善,另外的部分则造成了侵略。要看清这少量,需要把交叉熵断绝。

探讨者为此建议了一个新方针:基于排行的纰缪(Rank-based Error, RBE)。与交叉熵见谅正确 token 的概率得分不同,RBE 胜利推测正确 token 在模子输出中的排行位置。举例,要是有 4 个 token 的得分高于正确谜底,那么 RBE 就便是 4。

选拔排行而非概率,是因为概率值很容易被推理阶段的后惩办操作(如温度缩放、top-k 采样)所改造,幸运8但 token 之间的相对排序不会被影响。因此,排行是一个更为持重的模子智商方针。

纰缪熵(Error-Entropy):推测 RBE 踱步的香农熵。优化模子会让正确 token 尽可能排在前边,即模子学会「分别对错」。当模子弥漫不知说念哪个 token 正确时,RBE 踱步接近均匀踱步,此时纰缪熵最大。

自对皆(Self-Alignment):描摹模子概率得分与 RBE 踱步之间的对皆进程。优化这一项,条款模子给排行越高的 token 分派越高的概率,使概率踱步与排行踱步保捏一致。

置信度(Confidence):反应模子输出概率得分的举座大小,优化这一项意味着模子举座输出的分数更自信。

老师动态考据

论文通过不雅察竣工老师历程来考据看法的合感性。实验表示,三个因素在老师中呈现出明晰的优化设施:模子在老师早期领先连合镌汰纰缪熵,在其下落一段时分之后才脱手权贵优化自对皆和置信度运行。

进一步长远每个因素的细节:在老师初期,RBE 踱步接近均匀,模子对哪个 token 正确的确一无所知,开云体育排行近乎赶快。跟着老师鼓舞,RBE 踱步缓缓向头部连合,正确 token 被越来越多地排到前哨,纰缪熵因此捏续下落。

置信度方面,排行低于正确 token 的候选词得分在老师中被系统性压低,正确与无理 token 之间的分数差距逼迫拉大。模子在学会排序之后,进一步学会了"拉开差距"。

值得瞩主见是,自对皆和置信度都与概率数值密致关联,而纰缪熵胜利描摹排序准确度(不受采样政策影响),是三者中最能诚挚反应模子的确性能的因素。

唯独纰缪熵在缩放

探讨者进一步在 Wikipedia、C4、The Pile 的 GitHub子集三个数据集上,使用 32 个预老师模子(领域从数百万到数百亿参数),系统历练了交叉熵偏激三个看法因素随模子领域的变化趋势。

恶果十分明晰:在对数-对数坐标下,纰缪熵呈现接近线性的下落趋势,与模子参数目之间存在持重的幂律关系。

与之相背,自对皆项在模子增大时莫得改善,反而微细飞腾;置信度项则波动较大,短缺一致的变化规章。

探讨者由此建议了「纰缪熵领域定律」(Error-Entropy Scaling Law):在交叉熵的三个因素中,唯独纰缪熵真确罢黜幂律缩放。

定量拟合的恶果进一步考据了这一论断。论文使用圭臬幂律模子对各因素进行拟合后发现,纰缪熵的拟合优度在所罕有据集上均权贵高于交叉熵本人。这证据交叉熵之是以「看起来像」在缩放,内容上是因为纰缪熵在驱动举座趋势,而自对皆和置信度带来的噪声收缩了拟合精度。

破解大模子领域定律失效之谜

探讨者哄骗这一发现回复了起首建议的重要问题:交叉熵领域定律为什么在大模子上失效?

谜底藏在三个因素的比例结构中。在小模子中,纰缪熵占据了交叉熵总量的近 90%。由于纰缪熵罢黜幂律,举座交叉熵当然也阐扬出追究的幂律趋势。

可是跟着模子领域增大,纰缪熵占总归天的比例缓缓下落,而不罢黜缩放规章的自对皆和置信度项占比相应飞腾。关于大模子来说,交叉熵中有越来越大的比例来自不缩放的因素。

这些不缩放的因素像是访佛在幂律趋势上的“噪声地板”,使得交叉熵偏离了纯正的幂律预计。模子越大,偏差越权贵——这恰是业界不雅察到的"领域定律失效"景况。

纰缪熵的启发

除了表示领域定律的失效机制,这一探讨也为实际和表面带来了新的可能。

在老师层面,既然纰缪熵才是真确随领域改善的因素,那么胜利以纰缪熵看成老师信号或评估方针,大概比交叉熵能更准确地反应模子智商的扶持,从而领导更高效的老师政策和资源分派。

在表面层面,这一看法揭示了一个更深层的原则:模子领域的增长内容上扶持的是排序智商,而非概率校准智商。这大概能为意会大模子的智商领域和优化标的提供新的教唆。

更多细节请参阅原论文kaiyun体育app。

九游体育(NineGameSports)官网

Copyright © 1998-2026 开云体育(kaiyun)官网™版权所有

nbzdl.com 备案号 备案号: 浙ICP备09032360号

技术支持:®开云体育  RSS地图 HTML地图