
Xin Zhiyuan报告编辑:Dinghui这么多鸭子[新的Zhiyuan介绍] Skywork-Reward-V2是新发行的!巧妙地开发了非常高质量的样本,这些样本是数以千计的偏好,从而完善了七个主要评论基准的性能。八个型号涵盖6亿至80亿个参数,小尺寸也可以与大型型号的性能相匹配。 AI,AI无处不在!当我早上醒来时,旋律突然浮现在我的脑海中,所以我停下了几句话,以查明那首歌。到达公司后,我在计算机上打开了AI,并昨天开始准备一份工作报告。我们看到可以输入以下内容是一件好事:“基于以下文档,编写摘要,该摘要应该是专业,合乎逻辑和简洁的。”此后不久,涵盖所有关键点和提交并略有更改的文档将新鲜释放。但是,您是否想知道AI如何理解人们定义的“专业”和“简单”e?扩展全文
为什么这样一个抽象的词很容易得到它?
人工智能能面对我们的困难的原因是,它是我们看不到的英雄 - “奖励模型”。
SO称为奖励模型就像“人类偏好传感器” - 它可以知道您喜欢的输出,对AI进行评分和评论。
众所周知,LLM在实践中使用RLHF,这是“基于人类评论的增强”。
但是实际上,AI所学的不是您的直接审查,而是首先学会了模仿您的标记(RM)标准,然后学会通过研究加强来取悦它。
换句话说,Scrapeai的Ong是“您的大脑裁判”如何工作。
奖励模型在此过程中起着关键作用。
Openai有时证明,只要您拥有学习人类偏好的奖励模型,小的1.3b模型量表也可以在手动评论中击败175B Big Mac GPT-3。
纸张地址:https://arxiv.org/pdf/2203.02155
因此,奖励模型也被称为“环球的基石讲述。”
它的质量直接决定了AI是否可以真正了解人类的偏好。
但是,即使是最先进的开源奖励模型,目前在大多数基本评论中都表现不佳。特别是,它允许模型在许多维度和层面上反映人类的偏好。
毕竟,人们太复杂了,艰难的tothey是单一的。
“如何获得人类偏好的详细和复杂特征”可以说是奖励模型的“最终使命”。
自开始以来,Skywork -Reward系列重点关注奖励模型的主要使命 - 理解和使人类的偏好保持一致。
由于2024年9月发布的V1版本是一种开放资源,因此在拥抱面平台上总共获得了750,000个下载,这充分验证了该系列的实际价值和广泛应用到开放社区来源。
经过持续的优化9个月后,Skywork-Reward-V2今天首次亮相。技术报告:https://arxiv.org/abs/2507.01352
github:https://github.com/skywinkai/skywork-word-v2
拥抱面孔:https://huggingface.co/collections/skywork/skywork-reward-reward-v2-685cc86ce5d9c9e4be500c84
Skywork-Reward-Reward-Reward Series-V2基于不同的基本模型和不同尺寸的8个奖励模型,参数为6亿至80亿。
Skywork-Reward-v2更好地了解了许多尺寸的人并保持一致,包括抵制通用一致性,目的的目的,安全性,风格偏差和最佳扩展扩展功能。
在实际试验之后,结果表明,这一系列模型会在奖励模型审查的所有七个主要基准上刷新SOTA。
Skywork-Reward-V2测试
如果没有其他ADO,让我们看看在非常困难的RewardBench V2测试集中,Skywork-Reward-V2-llama预测的实际结果为3.1-8b。
示例1:Skywork-Reward-V2-Llama-3.1-8b能够判断模型R是否ESPONSE和分步说明是准确的。
示例2:Skywork-Reward-V2-Llama-3.1-8B可以选择最安全,最安全的答案,并在泄漏的隐私方面为响应模型提供较低的分数。
为什么“为死亡战斗”奖励模型?
当前,许多奖励模型是“专门针对学术大师的测试” - 它们在特定的基准活动中表现良好,但它们确实依赖于“旋转记忆”。
准确地了解特定训练集中的偏好,但是一旦改变了场地,您就会失明。一旦更改了问题类型并中断了知识点,您将完全失去判断力。
比较31个开放式奖励的最高奖励模型的能力;标记与数字右侧的相关性 - 在许多模型通过奖励台上改善了其性能之后,它们在其他基准测试“停滞”上的标记可能意味着过度拟合。
为了克服这种“过度拟合”和这种现象,一个GRM(形成奖励moDEL)最近出现了生成奖励模型。
例如,该论文于2025年4月3日首次发表DeepSeek,但这种改进相对有限。
纸张地址:https://arxiv.org/pdf/2504.02495
同时。
论文地址:https://cdn.openai.com/prover-veifier-games-mprove-ture-legability-of-lllm- outputs/logabilits.pdf?utm_source = gatgpt.com
但是,由于人类的偏好是自然复杂的,复杂和稀缺的。
因此,在优化开放,高度主观的活动时,使用在这些有限的范围内训练的奖励模型,更多的机械标签方法或缺乏严格的控制数据偏好数据。
那么,我们如何更好地获得人类偏好的复杂和难以想象的特征,以及我们如何理解人们更好的RM并帮助培训与人更加一致的模型?
巧妙地制定一十万人的偏好数据
多亏了DA的第一次代表Ta -Overtimization模型,团队决定在V2奖励模型的研究和开发中介绍更多样化和更大的实际数据。
这将在考虑数据质量的同时改善数据量表,以便奖励模型可以“了解人类的偏好”。
迄今为止,迄今为止最大的首选混合数据集,由Skywork-synpref-40m组成,由4000万个偏好示例组成。
它的主要变化在于数据筛选管道的“与道 - 机器合作和复发的两个阶段”。
阶段1:手动建立具有高质量偏好数据的小规模
首先,团队在池中建立了一个未指定的初始偏好,并使用LLM来生成与偏好相关的助手功能,例如任务类型,客观性,争议等。
在此基础上,手动注释者根据严格的验证协议仔细审查了一些数据,并借助外部工具和高级大型语言模型,并最终生成一个小规模但高质量的“标准标准”数据,作为下一代数据和模型审查的基础。
然后,Skywork由黄金标准数据中的偏好标签指导,并将LLM结合起来以产生大尺寸的高质量“银标准”数据,从而发现了扩大数据量。
该团队还进行了许多迭代优化:在每种扭曲中,都会训练奖励模型,并根据其在黄金标准数据中的性能确定弱模型链接;
然后,通过使用多模型一致性机制进行类似的样本和自动标记,银标准数据进一步扩展和增强。
人类计算机合作的闭环过程继续重复,有效地提高了奖励模型理解和识别偏好的能力。
阶段2:完全自动扩展大型偏好数据
此后获得最初的高质量模型,SECOND阶段正在转移到大型自动化数据扩展。
这个阶段不再依赖于manu -manu的审核,而是使用训练有素的奖励模型来执行Pare -same的过滤:
1。如果样品的标签与模型的当前模型不符,或者降低了模型置信度,请致电LLM自动标记它;
2。如果样本标签与“金模型”预言一致(即使用Manu -Data训练的模型),并由当前模型或LLM支持,则可以直接进入滤波器。
在这种机制的帮助下,团队成功地 - 成功从原始4000万个样本中选择了数据,在首选数据的规模和质量之间取得了良好的平衡,同时大大减少了Manu -Manu -Manu -Labeling的负担。
尺寸小,性能较大
准备数据,下一步是培训。
与上一代Skywork-Reward相比,新发行的Skywork-Reward-V2系列已经是EN Boredavoid 8奖励模型,基于Qwen3和Llama 3系型号训练,参数量表从6亿至80亿。
关于主要七个奖励模型的评论基准,包括奖励台V1/V2,PPE,RMB,RM BENCH,RM BENCH,JUDGEBENCH等。
Skywork-Reward-V2系列完美地遇到了Sota。
挑战模型尺寸限制
可以将新一代模型与上一代模型的27B水平进行比较,为0.6B。
最小的Skywork-Reward-V2-QWEN3-0.6B型号几乎达到了最强的Skywork-Reward-Gemma-2-27b-v0.2模型的平均水平,这是上一代最强的模型。
进一步,就平均绩效而言,Skywork-Reward-V2-QWEN3-1.7B超过了当前的开放资源奖励模型Inf-Inf-form-llama3.1-70B的SOTA。
最大的Skywork-Reward-v2-llama-3.1-8b已实现了所有主要基准的全面超越,并已成为当前最佳的一般奖励模型。
表演奖励基地V2评论集的Skywork-Reward-V2系列
广泛的人类偏好范围
在偏好审查的常见基准(例如奖励基地)上,Skywork-Reward-V2系列优于许多具有较大参数(例如70B)和最新世代(GRM)奖励模型的模型,这进一步验证了高质量数据的重要性。
在评估目标的准确性(例如法官和PPE的准确性)方面,尽管总体而言,它略低于某些专门用于推理和编程的封闭源模型(例如OpenAI的O系列),但它在全面的知识任务中具有剩余的性能。
此外,Skywork-Reward-V2在许多高级技能分析中取得了领先的结果,显示出了一般和实践能力。包括:
最好的N(BON)工作
偏置阻力测试(RM BENCH)
对教学的复杂理解
真实性的判断(奖励基地V2)
最好的N(BON)工作
偏置阻力测试(RM BENCH)
对教学的复杂理解
真实性的判断(奖励基地V2)
在PPE的准确性下
在RM Bench中,这更加困难,专注于审查模型阻力的风格偏好,Skywork-Reward-V2系列也获得了SOTA
我 - 撤消了sota
除了在绩效评估方面表现良好外,S还具有Foundkywork,在“人机合作,两个变异阶段”的构建过程中,该模型在罚球和过滤后变得更加智能。
这些“选定”数据可以继续进行,并通过许多迭代练习有效地提高奖励模型的整体性能,尤其是在全自动数据扩展的第二阶段。
相反,如果原始数据仅盲目扩展,它不仅无法提高初始性能,而且会引入噪声并具有负面影响。
为了进一步验证数据质量的关键作用,Skywork在先前版本中对1600万个数据的子集进行了实验。结果表明,仅使用1.8%(约290,000个)质量数据来训练8B量表模型,其性能超过了Kasacurrent SOTA奖励模型。
该结果重新表明,SkyWork-SynpRef数据集不仅领导量表,而且对数据质量具有重大好处。
除模型外,还有真正的AGI理想
通过技术和范式变化的发展,奖励模型及其塑造机制正在迅速出现,甚至是LLM培训过程中唯一的主机。
Skywork-Reward-V2的诞生还将促进开放资源模型的发展,并基于人类反馈(RLHF)研究更广泛地促进研究的发展。
在未来,奖励模型 - 或更广泛的奖励系统 - 将是AI基础架构的主要部分。
RM不仅仅是行为的评估者,但是MGAN智能系统的“指南针”,可以通过复杂的现实进行旅行,继续保持人类价值观,并驱动AI向高级和更重要的方向转变。
这种Skywork-Reward-V2模型的背后是Kunlun Wanwei,它完成了整个工业链的布局“计算功率基础架构基础架构模型算法算法应用程序”。在AI应用程序的术语中,他们创建了许多AI代理,AI短片,AI短戏和AI的世界模型。
最近引起很多关注的是,您可以单击“单击”文档,做PPT,编辑表并生成网页和播客。这是工人的完整武器。
同时,他们也没有注意到AGI的发展,AGI的发展是基础模型技术的交换,并探索了AGI的基本逻辑。
不仅在建立AI的基本智能的建立中,
此外,我们还推出了一个交互式创建引擎在太空智能领域中生成的虚拟世界,并且一幅图片可以产生3D世界。
此外,Kunlun Wanwei始终专注于建立开放的社区资源。通过开放的权重,技术报告和代码仓库,全球开发人员和研究人员可以站在巨人的肩膀上,并加速AGI重复。
无论是专注于AI用户的应用程序还是探索AGI技术的基本积累,Kunlun Wanwei的使命都是实现通用人工智能,并使一切都变得更好并表达自己。
参考:
https://arxiv.org/abs/2507.01352回到Sohu,以查看Ang更多