你的位置:乱伦图片 > 打屁股 调教 >

@91porn_soul 字节新推理模子逆袭DeepSeek,200B参数礼服671B,豆包史诗级加强?

发布日期:2025-04-12 14:09    点击次数:146

@91porn_soul 字节新推理模子逆袭DeepSeek,200B参数礼服671B,豆包史诗级加强?

字节最新深度念念考模子@91porn_soul,在数学、代码等多项推理任务中跳动 DeepSeek-R1 了?况兼参数范围更小。

相似是 MoE 架构,字节新模子 Seed-Thinking-v1.5 有 200B 总参数和 20B 激活参数。

对比 DeepSeek-R1 的 671B 总参数和 37B 激活参数,不错算得上轻量级了。

当今,完好的技巧答复已公诞生布,其中揭示了诸多诀窍。

字节 Seed 团队聚焦大范围强化学习,并从三个角度擢升了推理弘扬:数据、RL 算法和 RL 基础步伐。

可考据与不行考据问题

从数据初始提及,字节团队把 RL 教导数据分为两个部分,具有明确谜底的可考据问题和莫得明确谜底的不行考据问题,取舍不同的奖励建模时势。

这其中,模子的推明智力主要来自可考据问题,并不错实施到不行考据问题。

可考据问题包括问题与谜底配对的 STEM 问题、附带单位测试的代码问题,以及允洽自动考据的逻辑推理问题(24 点、迷宫、数独等)。

不行考据问题主要包括笔据东说念主类偏好评估的非推理任务,如创意写稿、翻译、学问 QA、变装束演等。

关于不行考据问题,字节团队丢弃了样分内数方差低、难度低的数据。此类数据可能过于毛糙或已在数据聚会大批暗示。离线试验标明,过度优化此类样本会导致模子的探索空间过早崩溃并裁汰性能。

此外,团队还打造了全新数学推理评测集 BeyondAIME。

现时的推理模子等闲使用 AIME 看成评估数学推明智力的首选基准,但该基准每年只发布 30 个问题,有限的范围可能会导致高方差的评估限制,难以灵验辞别首先进的推理模子。

字节与数学群众合营,笔据既定的比赛体式诞生原创问题。通过结构修改和情状再行成就来系统地调整现存的比赛问题,确保不会发生告成重叠。此外还确保谜底不是容易猜的数值(举例问题论述中明确提到的数字),以减少模子在莫得合乎推理的情况下猜出正确谜底的契机。

RL 算法

强化学习诚然庞大,但教导起来也很不相识,经常崩溃。

字节在技巧答复中提到"巧合,两次运行之间的分数互异可能高达 10 分"。

针对这个问题,团队暴虐了 VAPO 和 DAPO 两个 RL 框架,分别从基于价值和无价值的 RL 范式起程来相识教导。

VAPO 和 DAPO 两篇论文都已单独发布。

此外,在 Seed-Thining-v1.5 中,还模仿了之前学术界使命中的好多要道技巧:

价值预教导 ( Value-Pretraining ) ,保证价值汇注和策略汇注一致

解耦的 GAE ( Decoupled-GAE ) ,让两个汇注更独处高效

长度自妥贴 GAE ( Length-adaptive GAE ) ,更克己理不同长度序列

解耦 PPO 耗损 ( Clip-Higher ) ,为低概率 token 的增长创造,了更多空间饱读吹模子探索新决议

丝袜美腿快播

Token 级耗损 ( Token-level Loss ) ,均衡每个 token 对教导历程的影响。

正例增强 ( Postive Example LM Loss ) ,提高 RL 教导历程中正样本的哄骗效果,从而提高模子合座性能

RL 基础步伐

在 Long-CoT 生成历程中,字节团队不雅察到各式领导词之间的反映长度互异较大,在生成历程中出现大批 GPU 高慢时辰。

为了缓解长尾反映生成的滞后问题,暴虐了 SRS(流式 Rollout 系统),一种资源感知型疗养框架,可计策性地部署独处的流式筹谋单位,将系统敛迹从内存绑定出动为筹谋绑定。

为了灵验地大范围教导,团队还瞎想了一个搀和散布式教导框架,集成高档并行策略、动态使命负载均衡和内存优化:

并行机制:将 TP (张量并行)/EP (群众并行)/CP (凹凸文并行)与全分片数据并行 (FSDP) 组合在一都,具体来说,将 TP/CP 应用于注想法层,将 EP 应用于 MoE 层。

序列长度均衡:DP 品级之间的灵验序列长度可能不屈衡,导致筹谋使命量不屈衡和教导效果低下。哄骗 KARP 算法在一个 mini-batch 内再行摆设输入序列,使它们在 micro-batch 之间保捏均衡。

内存优化:取舍逐层再行筹谋、激活卸载和优化器卸载来复旧更大 micro-batch 的教导,以遮掩 FSDP 引起的通讯支拨。

自动并行:为了终了最好系统性能,诞生了 AutoTuner 自动调整系统,按照基于成就文献的处置决议 对内存使用情况进行建模。然后谋划各式成就的性能和内存使用情况以得到最优成就。

查抄点:使用 ByteCheckpoint 复旧从不同的散布式成就中以最小的支拨归附查抄点,弹性教导以提高集群效果。

最终,在多项自动评估中,Seed-Thinking-v1.5 在 AIME 2024 基准测试中取得 86.7,与 OpenAI 的 o3-mini-high 模子的性能零碎。但在最近的 AIME 2025 和 BeyondAIME 中,Seed-Thinking-v1.5 仍然逾期于 o3 级别的性能。

关于 GPQA 任务,Seed-Thinking-v1.5 达到 77.3% 的准确率,接近 o3-mini-high 的性能。

在 Codeforces 等代码生成场景中,Seed-Thinking-v1.5 的性能与 Gemini 2.5 Pro 的性能零碎,但仍逾期于 o3-mini-high。

Seed-Thinking-v1.5 在 SimpleQA 上的弘扬不太理想。但团队以为,该基准测试预教导模子范围的关连性更强,而不是锻真金不怕火推明智力。

许多东说念主看完这篇技巧答复,都很感酷好,不外找了一圈也没找到模子在哪发布。

从技巧答复的口径来看,该模子与当今豆包中的 Doubao-1.5 Pro 并不是一趟事。

但从作家名单看,这是由字节 Seed 团队厚爱东说念主吴永辉带队,主要成员都参与的大状貌。

那么是否改日会部署到豆包 APP,不错期待一波了。

论文地址:

https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

一键三连「点赞」「转发」「预防心」

接待在探究区留住你的目的!

—  完  —

不到一周!中国 AIGC 产业峰会不雅众正在火热报名中  � � ‍♀️

全部嘉宾已就位  � �   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 范围创变者将都聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~

4 月 16 日周三,就在北京,一都来深度求索 AI 怎样用  � �  

� � 一键星标 � �

科技前沿进展逐日见@91porn_soul