字节跳动近日揭开了其最新思考模型Seed-Thinking-v1.5的神秘面纱,这一模型将在4月17日通过火山引擎的开放接口向用户展示。在科技不断进步的今天,创新始终是推动行业前进的关键力量。Seed-Thinking-v1.5在数学、编程、科学推理等多个专业领域,以及创意写作等通用任务中都有着出色的表现,它的亮相无疑将引起业界和公众的极大兴趣。
首先,在专业领域,Seed-Thinking-v1.5的表现尤为出色。比如,在AIME 2024数学竞赛中,它的得分高达86.7分,与OpenAI的o3-mini-high相当。在编程竞赛中,它在Codeforces的pass@8达到了55.0%,几乎与Gemini 2.5 Pro持平。在科学推理方面,GPQA得分达到了77.3%,几乎与o3-mini-high相当,显示出它在专业领域的强大实力。
在通用任务方面,Seed-Thinking-v1.5同样表现出色。公开数据显示,它在通用任务中的表现比DeepSeek R1高出8%,能够满足多种场景的需求。这不仅展示了它在专业领域的强大能力,也预示着它在各种通用任务中的广泛应用前景。
值得一提的是,Seed-Thinking-v1.5在推理成本上也有显著优势。与DeepSeek R1相比,它的单位推理成本降低了50%,实现了性能与效率的完美结合。这种创新性的技术优化,为行业提供了新的解决方案,也为未来的技术发展开辟了新的路径。
为了满足不同任务的需求,团队对数据处理策略进行了优化。对于数学、代码题等可验证数据,通过百万级数据的三重清洗、人工筛选、模型过滤以及多模型验证等机制,确保了模型的推理过程真实、准确。而对于创意写作等非可验证数据,则基于豆包1.5 Pro训练集,剔除低价值样本,采用两两对比奖励法,提升了生成质量。
为了更好地评估模型性能,团队构建了超难数学数据集BeyondAIME,解决了现有测试区分度不足的问题,为模型性能的准确评估提供了有力支持。
在奖励模型方面,Seed-Thinking-v1.5采用了双轨奖励机制,既考虑了“对错分明”的任务,也兼顾了“见仁见智”的任务。通过开发两代验证器以及引入pairwise对比训练,团队捕捉了人类对创意、情感等的隐性偏好,避免了“众口难调”。
为了实现Seed-Thinking-v1.5的全链路训练,团队采用了“监督精调 + 强化学习”的双阶段优化策略。基于高质量实例的数据集,结合人工与模型协同筛选,构建了长思考链数据集,确保了模型“像人类一样思考”。在强化学习方面,团队通过三重数据引擎、算法创新以及在线数据适配技术,解决了训练不稳定、长链推理断层等问题,动态调整数据分布以保持最佳训练状态。
最后,Seed-Thinking-v1.5的训练框架支持了20B MoE(量化)的底层架构。通过优化HybridFlow编程模型、流式推理系统以及三层并行架构,团队实现了对模型的高效训练和推理。这些创新性的技术手段不仅提升了模型的性能,也为未来的技术研究提供了新的思路和方向。
总的来说,字节跳动的Seed-Thinking-v1.5技术公开,无疑是一次颠覆性的创新。它在专业领域和通用任务中的强大表现、显著的推理成本优势,以及创新的训练策略和框架设计,都为未来的技术发展带来了新的可能性和机遇。我们期待Seed-Thinking-v1.5在更多领域的应用和,为人类社会的发展带来更多的惊喜和改变。
在视频处理的新篇章中,生数科技携手清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军,共同推出了革命性的高可控视频大模型——Vidu Q1。这一创新成果,无疑为我们开启了一个全新的视频处理时
在当今全球化的大背景下,国内跨境电商平台正迎来前所未有的发展机遇。🌐 其中,人工智能(AI)的应用为外贸领域带来了革命性的变革。🤖🔍 人工智能助力精准营销跨境电商平台通过AI技术,能够对海量数据进行深
OpenAI最近推出了一款图像生成工具,迅速引发了网络上的吉卜力风格热潮。然而,在这场欢乐的背后,却隐藏着版权争议和意义的危机。这款名为“Images for ChatGPT”的工具一经推出,就迅速吸
在“十四五”规划的关键时期,广州正以“12218”现代化产业体系为蓝图,全速推进人工智能与城市发展的深度融合。3月26日,广州人工智能公共算力中心组织了20多家媒体,参观了侨银城市管理股份有限公司、广