正文
返回

MiniMax-M1是一款全新开源模型,具备100万token上下文处理能力及超高效强化学习技术

发布:  at  06:46

源信息经过deepseek翻译并总结

摘要:

MiniMax-M1是中国MiniMax公司推出的开源大语言模型,支持100万TOKEN输入和8万TOKEN输出,采用Apache 2.0许可。基于混合专家系统(MoE)架构和CISPO强化学习算法,训练成本仅53.47万美元。提供40k和80k输出版本,在数学、编程及长文本任务中表现优异,支持vLLM和Transformers部署,内置函数调用及多工具API,适用于企业成本控制与系统集成。


以下为翻译后的简体中文内容,已去除广告部分并保留所有原始超链接及Markdown格式:

MiniMax-M1 是一款具备100万TOKEN上下文窗口的全新开源模型 | VentureBeat

MiniMax-M1 以超高效强化学习技术实现百万级上下文处理能力

Carl Franzen@carlfranzen

2025年6月16日 下午3:46

图片来源:VentureBeat使用Midjourney制作


中国AI初创公司MiniMax(西方用户可能更熟悉其爆款写实级AI视频模型Hailuo)最新发布了大型语言模型MiniMax-M1。对企业与开发者而言的重大利好是:该模型采用完全Apache 2.0许可开源,意味着商业应用可不受限制地免费使用和修改。

这款开放权重的模型在长程推理、工具调用和计算效率方面树立了新标杆,现已在AI代码社区Hugging Face微软旗下GitHub发布,该公司在X平台宣布本周为”MiniMax主题周”,预计还将推出更多产品。

MiniMax-M1的突出优势在于其100万输入TOKEN和最高8万输出TOKEN的上下文窗口,使其成为长文本推理任务中处理能力最强的模型之一。TOKEN作为大语言模型(LLM)的基础文本单位(可能是完整单词、词段、标点或代码符号),通过模型参数(权重与偏置)转化为数值向量进行语义处理——本质上是LLM的”母语”。

对比来看,OpenAI的GPT-4o仅支持12.8万TOKEN上下文(约等效于一部小说的信息量),而MiniMax-M1的百万TOKEN容量可处理相当于一个丛书系列的数据量。谷歌Gemini 2.5 Pro同样支持百万级上下文,并正在开发200万TOKEN版本。

但M1还有秘密武器:采用创新高效的强化学习训练技术。该模型采用混合专家系统(MoE)架构与闪电注意力机制,显著降低推理成本。技术报告显示,在处理10万TOKEN生成任务时,MiniMax-M1仅需消耗DeepSeek R125%的浮点运算量(FLOPs)。

架构与变体

模型提供两个版本:MiniMax-M1-40k和MiniMax-M1-80k,数字代表其”思维预算”即输出长度。架构基于早期MiniMax-Text-01框架,包含4560亿参数,每个TOKEN激活459亿参数。

最引人注目的是训练成本——MiniMax宣称采用大规模强化学习(RL)训练M1的总成本仅为53.47万美元。这种高效性得益于名为CISPO的自研RL算法(通过裁剪重要性采样权重而非TOKEN更新实现),以及简化扩展的混合注意力设计。相比DeepSeek R1模型500-600万美元的训练成本,以及OpenAI GPT-4超1亿美元的投入,堪称突破性成本控制。

基准测试表现

在数学竞赛基准AIME 2024中,M1-80k模型取得86.0%准确率,在编码和长上下文任务中表现优异:

这些成绩使MiniMax-M1在多项复杂任务上超越DeepSeek-R1Qwen3-235B-A22B等开源竞品。虽然闭源模型如OpenAI o3和Gemini 2.5 Pro仍在部分测试领先,但M1大幅缩小差距的同时保持Apache-2.0许可的开放访问。

部署方案与开发者工具

MiniMax推荐使用vLLM作为服务后端(因其针对大模型负载优化),同时支持Transformers库部署。该模型内置结构化函数调用能力,并配备含在线搜索、音视频生成、语音克隆等工具的聊天API,支持实际应用中的智能体行为。

对技术决策者的意义

开放访问、长上下文支持和计算效率三大特性,为规模化AI系统管理者提供了解决方案:

MiniMax-M1为寻求平衡性能、成本与自主权的组织提供了灵活选择,其发布彰显了MiniMax对实用化、可扩展AI模型的持续专注。我们将持续跟踪本周其他产品发布,敬请关注!### 你所需的AI洞察力

提交

感谢订阅。查看更多VB新闻简报请点击此处

发生错误。



上一篇
Groq大幅提升Hugging Face运行速度——AWS和谷歌面临挑战
下一篇
领英AI革新内幕:基于大语言模型精馏的求职搜索