正文
返回

AlphaOne为AI开发者提供调控LLM"思维"的新方法以提升性能

发布:  at  04:34

源信息经过deepseek翻译并总结

摘要:

AlphaOne是伊利诺伊大学和加州大学伯克利分校研发的新框架,通过测试时缩放技术调控大语言模型的推理方式。其核心是α参数,在关键节点插入”等待”标记触发慢思考,随后强制切换至快速生成。相比现有方法,AlphaOne支持更精细控制,实验表明在15亿至320亿参数模型上,平均减少21%的token使用量,同时提升复杂任务准确率6.15%,实现性能与成本的双重优化。该框架易于集成,为高效AI应用开发提供了新工具。


以下是翻译后的简体中文Markdown内容,已去除广告部分并保留所有有效正文和超链接:

AlphaOne为AI开发者提供调控大语言模型"思考"的新方法以提升性能
=======================================================================================

[作者:Ben Dickson](https://venturebeat.com/author/ben-dickson-techtalks/ "Ben Dickson的文章")[@BenDee983](https://twitter.com/BenDee983)

2025年6月10日 下午1:34

* [分享到Facebook](//www.facebook.com/sharer/sharer.php?u=https%3A%2F%2Fventurebeat.com%2Fai%2Falphaone-gives-ai-developers-a-new-dial-to-control-llm-thinking-and-boost-performance%2F&t=AlphaOne%20为AI开发者提供调控大语言模型%E2%80%98思考%E2%80%99的新方法以提升性能)
* [分享到Twitter](//twitter.com/intent/tweet?text=AlphaOne%20为AI开发者提供调控大语言模型%E2%80%98思考%E2%80%99的新方法以提升性能&url=https%3A%2F%2Fventurebeat.com%2Fai%2Falphaone-gives-ai-developers-a-new-dial-to-control-llm-thinking-and-boost-performance%2F&via=VentureBeat&related=VentureBeat,GamesBeat)
* [分享到LinkedIn](https://www.linkedin.com/cws/share?url=https%3A%2F%2Fventurebeat.com%2Fai%2Falphaone-gives-ai-developers-a-new-dial-to-control-llm-thinking-and-boost-performance%2F&token=&isFramed=true)

图片来源:VentureBeat使用Midjourney生成

---

来自[伊利诺伊大学厄巴纳-香槟分校](https://illinois.edu/)和[加州大学伯克利分校](https://www.berkeley.edu/)的研究人员开发的新框架,让开发者能更好地控制大语言模型(LLM)的"思考"方式,在提升推理能力的同时更高效地利用推理算力。

这个名为[AlphaOne](https://alphaone-project.github.io/)(α1)的框架采用[测试时缩放](https://venturebeat.com/ai/how-test-time-scaling-unlocks-hidden-reasoning-abilities-in-small-language-models-and-allows-them-to-outperform-llms/)技术,无需昂贵重新训练即可在推理时调整模型行为。它为高级LLM提供了一种通用的推理过程调节方法,相比现有方案能以更可控、更经济的方式提升复杂任务的性能。

慢思考的挑战
------------------------------

近年来,大型推理模型(LRM)开发者如[OpenAI o3](https://venturebeat.com/ai/openai-launches-o3-and-o4-mini-ai-models-that-think-with-images-and-use-tools-autonomously/)和[DeepSeek-R1](https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/)都引入了受["系统2"思维](https://venturebeat.com/ai/meta-researchers-distill-system-2-thinking-into-llms-improving-performance-on-complex-reasoning/)启发的机制——这种人类缓慢、审慎、逻辑的认知模式,与快速、直觉、自动的"系统1"思维形成对比。具备系统2能力的模型可以解决数学、编程和数据分析等复杂问题。

模型经过训练会自动生成"等待"、"嗯"或"或者"等过渡标记来触发慢思考。当这些标记出现时,模型会暂停以反思之前的步骤并调整方向,就像人类暂停重新思考难题时一样。

但推理模型并非总能有效运用慢思考能力。多项研究表明,它们容易在简单问题上"过度思考"浪费算力,或在复杂问题上"思考不足"导致错误答案。

如[AlphaOne论文](https://arxiv.org/abs/2505.24863)所述:"由于LRM无法找到最优的人类式系统1到系统2的推理转换,且推理能力有限,导致推理表现不尽人意。"

现有两种常见解决方法。并行缩放(如"最佳N次"法)需要多次运行模型选取最佳答案,计算成本高昂。顺序缩放尝试在单次运行中调控思考过程,例如[s1](https://arxiv.org/abs/2501.19393)技术通过在模型上下文中添加"等待"标记强制更多慢思考,而"[Chain of Draft](https://venturebeat.com/ai/less-is-more-how-chain-of-draft-could-cut-ai-costs-by-90-while-improving-performance/)"(CoD)方法则提示模型用更少词语,从而降低思考预算。但这些方法提供的都是僵化的通用方案,往往效率低下。

通用推理框架
-----------------------------------

AlphaOne的研究团队没有简单地增减思考预算,而是提出了一个更根本的问题:能否开发出更好的慢快思考转换策略,实现通用的推理预算调控?

他们的AlphaOne框架让开发者能在测试时精细控制模型的推理过程。系统通过引入Alpha(α)参数作为"调节旋钮"来控制模型的思考阶段预算。

在被研究者称为"α时刻"的某个时间点前,AlphaOne会策略性地安排插入"等待"标记的频率以鼓励慢速审慎思考。论文将这种方式描述为"既可控又可扩展的思考"。

当到达"α时刻"时,框架会在模式上下文中插入</think>标记,结束慢思考过程,强制模型切换至快速推理并生成最终答案。

先前技术通常采用研究者所称的"稀疏调制",仅在整个过程中做少量孤立调整。相比之下,AlphaOne可配置为频繁(密集)或偶尔(稀疏)干预,为开发者提供比其他方法更精细的控制。

*AlphaOne通过在模型上下文不同间隔插入"等待"标记来调节推理 来源:AlphaOne GitHub页面*

"我们将AlphaOne视为审慎推理的统一接口,可与思维链提示或基于偏好的调优互补,并能随模型架构演进,"AlphaOne团队通过书面回复告诉VentureBeat,"关键不在于实现细节,而在于通用原则:对推理过程进行由慢到快的结构化调制能提升能力与效率。"

AlphaOne实践
------------------

研究者在三个不同参数规模(15亿至320亿)的推理模型上测试了AlphaOne,在数学、代码生成和科学问题解决等六个高难度基准上评估其表现。

他们将AlphaOne与三个基线对比:原始未修改模型、单调增加慢思考的s1方法,以及单调减少思考预算的Chain of Draft(CoD)方法。

实验结果得出了几个对AI应用开发者特别重要的关键发现。

首先,"先慢思考后快思考"策略能显著提升LRM的推理表现。这凸显了LLM与人类认知的根本差异——人类通常采用快思考先行的模式。研究发现,模型通过强制先慢思考再快行动能获得更好效果。

"这表明有效的AI推理不是来自模仿人类专家,而是来自显式调控推理动态,这与实际应用中已有的提示工程和分阶段推理等实践相符,"AlphaOne团队表示,"对开发者而言,这意味着系统设计应主动实施慢到快的推理调度来提升性能和可靠性——至少在模型推理尚不完美的现阶段如此。"

另一有趣发现是,投入慢思考反而能提高整体推理效率。"虽然慢思考会延缓推理速度,但α1显著减少了总token长度,慢思考带来了更具信息量的推理进展,"论文指出。这意味着尽管模型"思考"耗时更长,但产生的推理路径更简洁准确,最终减少生成的总token数并降低推理成本。

相比s1类基线,AlphaOne平均减少约21%的token使用量(降低计算开销),同时在博士级数学、科学和编程问题上将推理准确率提升6.15%。

*虽然AlphaOne初期进展缓慢,但最终相比其他测试时缩放方法能用更少token获得更好结果 来源:AlphaOne GitHub页面*

"对于复杂查询应答或代码生成等企业应用,这些优势转化为双重收益:既提升生成质量又显著节约成本,"AlphaOne表示,"这能在提高任务成功率和用户满意度的同时降低推理成本。"

最后,研究发现高频插入"等待"标记效果显著,AlphaOne通过比先前方法更频繁地追加该标记取得了更好效果。

通过为开发者提供全新控制维度,即将发布代码的AlphaOne框架可帮助他们在下一代推理模型上构建更稳定、可靠且高效的应用程序。

"对于使用开源或自定义模型的企业,特别是那些在预训练阶段就加入过渡标记的模型,AlphaOne的设计便于集成,"AlphaOne团队告诉VentureBeat,"实际集成通常只需最小改动,例如简单地更新配置脚本中的模型名称。"
```### 你所需的AI前沿洞察  

提交  

感谢订阅。查看更多[VB新闻通讯请点击此处](/newsletters/)。  

发生错误。  

(说明:译文严格遵循要求,处理要点如下:  
1. 保留所有有效正文及超链接位置  
2. 去除原文广告属性(如"Submit"按钮的推销性)  
3. 维持Markdown语法(###层级/链接格式)  
4. 无代码块添加,未补充额外内容  
5. 采用简洁新闻体中文,关键术语如"AI insights"译为通用译法"AI前沿洞察")


上一篇
Mistral首款推理模型Magistral发布,提供大小Apache 2.0版本
下一篇
推动大规模开源安全应用的五大安全原则