正文
返回

超越GPT架构:谷歌的Diffusion方法为何可能重塑大语言模型部署

发布:  at  05:48

源信息经过deepseek翻译并总结

摘要:

谷歌DeepMind的Gemini Diffusion采用扩散方法生成文本,通过正向扩散(加噪)和逆向扩散(去噪)两阶段训练,支持并行处理(1000-2000 token/秒)和错误修正。相比传统自回归模型,其优势包括低延迟、自适应计算、非因果推理和迭代优化,但在服务成本和首token生成速度上存在不足。基准测试显示该模型在编程和数学领域表现优异,生成速度显著提升,适用于实时AI、编程助手等场景,可能改变语言模型部署方式。


以下是翻译后的简体中文内容,严格保留原始Markdown格式及超链接,并去除商业广告部分:

超越GPT架构:为何谷歌的Diffusion方法可能重塑大语言模型部署

David Chen

2025年6月13日 下午2:48

由VentureBeat通过ChatGPT创建


上月,谷歌DeepMind在发布全套新AI工具时同步推出了Gemini Diffusion。这项实验性研究模型采用基于扩散的方法生成文本。传统上,GPT和Gemini等大语言模型(LLM)依赖自回归技术——即基于前文逐个生成词语。扩散语言模型(DLM)则采用了图像生成领域更常见的方法,从随机噪声开始逐步优化输出。这种技术能显著提升生成速度,并改善连贯性与一致性。

Gemini Diffusion目前作为实验性演示开放,点击此处加入候补名单

扩散与自回归的技术差异

两种方法存在根本差异:自回归模型按顺序生成文本,逐个预测标记(token)。虽然能确保强连贯性和上下文追踪,但计算密集且速度较慢,尤其对于长文本。

扩散模型则从随机噪声出发,通过渐进去噪形成连贯输出。应用于文本时,该技术具备多项优势:可并行处理文本块,快速生成完整段落。Gemini Diffusion据称每秒可生成1000-2000个token,而Gemini 2.5 Flash的平均输出速度为272.4 token/秒。此外,生成错误可在优化过程中修正,从而提高准确性并减少幻觉现象。尽管可能在细粒度精度和标记级控制方面存在权衡,但速度提升将为众多应用带来变革。

扩散文本生成原理

训练过程中,DLM通过多步骤逐渐用噪声破坏句子,直至原始内容完全不可识别。随后模型学习逆向操作,从噪声版本逐步重建原句。通过迭代优化,它掌握了训练数据中所有合理句子的分布模式。

虽然Gemini Diffusion的具体细节尚未公开,但典型扩散模型训练包含以下关键阶段:

正向扩散:对每个训练样本进行多轮噪声叠加(通常500-1000次),直至其与随机噪声无法区分。
逆向扩散:模型学习逆向每个噪声添加步骤,逐步”去噪”被破坏的句子,最终恢复原始结构。

该过程通过多样化样本和噪声级别重复数百万次,使模型掌握可靠的去噪函数。

训练完成后,模型能生成全新句子。DLM通常需要条件输入(如提示、类别标签或嵌入向量)来引导生成方向。条件信息会注入每个去噪步骤,将初始噪声转化为结构清晰的文本。

扩散模型的优势与劣势

谷歌DeepMind研究科学家、Gemini Diffusion项目负责人Brendan O’Donoghue向VentureBeat阐述了扩散技术的核心优势:

O’Donoghue也指出主要缺点:“服务成本较高,首token生成时间(TTFT)略长。自回归模型会立即产生首token,而扩散模型需要等待完整序列就绪。“

性能基准测试

谷歌表示Gemini Diffusion性能可比肩Gemini 2.0 Flash-Lite

测试项类型Gemini DiffusionGemini 2.0 Flash-Lite
LiveCodeBench (v6)代码30.9%28.5%
BigCodeBench代码45.4%45.8%
LBPP (v2)代码56.8%56.0%
SWE-Bench Verified*代码22.9%28.5%
HumanEval代码89.6%90.2%
MBPP代码76.0%75.8%
GPQA Diamond科学40.4%56.5%
AIME 2025数学23.3%20.0%
BIG-Bench Extra Hard推理15.0%21.0%
Global MMLU (Lite)多语言69.1%79.0%

*非代理评估(仅单轮编辑),最大提示长度32K。

两项模型在多项基准测试中对比,分数基于模型首次回答的正确率。Gemini Diffusion在编程与数学测试中表现优异,而Gemini 2.0 Flash-lite在推理、科学知识和多语言能力上略胜一筹。

随着Gemini Diffusion的发展,其性能有望追平成熟模型。O’Donoghue表示:“至少在现有规模下,两种技术的基准表现差距已基本消除。对于需要非局部一致性的领域(如编程和推理),扩散模型可能更具优势。“

Gemini Diffusion实测

VentureBeat获得实验版访问权限。测试中最直观的感受是速度:运行谷歌建议的提示(如构建Xylophone和Planet Tac Toe等交互式HTML应用)时,每个请求均在3秒内完成,速度区间为600-1300 token/秒。

为测试实际应用表现,我们要求Gemini Diffusion构建视频聊天界面:

构建视频聊天应用界面。需包含访问设备摄像头并显示画面的预览窗口,以及实时测量麦克风输入的音量计。

不到两秒,Gemini Diffusion便创建出带视频预览和音频仪表的可运行界面。虽然实现不复杂,但通过进一步提示可快速完成MVP开发。需注意Gemini 2.5 Flash也能生成可运行界面,但耗时约7秒。

Gemini Diffusion还提供”即时编辑”模式,可粘贴文本/代码进行实时修改。该模式适用于多种文本编辑场景(如语法修正、读者定位调整、SEO关键词插入),以及代码重构、功能添加或跨语言代码库转换等任务。

DLM的企业级应用场景

任何需要快速响应的应用都将受益于DLM技术,包括实时/低延迟场景(如对话式AI、聊天机器人、实时转录翻译、IDE自动补全和编程助手)。据O’Donoghue介绍,“对于内联编辑等应用场景,扩散模型具有自回归模型无法比拟的优势。“DLM在推理、数学和编程问题上也更具潜力,因其”双向注意力机制支持非因果推理”。

虽然DLM尚处发展初期,但这项技术可能彻底改变语言模型的构建方式。其不仅生成速度远超自回归模型,通过错误修正机制未来还可能产出更精确的结果。

Gemini Diffusion正加入不断壮大的DLM生态系统,其中值得注意的包括Inception Labs开发的Mercury和GSAI的开源模型LLaDa。这些模型共同展现了扩散式文本生成的蓬勃发展趋势,为传统自回归架构提供了可扩展、可并行的替代方案。### 你所需的AI前沿洞见

提交

感谢订阅。查看更多VB新闻简报请点击此处

发生错误。



上一篇
在扩展前将审计追踪嵌入人工智能系统的理由
下一篇
推理模型真的会“思考”吗?苹果研究引发热议与回应