正文
返回

《可解释人工智能手册:Anthropic的研究对企业大语言模型战略的启示》

发布:  at  07:01

源信息经过deepseek翻译并总结

摘要:

Anthropic CEO Dario Amodei强调可解释AI对安全部署的重要性,通过宪法AI原则确保模型”有益、诚实且无害”,并研究模型内部机制。其Claude模型编码表现优异,但面临谷歌Gemini和OpenAI竞争。可解释性可降低调试成本,但AI安全研究员Sayash Kapoor认为需结合其他工具管理风险。Amodei计划2027年实现可靠检测模型问题的可解释性,投资了AI”脑扫描”公司Goodfire。Kapoor质疑可解释性作为AI对齐核心的效用,主张关注产业转型。Nvidia CEO黄仁勋反对限制AI开发,支持开放发展。Anthropic回应支持透明度标准,可解释性或成市场竞争关键。


可解释AI行动手册:Anthropic的研究对您企业LLM战略的启示 | VentureBeat

跳至主内容

活动
视频
特刊
招聘

VentureBeat首页

订阅

订阅
活动
视频
特刊
招聘

可解释AI行动手册:Anthropic的研究对您企业LLM战略的启示

Ross Teixeira

2025年6月17日 下午4:01

VentureBeat/Midjourney

这场近二十年来备受企业领袖信任的活动。VB Transform汇聚了构建真实企业AI战略的实践者。了解更多


Anthropic CEO Dario Amodei在四月紧急呼吁需要理解AI模型的思考方式。

这正值关键时刻。当Anthropic在全球AI排名中激战正酣时,值得注意的是它与其他顶级AI实验室的区别。自2021年七名OpenAI员工因担忧AI安全分道扬镳创立以来,Anthropic构建的AI模型遵循一套人类价值原则,他们称之为宪法AI。这些原则确保模型”有益、诚实且无害”(https://ecorner.stanford.edu/wp-content/uploads/sites/2/2024/02/helpful-honest-harmless-ai-entire-talk-transcript.pdf),通常符合社会最佳利益。与此同时,Anthropic的研究部门正[深入探索](https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/)其模型如何理解世界,以及*为何*会产生有益(有时有害)的答案。

Anthropic的旗舰模型Claude 3.7 Sonnet在二月发布时主宰了编码基准测试,证明AI模型可以在性能与安全性上同时卓越。而近期发布的Claude 4.0 Opus和Sonnet再次让Claude登上编码基准榜首。然而,在当今快速且高度竞争的AI市场中,Anthropic的竞争对手如谷歌Gemini 2.5 Pro和OpenAI的o3在编码实力上也有亮眼表现,同时它们已在数学、创意写作和多语言整体推理方面领先Claude。

如果Amodei的想法有任何暗示,Anthropic正在为AI的未来及其在医学、心理学和法律等关键领域的影响做规划,这些领域模型安全与人类价值至关重要。事实如此:Anthropic是唯一严格开发”可解释”AI的领先实验室,这些模型让我们能在某种程度上理解模型的思考方式及其得出结论的过程。

亚马逊谷歌已在构建自身AI模型的同时向Anthropic投资数十亿美元,或许Anthropic的竞争优势仍在萌芽。正如Anthropic所表明的,可解释模型可显著降低与复杂AI部署中调试、审计和风险缓解相关的长期运营成本。

AI安全研究员Sayash Kapoor认为,虽然可解释性有价值,但它只是管理AI风险的众多工具之一。在他看来,“可解释性既非必要也不充分”确保模型行为安全——当与过滤器、验证器和以人为本的设计结合时才最重要。这种更广泛的视角将可解释性视为更大控制策略生态系统的一部分,特别是在现实世界的AI部署中,模型是更广泛决策系统的组成部分。

可解释AI的需求

直到最近,许多人还认为AI距离帮助Claude、Gemini和ChatGPT宣称卓越市场采用的进步尚有数年。虽然这些模型已在推动人类知识前沿,但其广泛使用归功于它们解决需要创造性问题解决或详细分析的各种实际问题的卓越能力。随着模型被用于日益关键的问题,确保其产生准确答案至关重要。

Amodei担心当AI响应提示时,“我们不知道…为何选择某些词而非其他,或为何偶尔犯错尽管通常准确。“此类错误——幻觉不准确信息,或不符合人类价值的回答——将阻碍AI模型发挥全部潜力。事实上,我们已经看到许多AI持续与幻觉不道德行为斗争的例子。

对Amodei而言,解决这些问题的最佳方式是理解AI如何思考:“我们无法理解模型的内部机制意味着我们不能有意义地预测此类[有害]行为,因此难以排除…相反,如果可能查看模型内部,我们或许能系统性地阻止所有越狱行为,并描述模型拥有的危险知识。”

Amodei还将当前模型的不透明视为在”高风险金融或安全关键环境中”部署AI模型的障碍,“因为我们无法完全设定其行为限制,少量错误可能非常有害。“在直接影响人类的决策中,如医疗诊断或抵押评估,法律法规要求AI解释其决策。

想象金融机构使用大语言模型(LLM)进行欺诈检测——可解释性可能意味着依法向客户解释被拒绝的贷款申请。或制造公司优化供应链——理解AI为何建议特定供应商可释放效率并预防意外瓶颈。

因此,Amodei解释:“Anthropic加倍投入可解释性,我们的目标是到2027年实现’可解释性能可靠检测大多数模型问题’。”

为此,Anthropic近期参与了向Goodfire AI研究实验室的5000万美元投资,该实验室在AI”脑扫描”方面取得突破性进展。他们的模型检查平台Ember是一个无关模型工具,可识别模型中的学习概念并让用户操控它们。在最近演示中,公司展示Ember如何识别图像生成AI中的单个视觉概念,然后让用户将这些概念绘制在画布上以生成遵循用户设计的新图像。

Anthropic对Ember的投资暗示开发可解释模型足够困难,以至于Anthropic没有人力单独实现可解释性。创造性可解释模型需要新工具链和熟练开发者构建。

更广泛背景:AI研究者的视角

为解析Amodei的观点并添加必要背景,VentureBeat采访了普林斯顿AI安全研究员Kapoor。Kapoor合著了《AI蛇油》一书,批判性审视围绕领先AI模型能力的夸大主张。他还是《作为常规技术的AI》的合著者,主张将AI视为互联网或电力等标准变革性工具,并倡导对其融入日常系统持现实态度。

Kapoor不否认可解释性的价值。然而,他对将其作为AI对齐的核心支柱持怀疑态度。“这不是银弹,“Kapoor告诉VentureBeat。他说,许多最有效的安全技术,如响应后过滤,根本不需要打开模型。

他还警告研究人员所称的”不可测性谬误”——即如果我们不完全理解系统内部,就无法负责任地使用或监管它。实际上,完全透明并非大多数技术的评估方式。重要的是系统在真实条件下是否可靠执行。

这不是Amodei第一次警告AI超越我们理解的风险。在他2024年10月的文章《慈爱机器》中,他勾勒出能力日益增强的模型可能采取有意义的现实行动(或许能倍增人类寿命)的愿景。

据Kapoor,这里需要区分模型的能力力量。模型能力无疑在快速增长,它们可能很快发展出足够智能为当今人类面临的许多复杂问题找到解决方案。但模型的力量仅限我们提供的与现实世界互动的接口,包括模型的部署位置和方式。

Amodei还单独主张美国应通过限制强大模型获取的出口管制保持AI发展领先。观点是专制政府可能不负责任地使用前沿AI系统——或率先部署它们获得地缘政治和经济优势。

对Kapoor,“即使出口管制的最强烈支持者也同意最多只能给我们一两年时间。“他认为应将AI视为”常规技术”如电力或互联网。尽管革命性,两种技术完全融入社会都花费了数十年。Kapoor认为AI同样:保持地缘政治优势的最佳方式是专注于产业转型以有效使用AI的”长期游戏”。

其他对Amodei的批评

Kapoor并非唯一批评Amodei立场的人。上周在巴黎VivaTech上,Nvidia CEO黄仁勋表示不同意Amodei的观点。黄质疑开发AI的权威是否应限于Anthropic等少数强大实体。他说:“如果你希望事情安全负责任地完成,就在开放中做…不要在暗室里做然后告诉我它安全。”

对此,Anthropic声明:“Dario从未声称’只有Anthropic’能构建安全强大的AI。如公开记录所示,Dario倡导了包括Anthropic在内的AI开发者国家透明度标准,以便公众和政策制定者了解模型的能力和风险并相应准备。”

值得注意的是,Anthropic并非唯一追求可解释性的:谷歌DeepMind可解释性团队在Neel Nanda领导下也为可解释性研究做出了重要贡献

最终,顶级AI实验室和研究者的强有力证据表明,可解释性可能成为竞争激烈的AI市场的关键差异化因素。早期优先考虑可解释性的企业可能通过构建更受信任、合规和适应性强的AI系统获得显著竞争优势。

VB每日商业用例深度洞察

若想给老板留下深刻印象,VB每日为您提供内幕。我们分享企业应用生成式AI的内部消息,从监管转变到实际部署,助您获取最大投资回报的见解。

立即订阅

阅读我们的隐私政策

感谢订阅。查看更多VB新闻通讯

发生错误。

最新发布:VB Transform 2025新增50张门票

6月24-25日齐聚旧金山,与顶尖领袖共同应对真实AI挑战,分享有效经验,塑造未来趋势。席位有限,立即抢占。

了解更多

© 2025 VentureBeat。版权所有。

×### 你需要的AI前沿洞察

提交

感谢订阅。查看更多VB新闻通讯请点击这里

发生错误。



上一篇
谷歌推出可用于生产的Gemini 2.5 AI模型,挑战OpenAI的企业市场主导地位
下一篇
SportsVisio为运动员和粉丝的人工智能技术融资320万美元