过往,人工智能领域的核心竞争焦点在于“谁拥有最强大的模型”。模型参数规模、推理能力以及在各项基准测试中的排名,几乎是所有AI公司发布会的固定内容。OpenAI、Anthropic、智谱、MiniMax、月之暗面等公司,在宣传自身时都遵循着相似的模式。模型越智能,公司价值就越高,这是第一代大型模型公司的普遍叙事。

然而,这种叙事正在发生转变。以MiniMax M3的发布为例,其最引人注目的内容不再仅仅是模型本身的能力,而是BrowserComp、SWE Bench、Terminal Bench、OSWorld、MCP Atlas等一系列新的评估体系。

这些新引入的评估项目,其共同点在于它们不再关注模型“知道什么”,而是聚焦于模型“能够完成什么”。尽管许多人将此解读为“Agent”能力的体现,但若放长远来看,M3真正值得关注的并非Agent本身,而是MiniMax对其自身价值的重新定义。它开始尝试解答一个在行业内较少被认真对待的问题:一家AI公司真正销售的究竟是什么?

01

第一代AI公司,销售的是“智能”

在过去几年里,竞争逻辑异常简单:模型的性能就是产品,基准测试成绩就是价值。MMLU、GSM8K、HumanEval、LiveCodeBench等测试项目,其意义远不止于技术检验,更像是市场普遍认可的价值衡量标准。如同CPU有SPEC,GPU有MLPerf,数据库有TPC一样,成熟的产业都需要统一的标准来理解产品价值、指导采购决策,并帮助资本形成共识。因此,无论是参数规模还是排行榜上的位置,都成为市场衡量AI公司价值的最直接方式。在此阶段,模型本身即是商品。

MiniMax M3发布中一个容易被忽视的方面是,MiniMax投入了大量篇幅介绍另一类能力。SWE Bench、BrowserComp、Terminal Bench、OSWorld、MCP等测试项目,它们的共同特征是几乎不关心模型是否能给出答案。它们更关注的是:模型能否修复实际的软件缺陷,能否独立完成网页操作,能否调用开发环境,能否与企业现有系统集成,以及能否完成一项完整的任务。

换言之,基准测试的评价对象发生了变化。过去评价的是“智能”(Intelligence),现在评价的是“任务完成度”(Task Completion)。模型首次开始接受“岗位考核”,而非仅仅是“知识测验”。这不仅仅是评测体系的革新,更像是MiniMax向市场传递的一个信号:模型的强大能力依然重要,但真正决定商业价值的,将是其执行工作的能力。

02

为何MiniMax开始强调“工作”?

过去,大型模型的主要客户是开发者。开发者购买的是模型的能力,他们关心模型是否更聪明,是否能解决更复杂的问题。然而,企业客户的需求不同。企业在采购AI时,很少关注模型在排行榜上处于何种位置。企业真正关心的是:AI能帮助其完成多少工作?能节省多少人力成本?能渗透到多少业务流程中?能提升多少效率?

因此,产品表达方式也随之改变。浏览器功能不再仅仅是浏览网页的能力,而是能够融入办公流程;代码生成不再只是编写代码,而是能够进入研发流程;终端操作不再局限于Linux命令,而是能够应用于开发环境;MCP能力也不再是简单的协议支持,而是能够集成到企业已有的软件系统中。将这些能力整合来看,MiniMax希望展示的并非单个模型,而是一套工作流能力。

03

从Token到Workflow

许多人仍然将AI公司视为API服务提供商,收入主要来自Token消耗。调用次数越多,收入就越高,这是第一代AI商业模式的典型特征。但如今,一个新的趋势正在显现。越来越多的企业购买AI产品,并非为了获得更多的回答,而是为了完成更多的工作。修复一个Bug、整理一次会议纪要、处理一张工单、分析一份合同、完成一次网页操作,这些都意味着价值单位正在发生转变。过去,一次调用对应一个答案;如今,一次调用越来越对应一项任务。MiniMax M3的产品设计也越来越围绕这一逻辑展开。

模型正成为底层支撑,而工作流(Workflow)则成为产品。将M3置于整个行业背景下审视,它代表了一种新的产品叙事。越来越多的AI公司开始证明其在工作方面的能力。这种转变并非MiniMax独有。Claude Code强调的是开发工作流;OpenAI的Operator和Computer Use关注任务执行;Google则不断强化Gemini在Workspace和浏览器中的协作能力。整个行业正在围绕一个新的竞争维度展开:工作流和生产力(Workflow and Productivity)。

04

为何这种变化值得资本关注?

资本市场真正关注的并非技术领先本身,而是技术如何转化为可持续的收入。模型能力可以构建技术壁垒,但工作流更容易构建商业壁垒。一旦工作流被企业采纳,就意味着数据沉淀、流程绑定、员工习惯养成以及系统集成。这些都将带来更高的续订率、更强的客户粘性以及更稳定的商业模式。因此,越来越多的AI公司开始将产品叙事从模型能力转向工作能力。这并非放弃模型,而是在模型之外寻找更长期的价值来源。

从更宏观的视角来看,M3最值得关注的并非某一项基准测试。而是MiniMax对未来竞争对手的重新定义:从另一家模型公司,转变为企业工作入口、浏览器、IDE、Office、ERP、CRM等平台。企业的数据不会沉淀在一次对话中,而是最终沉淀在日常的工作流程里。能够进入更多工作流的公司,将拥有更强大的商业基础。从这个意义上讲,MiniMax未来面对的竞争对手,不仅包括OpenAI或Anthropic,更包括所有定义企业工作方式的软件平台。

尾声:一家AI公司价值重构的开始

如果说过去的大模型竞争围绕“智能”展开,那么今天,MiniMax M3展示了一种不同的竞争逻辑。模型依然重要,但它正从产品转变为基础设施。真正站在台前的是模型如何进入企业、连接软件、完成工作。对于MiniMax而言,这或许比一次基准测试排名更为重要。因为它意味着公司开始尝试回答一个新问题:当模型能力逐渐趋同,一家AI公司还能依靠什么来建立长期价值?M3给出的答案,不是更多的参数或排行榜数据,而是更多真实的“工作完成”。这或许也是AI行业进入下一阶段最重要的信号。未来,决定一家AI公司价值的,不仅仅是模型有多聪明,而是它能够帮助企业重组多少生产力。