Elephant走红：AI开始为“Token浪费”算细账

2026年春季，大模型行业的高烧似乎正在退去，取而代之的是一种近乎冷酷的理性。近日，《财经》报道指出，全球企业级 AI 应用中，约50%的Token正在被浪费。

浪费的原因很具体，AI应用从“对话”转向“执行”，这些计算资源流向了较贵的大型旗舰模型，Agent在复杂多轮任务中，历史文件、对话会不断累积，大量无用、冗余、过期的信息会不断产生并且重复计算，Token消耗因此指数级增长。也就是说，企业和开发者在用最贵的车跑最短的路。

OpenRouter的流量数据反映了这个转变：过去一个季度，旗舰级模型的调用占比在下降，100B–300B区间的模型调用量则明显上升。以近日上线的100B 模型Elephant为例，单日流量暴涨500%，冲上热榜榜首，成为OpenClaw等 Agent 最受欢迎的选型。开发者开始按任务类型分配模型，而不是一律用最顶配。这是工程理性回归的信号，不是对旗舰模型的否定。

为什么现在才开始算这笔账

几年前，"选最强的模型"是最省心的工程决策。旗舰模型几乎在所有任务上都更好，成本问题还没到逼人重新设计架构的程度。

现在情况变了，Agent需要“执行”大量工作。一个客服Agent处理一张工单，可能需要调用模型十几次：理解意图、查询知识库、判断优先级、生成回复、核查格式。如果同时有几千张工单在处理，每天的调用量轻松进入百万级别。在这种频率下，每次调用多付的溢价开始在账单上显现。

今年3月，一位名为shelvenzhou的开发者在Github进行了一项基准测试，引发了广泛讨论。他记录自己的OpenClaw日常工作（包括代码、邮件、PDF、图片、搜索等）Token消耗情况——第一轮对话Token成本0.0050美元；第五轮对话Token成本0.0665美元，是第一轮的13.3倍；第10轮的Token成本达到了0.13美元，是第一轮的26倍。

根据报道，《财经》统计了GitHub上有关“Token Waste”相关Issues的数量。这一讨论至少有5200个，仅2026年一季度就诞生了4150个。越来越多的开发者在实际业务中正面临控制Token浪费的问题。

目前大多数Agent的工程实现还相当粗糙。面对Agent的多步任务，Token消耗以接近线性的速度增长，而其中大量内容对当前步骤毫无意义。这类问题催生了一个新的工程概念——Agent Harness，它不是模型本身，而是包裹在模型外部、负责管理上下文、编排工具调用、控制执行生命周期的“缰绳”和“马具”。

Token 效率因此形成了两条并行的压力线，一条来自 Agent 框架侧，Harness 的出现就是典型代表；另一条来自模型侧，推动厂商用更精简的参数完成同等质量的推理。

模型，向实用主义靠拢

在这场范式转移中，一批深耕“token效率”的模型成为了舞台中央的主角。它们不比拼参数规模，而是在单位Token成本下，比拼推理速度、指令遵循度以及长上下文的稳定性。

根据OpenRouter 的 LLM Leaderboard在4月16日的数据，模型格局呈现出明显的“大模型控榜，小模型控场”的分化态势。

在前20名的榜单中，传统意义上的大尺寸旗舰模型（如Claude Opus 4.6、DeepSeek V3.2等），主要分布在榜单头部和中上部，依然掌握着复杂任务的话语权；而主打轻量化、高性价比的小尺寸模型（如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等），且多集中在第 8 名至第 20 名的区间，形成了不可忽视的“腰部力量”。

可以明显看到，小尺寸模型的涨幅惊人。根据4月16日数据，排名第17位的 GPT-5.4 Nano以48%的惊人涨幅领跑增长榜，100B模型Elephant单日涨幅 38%。

从App使用情况来看，OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成为这些小尺寸模型的“最大流量贡献”，开发者正在将小尺寸模型作为高频、低延迟任务的首选。

在业界看来，100B-300B已然成为一个实用主义区间。GPT-5.4-Mini是目前这条路线的典型代表之一，以更低延迟和更低成本大幅缩小与旗舰模型的性能差距。

OpenAI 此前着重强调了新模型在多模型分层系统中的位置：以其自研编程助手Codex为例，GPT-5.4负责规划、协调与最终判断，而GPT-5.4 mini子智能体则并行处理代码库检索、大文件审阅及辅助文档处理等粒度更细的子任务。

OpenAI表示，随着小型模型速度更快、功能更强大，开发者无需使用单一模型处理所有任务，而是可以构建系统，由大型模型负责决策，小型模型则快速大规模地执行任务。这种分层调用的模式开始变得实用而非将就。

Elephant Alpha是另一个值得关注的案例，该模型于4月13日深夜上线 Openrouter。同为100B参数，Elephant定位为“智能效率”优先，在保持256K 上下文窗口的同时，重点优化Token使用效率，适合代码补全、快速文档处理和轻量Agent交互等场景。由于来源匿名，其具体技术细节尚不透明，但在开发者社区已有相当的实测关注。

效率不是降级，是分工

旗舰模型不会消失。在需要跨领域深度推理、多步骤规划、复杂代码生成的任务上，它们仍然是必要的。没有人认真地认为100B模型可以在所有场景下替代旗舰版。

但在日常的业务执行层——那些占据大多数调用量的任务——用旗舰模型是在为不需要的能力付费。把这部分流量迁移到效率更高的模型上，毫无疑问是更具性价比的决策。

这种分工在软件工程里有先例。CPU发展从追求单核主频转向多核协作，不是因为单核不重要，而是因为在实际工作负载下，多核架构的整体吞吐远超单纯堆主频。数据库领域也有类似的演变：OLTP和OLAP长期共存，不同的查询特征对应不同的存储和计算架构。

模型选型的逻辑正在经历类似的成熟。Token效率正在成为工程师评估模型的核心维度之一——不是因为便宜，而是因为在高频调用的场景下，它直接关系到产品的商业可行性。那些在单位成本下能提供足够推理质量的模型，正在成为 Agentic应用的默认底座。

一条路线日渐清晰：规模继续重要，但效率开始定价......

*以上内容不构成投资建议，不代表刊登平台之观点，市场有风险，投资需谨慎，请独立判断和决策。