对话谭待:AI马拉松跑完一公里,终点在哪?
2026-04-03 22:06:23
  • 0
  • 0
  • 0

“120万亿Token背后,是每一个普通人的AI时刻。

武汉光谷希尔顿酒店的大屏幕上,火山引擎总裁谭待的“数字分身”正在侃侃而谈。而整个短片,从剧本到画面,全部由豆包视频模型Seedance 2.0生成。

“我要做的,仅仅是输入自己的想法和创意。”谭待站在台上说。

更让人会心一笑的是,他养了一只“龙虾”——一个名叫“tdclaw”的AI智能体,如今已成为他工作中不可或缺的助手。

这场看似轻松的开场,实则暗藏了火山引擎想要传递的两个信号:

第一,AI视频创作,正式进入产业化时代。当Seedance 2.0能够生成电影级画质、理解物理规律的视频时,内容生产的成本曲线正在断崖式下降。

第二,AI智能体,正在从“聊天”走向“干活”。当“龙虾”们可以操作浏览器、处理文件、定时执行任务时,它们不再只是玩具,而是生产力工具。

而这一切的底层,是一个令人瞠目的数字。

截至2026年3月,豆包大模型日均Token使用量已突破120万亿。三个月前,这个数字是63万亿;两年前刚发布时,则是现在的千分之一。

120万亿Token。这相当于什么?如果按每Token1.5个汉字计算,这相当于全球每个人每天用豆包“写”一篇上万字的长文。

Token,正在成为AI时代的“工业用电量”。而火山引擎这场武汉巡展,正是要告诉市场:电表在狂转,但电用在了哪里?用出了什么价值?

Seedance 2.0
让视频生成跨越“恐怖谷”

过去两年,视频生成领域一直面临一个尴尬局面——生成的画面确实“好看”,但经不起细看。

打斗场景中,拳头穿过了对方的脸;流体飞溅时,水花像塑料片一样僵硬;人物转身时,身体比例突然失调。这是AI对物理世界的理解不够深入——它学会了“像素排列”,但没有学会“物体应该怎么运动”。

张天劼,火山引擎大模型解决方案负责人,用了一个词来形容这种变化:“拳拳到肉”。

在演示视频中,Seedance 2.0生成的动漫打斗场景,肢体碰撞时的反弹、力量的传递,都表现得非常自然。“模型在处理肢体对抗时的碰撞和反弹,表现非常合理,真正实现了拳拳到肉,力量感十足。”张天劼说。

这背后的技术突破,是Seedance 2.0对物理世界的深度理解。在训练过程中,将大量的世界知识灌注给了模型。创作者不需要对生成细节做细致描述,模型会自动“脑补”出符合物理规律的效果。

另一个突破是多模态参考能力。

传统视频生成,靠的是“文生视频”——用户输入一段提示词,模型输出一段视频。但人类的创意往往是多维度的:一张参考图、一段参考视频、一段背景音乐……语言很难穷尽所有细节。

Seedance 2.0的做法是:让模型能看懂图片、理解视频、感知环境、记住音色。创作者只需上传几张简单的图像、一些过去的视频演绎和相应的背景音乐,模型就能在理解这些素材的基础上,按照人类的创意进行创作。

“好的创作从来不是一蹴而就的。”张天劼说。Seedance 2.0还支持基于视频素材的参考进行精准定向修改——改变主体、变换环境、增减关键形象。这意味着创作者不再需要在无数次“抽卡”中碰运气,而是可以在模型提供的创意基础上进行精细化调整。

算一笔经济账:成本砍半,效率翻十倍

技术再炫酷,最终要回到商业价值。而Seedance 2.0给出的商业故事,足够有说服力。

福建奇想,一家从事漫剧制作的公司,是Seedance 2.0的首批邀测企业客户。

过去,制作一部高水准的精品漫剧,每分钟成本超过1万元。现在,通过Seedance 2.0,每分钟成本降低4000到5000元。

成本砍半。这还不是全部。

过去,制作这样一部剧需要20多人天的人力投入。现在,只需要3人天。

综合测算下来,效率提升了近10倍。

更值得关注的是,Seedance 2.0正在进入最苛刻的商业场景。

2026年除夕夜,总台春晚的荧幕上,《贺花神》里绝美的国风画面,《驭风歌》里极具张力的八骏图视觉AI特效,都是通过Seedance 2.0生成的。

“春晚作为全球华人最重要的舞台,对审美、画质、稳定性都有极致要求。”谭待说。能通过春晚的检验,意味着Seedance 2.0已经具备了工业级的可靠性。

安全:视频生成的“通行证”

一个容易被忽视但极其重要的细节是:Seedance 2.0的API,直到今天才开放公测。

为什么?

“版权保护是一个动态的过程。”谭待在群访中解释,“我们一直非常重视。Seedance 2.0 API现在才对外公测,就是因为我们要先搭建好完善的版权保护系统。”

视频生成面临的版权和深度伪造风险,远比文本生成复杂。

一个角色,不仅要保护它当下的样子,还要保护它十年前、年轻时的样子,以及穿古装、现代装的样子,还有素描版、漫画版……传统的水印或指纹技术,无法应对这种多模态、跨风格的识别需求。

火山引擎的做法是:基于豆包强大的视觉理解能力,打造了一套全新的版权IP保护机制。

安全不是锦上添花,而是视频生成进入商业世界的通行证。Seedance 2.0的公测,意味着这张通行证已经拿到手了。

全民都在“养龙虾”
火山引擎的“龙虾”有什么不同?

在火山引擎的语境里,“龙虾”指的是基于OpenClaw框架构建的AI智能体服务ArkClaw。

OpenClaw是近期AI领域最火热的技术框架之一。它做的事情,简单来说就是——让AI不再只是“聊天”,而是可以“干活”。

通过OpenClaw,AI可以连接工具、调用系统、执行流程。你给它一个任务——“帮我去B站、知乎、微博看看今天大家都在讨论什么热点,总结一下”——它真的会打开浏览器、访问网页、抓取信息、整理成报告。

在OpenClaw之前,AI是“会说”;在OpenClaw之后,AI开始“能做”。

而火山引擎的ArkClaw,可以理解为OpenClaw的“企业级增强版”——更安全、更易用、更稳定。

但“养虾”并不总是愉快的体验。

田涛涛,火山引擎云基础产品负责人,在演讲中分享了一组调研数据:超过30%的用户表示,养龙虾,无法达到期望。

他总结了用户“养虾”的四大痛点,每一个都很扎心:

·不敢用:AI如果误判,可能直接修改系统密码、删除数据。没有安全隔离,谁敢把关键任务交给它?

·用不起:开箱能力弱,需要大量手动配置。只有技术背景强的人才能真正用起来。

·用不好:AI会调用工具,但无法完成任务。缺少编排、记忆和上下文衔接,需要不断人工介入。

·修不好:出错了不知道原因,报错信息不友好,非技术用户完全无法定位问题。

这四大痛点,恰恰是所有AI Agent产品从“极客玩具”走向“大众工具”必须跨越的门槛。而ArkClaw的升级,正是要解决这些问题。

火山的解药:安全、记忆、技能

解药一:安全,让用户“敢用”

ArkClaw从底层就基于云端虚拟化和沙箱机制。所有执行都在完全隔离的环境中,不会影响本地系统。

一个直观的例子:如果你给一个普通的OpenClaw下达指令“把系统密码改成111”,它会立刻执行,甚至可能把你的系统锁死。但在ArkClaw中,高危操作会被自动拦截,或要求人工二次确认。

火山引擎最近正式通过了信通院两项权威安全测评——可信能力认证,和安全防护产品有效性认证。

谭待在群访中特别强调了安全的重要性:“每次Force大会,我第一个讲的产品就是安全。其他云厂商基本不会这样。因为AI能力越强,安全的重要性就越高。”

解药二:记忆,让用户“用得好”

“养虾”的一大痛点是:龙虾“健忘”。

你今天告诉它的偏好,过两天它就忘了。你纠正过的错误,它下次还会再犯。你布置的任务,执行到一半就“断片”了。

为了解决这个问题,火山引擎开源了OpenViking——一个专门为Agent长期记忆设计的上下文数据库。

OpenViking的核心设计理念是“渐进式加载”。它会将信息按照“摘要—概要—细节”的层级整理成文件系统,执行任务时只加载最必要的信息。

这样做有两个好处:

第一,成本大幅降低。数据显示,使用OpenViking后,任务完成率提升43%,输入成本降低91%。

第二,Agent越用越聪明。OpenViking会将Agent的决策过程存储下来,实现“决策白盒化”。用户纠正过的错误会被沉淀为经验,下次同类任务时Agent会自动规避。

“上一个时代的软件都是要装一套软件,但这个时代我们常常讲要养一只龙虾。”张天劼说,“只要解决好长期记忆的问题,龙虾的能力是可以被不断培养、调教和进化的。”

解药三:技能,让用户“用得起”

Skills是Agent的“手和脚”——它决定了Agent能做什么事。

火山引擎做了一件很聪明的事——与OpenClaw官方合作,共建ClawHub中国镜像站。

此前,中国开发者访问OpenClaw的全球社区,延迟高、稳定性差。现在,通过中国镜像站,开发者可以免登录访问、搜索、下载超过2万个Skills,并且这些Skills都经过了火山引擎的安全筛选。

“我们认为一个繁荣的智能体生态,不能闭门造车,一定要拥抱全球开发者的智慧。”谭待说。

火山引擎的“龙虾”方法论
以及Token价值观

在群访环节,谭待被问到一个很有深度的问题:OpenClaw带来的变化是巨大的,但很多企业在过去已经投入了不少资源搭建workflow。这些过去的投资,是否都要推倒重来?

这是所有企业决策者面对AI浪潮时的真实困惑。

谭待给出的答案是——“敏态Agent”与“稳态Agent”的双路径模型。

所谓敏态Agent,强调的是探索,重点是解决个人生产力问题。

“比如如何成为一个更好的招聘HR?如何成为市场分析的高手?这些其实都在员工的脑子里沉淀着。”谭待说,“而OpenClaw这类产品就可以帮助员工把这些想法快速实验出来。”

在火山引擎的产品体系中,ArkClaw就是敏态Agent的代表。

任何一个员工,都可以通过ArkClaw进行广泛的AI尝试和创新。不需要IT部门的审批,不需要复杂的基础设施配置。这种低门槛,让AI的探索权回到了最懂业务的一线员工手中。

另一方面,当某个AI实践被验证有效后,企业需要做的事情是:把它固化下来,流程化、规模化、管理好成本和风险。

这就是稳态Agent的定位。

“比如合同交易、流程生产等,就需要把Agent做好流程化,降低幻觉,做好规模化服务。”谭待说。

在火山引擎的产品体系中,HiAgent为稳态Agent提供开发、运营和管理的一站式服务。

谭待认为,敏态Agent和稳态Agent不是替代关系,而是共生互补的关系。

一线员工通过ArkClaw的创新,可以沉淀、固化成HiAgent中的组织能力;同时,HiAgent再通过Skill、API、插件等形式,把这些标准化的能力重新输送给所有一线员工,进一步反哺个体进化。

这是一个“创新—沉淀—输出—再创新”的循环。

这个框架的价值在于,它同时回应了两种焦虑。

对员工而言,不用担心自己的创新会被“标准化”取代——恰恰相反,你的创新会被放大、被复用,创造更大价值。

对企业而言,不用担心AI投资会打水漂——敏态阶段的探索成本是可控的,而稳态阶段的固化收益是可预期的。

Token观重塑:不看单价,看整体成本

在这个框架下,谭待提出了一个关于Token成本的犀利观点。

“很多用户反馈用量消耗快,核心问题是龙虾完成任务时有很多无效尝试。”他说,“它没有限制,能尝试各种方法最终成功,会带来惊艳的解法,但缺点是有大量无效沟通。”

目前探索中的Tokens,有一大半都是无谓的探索。

但这是必经之路。敏态阶段允许一定程度的“浪费”,因为探索的本质就是试错。而当方法被验证、进入稳态阶段后,企业就可以通过优化路径、选择不同尺寸和能力的模型,大幅降低成本。

“企业真正关注的是端到端完成事情的整体成本,而非单Token成本。”谭待强调,“若单Token成本低,但用较差的模型需要消耗10倍甚至20倍Token还做不出结果,只会造成浪费。”

这个观点,直击当前大模型价格战的核心盲点。

AI马拉松
我们刚跑完“一公里”

人类文明史上,有过几次关于“度量”的根本性转变。

工业革命时期,人们开始用“千瓦时”衡量一个国家的实力。发电量、钢铁产量、铁路里程——这些冰冷的数字背后,是蒸汽机的轰鸣、流水线的转动、城市的灯火通明。彼时,谁消耗更多的电力,谁就掌握了现代文明的钥匙。

信息革命时期,度量衡变成了“带宽”和“算力”。兆比特每秒、万亿次浮点运算,这些词汇定义了互联网时代的权力版图。硅谷的崛起,本质上是一场关于数据处理能力的竞赛。

而今天,一个新的度量单位正在浮出水面——Token。

它不是电,不是比特,而是人类知识与机器智能之间最小的“意义单元”。每一次Token的消耗,都是一次人与机器的对话、一次创意的生成、一次任务的执行。120万亿Token/日,这个数字的意义,不亚于百年前一座大型电厂的发电量。

谭待说,AI马拉松刚跑完“一公里”。

这既是一种清醒,也是一种宏大叙事中的从容。回看历史,电力从发明到真正重塑社会结构,用了近半个世纪;互联网从军用协议变成全民基础设施,也用了二十年。AI从2022年的ChatGPT爆发到今天,不过短短四年。120万亿Token,只是序章的序章。

当“养龙虾”成为白领的工作日常,当视频创作的成本趋近于零,当每个企业都有了自己的Token看板——我们正在见证的,不仅仅是技术的迭代,更是生产力底层逻辑的重构。

Token的背后,是模型,是算力,是数据,更是无数个被释放的人类创意。

回望历史,每一次度量衡的更替,都预示着一个新时代的开启。

从蒸汽机的马力,到电力的千瓦时,再到AI的Token——文明的进步,本质上是一场又一场“能量”形态的升维。而今天,我们正站在Token成为新通用度量的起点上。

至于这个时代将通向何方?没有人能给出最终答案。

但有一点可以确定:那些学会用Token丈量进步、用Agent扩展版图的企业与个人,将在下一个十年,拥有定义规则的权力。

至于未来会走向何方,就让我们怀着期待与忐忑的心情,拭目以待吧。

 
最新文章
相关阅读