对话谭待：AI马拉松跑完一公里，终点在哪？-数据猿的专栏

对话谭待：AI马拉松跑完一公里，终点在哪？

2026-04-03 22:06:23栏目：默认栏目 IP属地：IP未知

“120万亿Token背后，是每一个普通人的AI时刻。

武汉光谷希尔顿酒店的大屏幕上，火山引擎总裁谭待的“数字分身”正在侃侃而谈。而整个短片，从剧本到画面，全部由豆包视频模型Seedance 2.0生成。

“我要做的，仅仅是输入自己的想法和创意。”谭待站在台上说。

更让人会心一笑的是，他养了一只“龙虾”——一个名叫“tdclaw”的AI智能体，如今已成为他工作中不可或缺的助手。

这场看似轻松的开场，实则暗藏了火山引擎想要传递的两个信号：

第一，AI视频创作，正式进入产业化时代。当Seedance 2.0能够生成电影级画质、理解物理规律的视频时，内容生产的成本曲线正在断崖式下降。

第二，AI智能体，正在从“聊天”走向“干活”。当“龙虾”们可以操作浏览器、处理文件、定时执行任务时，它们不再只是玩具，而是生产力工具。

而这一切的底层，是一个令人瞠目的数字。

截至2026年3月，豆包大模型日均Token使用量已突破120万亿。三个月前，这个数字是63万亿；两年前刚发布时，则是现在的千分之一。

120万亿Token。这相当于什么？如果按每Token1.5个汉字计算，这相当于全球每个人每天用豆包“写”一篇上万字的长文。

Token，正在成为AI时代的“工业用电量”。而火山引擎这场武汉巡展，正是要告诉市场：电表在狂转，但电用在了哪里？用出了什么价值？

Seedance 2.0
让视频生成跨越“恐怖谷”

过去两年，视频生成领域一直面临一个尴尬局面——生成的画面确实“好看”，但经不起细看。

打斗场景中，拳头穿过了对方的脸；流体飞溅时，水花像塑料片一样僵硬；人物转身时，身体比例突然失调。这是AI对物理世界的理解不够深入——它学会了“像素排列”，但没有学会“物体应该怎么运动”。

张天劼，火山引擎大模型解决方案负责人，用了一个词来形容这种变化：“拳拳到肉”。

在演示视频中，Seedance 2.0生成的动漫打斗场景，肢体碰撞时的反弹、力量的传递，都表现得非常自然。“模型在处理肢体对抗时的碰撞和反弹，表现非常合理，真正实现了拳拳到肉，力量感十足。”张天劼说。

这背后的技术突破，是Seedance 2.0对物理世界的深度理解。在训练过程中，将大量的世界知识灌注给了模型。创作者不需要对生成细节做细致描述，模型会自动“脑补”出符合物理规律的效果。

另一个突破是多模态参考能力。

传统视频生成，靠的是“文生视频”——用户输入一段提示词，模型输出一段视频。但人类的创意往往是多维度的：一张参考图、一段参考视频、一段背景音乐……语言很难穷尽所有细节。

Seedance 2.0的做法是：让模型能看懂图片、理解视频、感知环境、记住音色。创作者只需上传几张简单的图像、一些过去的视频演绎和相应的背景音乐，模型就能在理解这些素材的基础上，按照人类的创意进行创作。

“好的创作从来不是一蹴而就的。”张天劼说。Seedance 2.0还支持基于视频素材的参考进行精准定向修改——改变主体、变换环境、增减关键形象。这意味着创作者不再需要在无数次“抽卡”中碰运气，而是可以在模型提供的创意基础上进行精细化调整。

算一笔经济账：成本砍半，效率翻十倍

技术再炫酷，最终要回到商业价值。而Seedance 2.0给出的商业故事，足够有说服力。

福建奇想，一家从事漫剧制作的公司，是Seedance 2.0的首批邀测企业客户。

过去，制作一部高水准的精品漫剧，每分钟成本超过1万元。现在，通过Seedance 2.0，每分钟成本降低4000到5000元。

成本砍半。这还不是全部。

过去，制作这样一部剧需要20多人天的人力投入。现在，只需要3人天。

综合测算下来，效率提升了近10倍。

更值得关注的是，Seedance 2.0正在进入最苛刻的商业场景。

2026年除夕夜，总台春晚的荧幕上，《贺花神》里绝美的国风画面，《驭风歌》里极具张力的八骏图视觉AI特效，都是通过Seedance 2.0生成的。

“春晚作为全球华人最重要的舞台，对审美、画质、稳定性都有极致要求。”谭待说。能通过春晚的检验，意味着Seedance 2.0已经具备了工业级的可靠性。

安全：视频生成的“通行证”

一个容易被忽视但极其重要的细节是：Seedance 2.0的API，直到今天才开放公测。

为什么？

“版权保护是一个动态的过程。”谭待在群访中解释，“我们一直非常重视。Seedance 2.0 API现在才对外公测，就是因为我们要先搭建好完善的版权保护系统。”

视频生成面临的版权和深度伪造风险，远比文本生成复杂。

一个角色，不仅要保护它当下的样子，还要保护它十年前、年轻时的样子，以及穿古装、现代装的样子，还有素描版、漫画版……传统的水印或指纹技术，无法应对这种多模态、跨风格的识别需求。

火山引擎的做法是：基于豆包强大的视觉理解能力，打造了一套全新的版权IP保护机制。

安全不是锦上添花，而是视频生成进入商业世界的通行证。Seedance 2.0的公测，意味着这张通行证已经拿到手了。

全民都在“养龙虾”
火山引擎的“龙虾”有什么不同？

在火山引擎的语境里，“龙虾”指的是基于OpenClaw框架构建的AI智能体服务ArkClaw。

OpenClaw是近期AI领域最火热的技术框架之一。它做的事情，简单来说就是——让AI不再只是“聊天”，而是可以“干活”。

通过OpenClaw，AI可以连接工具、调用系统、执行流程。你给它一个任务——“帮我去B站、知乎、微博看看今天大家都在讨论什么热点，总结一下”——它真的会打开浏览器、访问网页、抓取信息、整理成报告。

在OpenClaw之前，AI是“会说”；在OpenClaw之后，AI开始“能做”。

而火山引擎的ArkClaw，可以理解为OpenClaw的“企业级增强版”——更安全、更易用、更稳定。

但“养虾”并不总是愉快的体验。

田涛涛，火山引擎云基础产品负责人，在演讲中分享了一组调研数据：超过30%的用户表示，养龙虾，无法达到期望。

他总结了用户“养虾”的四大痛点，每一个都很扎心：

·不敢用：AI如果误判，可能直接修改系统密码、删除数据。没有安全隔离，谁敢把关键任务交给它？

·用不起：开箱能力弱，需要大量手动配置。只有技术背景强的人才能真正用起来。

·用不好：AI会调用工具，但无法完成任务。缺少编排、记忆和上下文衔接，需要不断人工介入。

·修不好：出错了不知道原因，报错信息不友好，非技术用户完全无法定位问题。

这四大痛点，恰恰是所有AI Agent产品从“极客玩具”走向“大众工具”必须跨越的门槛。而ArkClaw的升级，正是要解决这些问题。

火山的解药：安全、记忆、技能

解药一：安全，让用户“敢用”

ArkClaw从底层就基于云端虚拟化和沙箱机制。所有执行都在完全隔离的环境中，不会影响本地系统。

一个直观的例子：如果你给一个普通的OpenClaw下达指令“把系统密码改成111”，它会立刻执行，甚至可能把你的系统锁死。但在ArkClaw中，高危操作会被自动拦截，或要求人工二次确认。

火山引擎最近正式通过了信通院两项权威安全测评——可信能力认证，和安全防护产品有效性认证。

谭待在群访中特别强调了安全的重要性：“每次Force大会，我第一个讲的产品就是安全。其他云厂商基本不会这样。因为AI能力越强，安全的重要性就越高。”

解药二：记忆，让用户“用得好”

“养虾”的一大痛点是：龙虾“健忘”。

你今天告诉它的偏好，过两天它就忘了。你纠正过的错误，它下次还会再犯。你布置的任务，执行到一半就“断片”了。

为了解决这个问题，火山引擎开源了OpenViking——一个专门为Agent长期记忆设计的上下文数据库。

OpenViking的核心设计理念是“渐进式加载”。它会将信息按照“摘要—概要—细节”的层级整理成文件系统，执行任务时只加载最必要的信息。

这样做有两个好处：

第一，成本大幅降低。数据显示，使用OpenViking后，任务完成率提升43%，输入成本降低91%。

第二，Agent越用越聪明。OpenViking会将Agent的决策过程存储下来，实现“决策白盒化”。用户纠正过的错误会被沉淀为经验，下次同类任务时Agent会自动规避。

“上一个时代的软件都是要装一套软件，但这个时代我们常常讲要养一只龙虾。”张天劼说，“只要解决好长期记忆的问题，龙虾的能力是可以被不断培养、调教和进化的。”

解药三：技能，让用户“用得起”

Skills是Agent的“手和脚”——它决定了Agent能做什么事。

火山引擎做了一件很聪明的事——与OpenClaw官方合作，共建ClawHub中国镜像站。

此前，中国开发者访问OpenClaw的全球社区，延迟高、稳定性差。现在，通过中国镜像站，开发者可以免登录访问、搜索、下载超过2万个Skills，并且这些Skills都经过了火山引擎的安全筛选。

“我们认为一个繁荣的智能体生态，不能闭门造车，一定要拥抱全球开发者的智慧。”谭待说。

火山引擎的“龙虾”方法论
以及Token价值观

在群访环节，谭待被问到一个很有深度的问题：OpenClaw带来的变化是巨大的，但很多企业在过去已经投入了不少资源搭建workflow。这些过去的投资，是否都要推倒重来？

这是所有企业决策者面对AI浪潮时的真实困惑。

谭待给出的答案是——“敏态Agent”与“稳态Agent”的双路径模型。

所谓敏态Agent，强调的是探索，重点是解决个人生产力问题。

“比如如何成为一个更好的招聘HR？如何成为市场分析的高手？这些其实都在员工的脑子里沉淀着。”谭待说，“而OpenClaw这类产品就可以帮助员工把这些想法快速实验出来。”

在火山引擎的产品体系中，ArkClaw就是敏态Agent的代表。

任何一个员工，都可以通过ArkClaw进行广泛的AI尝试和创新。不需要IT部门的审批，不需要复杂的基础设施配置。这种低门槛，让AI的探索权回到了最懂业务的一线员工手中。

另一方面，当某个AI实践被验证有效后，企业需要做的事情是：把它固化下来，流程化、规模化、管理好成本和风险。

这就是稳态Agent的定位。

“比如合同交易、流程生产等，就需要把Agent做好流程化，降低幻觉，做好规模化服务。”谭待说。

在火山引擎的产品体系中，HiAgent为稳态Agent提供开发、运营和管理的一站式服务。

谭待认为，敏态Agent和稳态Agent不是替代关系，而是共生互补的关系。

一线员工通过ArkClaw的创新，可以沉淀、固化成HiAgent中的组织能力；同时，HiAgent再通过Skill、API、插件等形式，把这些标准化的能力重新输送给所有一线员工，进一步反哺个体进化。

这是一个“创新—沉淀—输出—再创新”的循环。

这个框架的价值在于，它同时回应了两种焦虑。

对员工而言，不用担心自己的创新会被“标准化”取代——恰恰相反，你的创新会被放大、被复用，创造更大价值。

对企业而言，不用担心AI投资会打水漂——敏态阶段的探索成本是可控的，而稳态阶段的固化收益是可预期的。

Token观重塑：不看单价，看整体成本

在这个框架下，谭待提出了一个关于Token成本的犀利观点。

“很多用户反馈用量消耗快，核心问题是龙虾完成任务时有很多无效尝试。”他说，“它没有限制，能尝试各种方法最终成功，会带来惊艳的解法，但缺点是有大量无效沟通。”

目前探索中的Tokens，有一大半都是无谓的探索。

但这是必经之路。敏态阶段允许一定程度的“浪费”，因为探索的本质就是试错。而当方法被验证、进入稳态阶段后，企业就可以通过优化路径、选择不同尺寸和能力的模型，大幅降低成本。

“企业真正关注的是端到端完成事情的整体成本，而非单Token成本。”谭待强调，“若单Token成本低，但用较差的模型需要消耗10倍甚至20倍Token还做不出结果，只会造成浪费。”

这个观点，直击当前大模型价格战的核心盲点。

AI马拉松
我们刚跑完“一公里”

人类文明史上，有过几次关于“度量”的根本性转变。

工业革命时期，人们开始用“千瓦时”衡量一个国家的实力。发电量、钢铁产量、铁路里程——这些冰冷的数字背后，是蒸汽机的轰鸣、流水线的转动、城市的灯火通明。彼时，谁消耗更多的电力，谁就掌握了现代文明的钥匙。

信息革命时期，度量衡变成了“带宽”和“算力”。兆比特每秒、万亿次浮点运算，这些词汇定义了互联网时代的权力版图。硅谷的崛起，本质上是一场关于数据处理能力的竞赛。

而今天，一个新的度量单位正在浮出水面——Token。

它不是电，不是比特，而是人类知识与机器智能之间最小的“意义单元”。每一次Token的消耗，都是一次人与机器的对话、一次创意的生成、一次任务的执行。120万亿Token/日，这个数字的意义，不亚于百年前一座大型电厂的发电量。

谭待说，AI马拉松刚跑完“一公里”。

这既是一种清醒，也是一种宏大叙事中的从容。回看历史，电力从发明到真正重塑社会结构，用了近半个世纪；互联网从军用协议变成全民基础设施，也用了二十年。AI从2022年的ChatGPT爆发到今天，不过短短四年。120万亿Token，只是序章的序章。

当“养龙虾”成为白领的工作日常，当视频创作的成本趋近于零，当每个企业都有了自己的Token看板——我们正在见证的，不仅仅是技术的迭代，更是生产力底层逻辑的重构。

Token的背后，是模型，是算力，是数据，更是无数个被释放的人类创意。

回望历史，每一次度量衡的更替，都预示着一个新时代的开启。

从蒸汽机的马力，到电力的千瓦时，再到AI的Token——文明的进步，本质上是一场又一场“能量”形态的升维。而今天，我们正站在Token成为新通用度量的起点上。

至于这个时代将通向何方？没有人能给出最终答案。

但有一点可以确定：那些学会用Token丈量进步、用Agent扩展版图的企业与个人，将在下一个十年，拥有定义规则的权力。

至于未来会走向何方，就让我们怀着期待与忐忑的心情，拭目以待吧。

Seedance 2.0让视频生成跨越“恐怖谷”

全民都在“养龙虾”火山引擎的“龙虾”有什么不同？

火山引擎的“龙虾”方法论以及Token价值观

AI马拉松我们刚跑完“一公里”

Seedance 2.0
让视频生成跨越“恐怖谷”

全民都在“养龙虾”
火山引擎的“龙虾”有什么不同？

火山引擎的“龙虾”方法论
以及Token价值观

AI马拉松
我们刚跑完“一公里”