实在智能发布通用智能体:一句话操作一切软件
2025-03-21 17:30:06
  • 0
  • 0
  • 0

3月20日,AI赛道准独角兽实在智能以一场现象级发布会,向行业投下重磅炸弹——通用智能体实在Agent正式登场。

在这场时长1个半小时的科技秀场中,不仅验证了“数字员工自主完成复杂办公任务”的可行性,更通过真实场景演绎,让业界看到AI Agent从实验室走向产业落地的关键路径。

全新的实在Agent在步骤拆解、组件生成、通用理解等多项测试中表现惊人——一位国内AI公司的技术人士谈及实在Agent给他带来的震撼,“这意味着通用Agent在复杂场景的落地不再是纸上谈兵。”他说。

重构人机协作
通用智能体的破局之战

在3月初,Manus火了后,大家开始关注一个新概念:通用Agent。支持者认为它将重构人机协作模式,反对者则质疑其落地可行性。

那什么是通用Agent?从定义来看,通用Agent是指能够跨领域、多场景自主完成复杂任务的智能体。与专用Agent(如客服机器人)不同,它不依赖预设规则,而是通过自主感知、决策和执行,动态适应环境变化并解决多样化问题。

举个例子:你是一名财务,晚上突然接到老板要求:明天上午10点前,要一份上季度的财务分析报告。过去,你得先登录后台导数据、整理成图表、放进PPT,再检查格式,最后交给老板,估计要通宵完成。

如果有一个通用Agent,只要把数据下载下来,交给它,然后说:帮我整理成一份数据可视化报告,下载到桌面。

接下来,通用Agent会自动分析数据、生成图表、总结结果并提出建议,最后下载到桌面。从头到尾,你只需要提供数据,告诉通用Agent要做什么,剩下的繁琐任务都由它完成。这是理想状态下。

从当前技术实现层面分析,市面智能体产品主要采用两种架构模式:端到端的集成方案或大模型外挂API接口的混合架构。

这类解决方案在处理复杂任务时存在明显的效率瓶颈——多模态模型协同需要经历数据格式转换、接口协议适配、跨平台调用等中间环节,导致任务响应时间普遍超过30分钟。

并且,在传统封闭的C/S架构(如OA系统)下,跨系统操作链路存在天然断点,容易出现服务调用超时、数据解析错误等异常情况,难以实现跨平台系统的无缝协同。

不过,在实在智能发布会现场,工作人员演示了一段智能体操作金蝶云系统的视频引发热议:只需输入“下载金蝶云‘云朵便利店’的销售订单列表”,实在Agent便自动完成登录、查询、下载等5个步骤,全程无需人工干预。

技术底座揭秘
三大创新架构构建护城河

这种类人级的任务处理能力,向全球开发者与企业用户展现了实在智能在通用智能体赛道的最新突破。据数据猿观察,实在Agent在三个关键维度实现突破:

1. 类人级任务拆解:基于自研TARS大模型的思维链推理,提供了趋近人类思维的理解能力,无论是清晰的用户命令,还是模糊的一句话描述,它都可以拆分成多个可以执行的子任务或者步骤;

2. 跨系统无缝链接:通过自研的流程自动化引擎和多模态大模型TARS-VL,提供了对数字化办公世界的网页、软件、接口、文档、SDK等任意工具的链接能力;

3. 真实场景适应力:通过自动仿真技术开展特定场景的强化训练,优化了识别与拆解效果,提升了在真实业务场景中的落地应用能力。

实在智能创始人兼CEO孙林君表示:“实在智能通过三大核心技术突破,可为企业智能化转型提供可落地、可进化、可扩展的全栈式解决方案。”

在技术攻坚与创新层面,实在智能还引入“可变形矩形卷积和卷积核分配”等创新性技术理念,并以此为基础成功训练出多个辅助检测模型。

在针对各类屏幕GUI元素理解和定位能力的测试集中,TARS-VL表现不俗。例如,在两个开源的benchmark数据集——mind2web和screenspot上进行测试:

● 在 mind2web 数据集上,TARS-VL 在 Task、Domain 和 Web 三个场景上的元素匹配准确率,比 GPT-4o、Ominiparser、Claude 等模型高出 10%;

● 在 screenspot 数据集上,TARS-VL 的元素匹配准确率也保持遥遥领先。

Benchmark数据集是人工智能领域用于客观评估模型或系统性能的标准化数据集,其核心作用类似于教育领域的“标准化考试题库”。

产品化突破
企业级智能体的落地范式

顶尖的技术,只有搭载于出色的产品之上,才能充分释放其价值。

那么,究竟何种智能体产品,能让用户毫无门槛地轻松上手,实现开箱即用,使用户能够直接向智能体清晰表述诉求,进而由智能体代替用户操作那些复杂晦涩、难以驾驭的系统呢?

在发布会上,实在智能对实在Agent智能体的创新特质与产品优势展开了细致入微的解读。数据猿将其内容梳理如下:

1.产品即装即用,用户只需下载客户端,完成安装后无需邀请码,即可直接登录免费畅享服务。通过简单的Ctrl+SPACE组合键,就能实现一键唤醒与隐藏智能体的操作;

2.全程实时透明,执行过程中实时呈现进度条与操作日志,用户可随时灵活暂停任务、调整参数,或是切换执行路径,无需繁琐地从头再来;

3.功能灵活调用,像RPA流程、大模型、知识库等功能,皆可如同搭积木一般,轻松完成智能体的搭建工作。

对于科技公司而言,GTM是新产品的商业化验证。实在Agent智能体,不仅是个人助理,更是企业级智能体解决方案——企业大脑。

企业只需将文档、数据、系统沉淀到实在智能体平台,即可实现资产数据化。如此一来,企业内部的每一位成员,都能借助实在Agent,便捷调用企业知识库以及已构建完成的业务自动化流程,从而形成企业独有的 “中央处理器”。

在实在智能发布会的演示环节中可以看到,实在 Agent 不仅接入了自家的 TARS 大模型,还整合了 DeepSeek、智谱 AI、GPT、千问等一众主流大模型。企业能够依据不同模型在各自擅长领域的优势,灵活进行切换使用。

发布会临近尾声时,实在智能展示了实在Agent在手机、车机等移动设备端的实用全新功能,其表现同样令人拍案叫绝。

战略布局的双轮驱动

实在智能从2023年推出TARS-RPA-Agent,直至今日正式面向全体AI爱好者发布通用智能体实在Agent,这一过程可谓是“两年磨一剑”。

孙林君向数据猿透露:“实在智能的愿景,是让每一个人、每一家企业都能拥有专属的数字员工,并且无需依赖 API,就能实现跨系统协作。”

对于未来,孙林君有两项短期规划:

其一,持续大力投入Agent的研发工作。他坦言,当下实在Agent尽管已经能够在复杂场景中实现自主规划与执行任务,但仍存在大量尚未商业验证的领域,还需要投入相当的时间进行深度打磨与持续迭代。

其二,全力推进出海战略。实在智能在过去两年间,已陆续在日本、马来西亚设立子公司,成功积累了数十家海外客户,成绩颇为亮眼。下一步,实在智能将积极与更多国际企业展开合作,促进产品的深度融合,借此实现“借船出海”。

放眼更为长远的未来,孙林君期望实在Agent能够成为数字员工的标志性代表,如同人们提及手机,便会自然而然地联想到华为、苹果、小米那般。

在数据猿看来,实在智能的这次突破在于解决了通用智能体的“操作性智能”难题——传统AI多在感知与认知层面突破,真正打通了从意图理解到物理操作的"最后一公里"。这标志着AI Agent从辅助工具进化为生产力主体,对企业数字化转型具有里程碑意义。

随着实在Agent开启公测,一场关于未来工作方式的革命已拉开序幕。当数字员工能自主处理80%的规则性工作,人类价值将向更高维度的创意、决策、情感连接迁移——这或许才是AI技术革命的终极要义。

 
最新文章
相关阅读