别再问我什么是AI Agent|蓝驰x火山活动回顾
2025-05-27 09:00 星期二

5月15日,蓝驰创投|不鸣创业营与火山引擎|V-START 加速器联合举办 「AI前沿,万物新生——智能体与多模态行业论坛」活动,聚焦智能体与多模态的技术演进与创业实践。

这是中国最大早期基金之一与最先进AI大厂共创的、面向行业的一次精选论坛。参与的嘉宾既包括字节跳动多个业务的一线同学——如Seed、飞书、即梦、Trae、火山引擎等,也有多位AI领域的蓝驰家族成员——如沐言智语、与爱为舞、VITURE、RockFlow等。同时,本次活动还吸引了来自智谱、影眸科技等明星公司的嘉宾参与分享。

原本只准备了80个座位的场地,因为吸引了近140位来自AI创业公司、字节跳动的观众而座无虚席,到场的多为创业公司一号位和字节算法、产品专家,与会者在free talk环节展开深入讨论。

蓝驰创投合伙人 曹巍

其后,蓝驰创投合伙人曹巍主持了智能体主题的圆桌论坛,飞书多维表格AI技术负责人邓范鑫,与爱为舞联合创始人王琳,沐言智语创始人张月光,VITURE创始人&CEO姜公略,RockFlow创始人&CEO Vakee参与讨论。大家就技术演进、产品定义、场景落地等关键问题做了深入思考。

邓范鑫:今年大家讨论最多的是 Agent 和 workflow 的关系,OpenAI 提出“Agentic system”的概念,引入“能动性”(injectiveness),即 AI 的自主程度。Agent 代表更高的能动性,workflow 则较低,两者之间还有过渡态,不同系统的能动性不同。

传统 RPA、BPMN 等是固定流程编排,而 Agentic system 的关键在于真正实现“面向目标”:从用户的主要目标出发,拆解为多个子目标,有的通过调用 API 或函数由 workflow 完成,有的则需具备能动性的系统处理。这样的系统才能真正完备:若所有子目标由 AI 自主完成,那就是 Agent;若全部依靠固定流程完成,那就是 workflow。

飞书多维表格AI技术负责人 邓范鑫

王琳:Agent 的核心有两个要素:第一,它能自主完成许多不确定性的任务不像 RPA 那样依赖预设流程;第二,它具备自我进化的能力。

张月光:理解 Agentic system 最直观的方式是看它是否具备一定范围内的灵活性——否则就是 workflow。传统 workflow 也能调用函数、工具,关键区别在于 Agent 拥有更灵活的决策机制,能根据变化的需求灵活选择工具。

另一个区别是 Agentic system 引入了更多原子化工具比如 Manus 的火爆就得益于其基于 code-react 的启发式编程,让 Agent 更高效地调用这些基础能力。

姜公略:行业普遍认为 AI 眼镜是 Agent 最佳载体主要原因有两点:一是眼镜可以 always on,几乎全天候采集数据二是它能获取手机、手表、电脑无法提供的多维信息

基于这些数据,Agent 可以代替用户完成不想亲自做的任务,同时提供情感陪伴。To C 场景下,Agent 的设计要注意几点:

  • 边界感用户需清楚它能做什么、不能做什么;
  • 分门别类如同老板身边的军师、司机、教练,每个 Agent 应明确其职责和适用场景;
  • 任务可靠性Agent 必须能高效、准确完成任务,而不是频繁反馈“抱歉、缺功能、缺数据”。

最终,AI 眼镜的长期价值在于形成数据飞轮:通过持续的用户交互与日常数据积累,反哺 Agent 系统,持续优化体验。

Vakee:我认为 Agent 与传统 RPA 或 workflow 最大的区别在于:每个节点都具备推理和智能能力,这是核心所在。Agent 的最大特点是:可推理、可演化、可实时计算,非常适合复杂、个性化场景。传统产品设计追求“最大公约数”,而 Agent 则支持高度个性化——你越有自己明确的偏好,它的表现就越好。

邓范鑫:有两个典型特征能判断哪些场景适合做垂直 AI:

  • 知识壁垒高这个领域的数据通用大模型看不到、学不到,比如专业行业里的非公开数据。
  • 多样性诉求强哪怕多个模型能力类似,不同模型的风格也会不一样。有些用户不喜欢 GPT-4o 的输出风格,就希望看到不同模型、不同视角下的答案。

所以如果未来你能在创意或表达类领域,提供差异化风格和更多可能性,依然是有价值的。

王琳:垂直 Agent 在很多领域是不可替代的。以我熟悉的教育行业为例,只有掌握学生的深层数据,比如个人情况、学习过程,才能真正提供有价值的服务。这些领域的数据不仅专业性强,而且通常是私有化的,而这些私有数据又恰恰是提升 Agent 质量的关键。它还能进一步形成数据飞轮,让 Agent越用越好。

与爱为舞联合创始人 王琳

张月光:我非常看好垂直 Agent的发展。当前行业面临两个核心问题:

一是交付质量不够很多 Agent 还停留在“玩具”阶段,难以真正满足用户需求;

二是用户不知道该如何描述任务面对空白输入框时很难表达清楚自己的需求。

这两个问题的共同解法是“走向具体场景”在明确场景中,垂直 Agent 的效果几乎一定优于通用 Agent。用户打开某个垂直产品时,至少知道自己要解决什么问题,Agent 获取上下文也更容易,体验会更自然。所以我认为,未来不会出现一个 Agent 能覆盖所有任务的局面。

当然,通用 Agent 也有价值类似移动互联网时代的搜索,通用 Agent 能承接长尾、低频、不可预知的需求可能最终形成一个占据主导地位的“统一入口”。比如腾讯也在探索通过微信 + 小程序生态构建统一 Agent System,这说明未来也可能通过平台化生态满足长尾需求。

总的来说,高频场景由垂直 Agent 主导,低频场景由通用 Agent 收口这将是 Agent 生态的长期演化方向。

姜公略: Agent 的演化方式很像大自然的结构既有通用基因(如 DNA),也有不同物种和个体的多样性。在 AI 时代,也会是通用模型与专用模型共生的格局。

Vakee:我们用 Agent 其实就是为了解决需求,而需求大体分两类:

  • 不能出错的高风险需求比如金融、医疗,这类需求必须做到 70 分以上,错一次可能造成严重后果。
  • 容错度高的低风险需求比如写邮件、做商务,这类需求 60、70 分就够用,甚至更多是为了省力。

结论很明显,高风险、对准确性和时效性要求极高的,必须用垂直 Agent。低风险需求则完全可以用通用 Agent,能大幅降低使用门槛和成本。

邓范鑫:从飞书自身来看,我们需要一个聪明的 Agent 来协助搭建系统。如果基座模型在多模态能力上有大幅提升,比如可以理解和生成图文、代码并进行界面验证,Agent 就能更好地运行起来。但挑战在于,基座模型对我们这个业务系统搭建领域并不了解。如何让它具备相关经验,是我们当前要解决的问题。

从客户这一侧看,他们同样希望使用 AI 能力去搭建自己的垂直 Agent。理想状态是,模型能提供良好的微调能力,甚至用极少的数据就能达到预期效果。当然,这里存在一个跷跷板:如果效果足够好,客户甚至就不需要再微调。

王琳:我们对基座模型的诉求主要来自两个核心应用场景:

第一是提升内部系统效率教育行业是个重决策的复杂系统,背后有一整套复杂的 B 端业务链条,涉及很多角色。我们希望通过 AI 尽可能自动化这些环节。比如打电话这个场景,AI 目前能胜任简单通知,但要是跟客户聊半小时,仍然容易卡壳。如果大模型在语言理解或多模态技术上有突破,对我们会有很大帮助。

第二是在 ToC 端打造 AI 老师。如果基座模型在长视频生成、稳定视频输出、内容生产,尤其是长期记忆能力上能有显著提升,将极大增强 AI 老师的效果,这也是我们非常期待的几个方向。

张月光:第一是模型的个性化能力现在很多应用场景卡住的不是内容质量,而是它与用户无关。这其实是一个系统性问题,涉及模型、交互过程中的信息收集、用户记忆管理、上下文长度和压缩等多个层面。最终我们期待模型的输出能真正“贴合我”,这是我很关注的方向。

第二是低成本、长时长的视觉信号采集和理解能力。我们每天接收的大部分信息其实是视觉信号,占比大概 85%。如果 Agent 在视觉上不够强,那它的理解其实只能停留在那 15% 的非视觉输入上。所以视觉能力的提升,我认为是非常本质的突破方向。

沐言智语创始人 张月光

姜公略:刚才提到的“更低成本、更好看、更易长时间佩戴”的眼镜,其实正是我们正在研发的方向。这类眼镜不仅能收集更多维度的数据,也将成为未来推动 Agent 和基座模型能力提升的重要手段。

首先,如何让小模型具备更强的能力与效率这一点意义重大。

我们也期待基座模型在今天不具备的数据维度上进一步突破,比如双目视觉与多维空间理解能力。当前大模型多数基于单目视觉训练,而人类感知世界靠的是双目、多模态输入。这部分能力如果通过眼镜采集到的数据来训练,将开启新的模型进化路径。

此外,更轻、更省电的感知方式也值得关注,比如用 IMU 替代双目摄像头实现空间理解、用 VAD 采集音频、用事件相机取代传统摄像头。这些超低功耗的感知方式为模型提供了非全量但高度关键的数据,能支撑更低成本、更高效的智能推理。

未来,大模型将不仅依赖互联网数据,而是融合这些来自物理世界的新模态数据,从而拥有更真实、更立体的理解能力。这将是下一代智能系统的关键突破点。

Vakee:我们最直接、最核心的诉求就是速度。因为我们的系统架构复杂、节点众多,每个节点都要实时计算,所以只要模型速度提升,对整体系统效率的提升就是成倍的。毕竟在我们的场景里,效率 = 准确性 × 时间,准确性可能还要靠我们自己优化,但时间这部分完全可以靠基座模型来提升。随着模型能力增强,我们的服务对象也会随之扩展:从现在只能服务量化交易用户,到未来可以覆盖专业投资人,甚至可能有一天服务整个华尔街。那部分专业用户的交易频次和对信息处理的要求都非常高,而且他们的交易量往往占据整个市场的绝大部分。

RockFlow创始人&CEO Vakee

Vakee:我认为 Agent 在我们产品体系里的作用是跨时代的改变,尤其在 ToC 的交易类应用场景下,它是提升产品体验和转化的关键突破口。过去很多人不会用 Excel,不代表他数学不好;同样用户不会操作金融工具,不代表他没交易能力。这是门槛问题,不是认知问题。而 Agent 能直接用自然语言理解用户意图,并完成交易闭环,它让这类表达型用户变成行动型用户,推动了真正的交互转化。所以对我们来说,Agent 不是辅助,而是未来构建壁垒的核心路径。

姜公略:今天人们用眼镜“看得清”,未来他们用眼镜“理解世界”。这其实是一个人机交互范式的根本转变传统设备(手机、电脑、手表等)是用户主动把需求拆解成点击行为;但在 Agent + 眼镜形态下,用户只需要自然表达,系统就能理解并完成执行。

最重要的区别是在手机时代,用户的需求数据沉淀在各个 App 层。而 Agent + 眼镜时代,用户的原始需求数据沉淀在系统/硬件层并通过 Agent 做理解和分发。

这对创业公司来说意味着:越早启动、越快跑通用户行为和数据飞轮,就越有可能构建起系统级的壁垒。

VITURE创始人&CEO 姜公略

张月光:我认为Agent 的体验打磨本身就是一种壁垒虽然市面上常有人说 Agent 就是套几层模型、搭个工作流、配个工程框架,但我们在实践中发现,哪怕方向一样,工程实现、产品体验、用户需求匹配的每个环节差 10%,最终叠加出来就是巨大的体验差距在真实系统中把模型能力“用好”,把体验设计“做对”,本身就是一件非常难、也非常有壁垒的事情

王琳:中短期壁垒在于:解决好 AI 与人的协同合作我们希望 Agent 能尽可能复用人的工作,甚至逐步替代,做到丝滑过渡。这一过程的关键,是打造出既高效又适应人的协作方式。长期壁垒在于:随着用户数量增加,基于我们私有数据的持续积累与训练优化让 Agent 的表现越来越好,从而构建强大的数据壁垒。

具体落到实际,我们的业务复杂、岗位众多,AI 的参与正逐步从辅助走向主力最早AI 只是辅助人类销售,接着AI 能生成高质量销售话术。现在AI 已能打电话、做个性化推销,未来AI 有望承担 90% 以上的销售任务。

这个过程中,每一阶段AI 与人的协作方式都在不断演化而这种协作模式的探索和打磨,正是我们持续构建壁垒的关键路径。

邓范鑫:AI的价值聚焦于易用性AI chatbot 的出现让大家思考它是否会取代传统的可视化UI。经过长时间的讨论,我们认为完全用chatbot替代可视化界面存在问题。人毕竟是视觉动物,可视化交互,比如表格,几十年来依然广泛使用,说明它对人的结构化思维非常重要。我们在做可视化工作流搭建时发现,虽然对有经验的人来说很简单,但大量普通用户还是不会搭建复杂的流程,门槛依然较高。

相比之下,语言表达需求对他们来说更自然和容易所以用户会根据场景选择更方便的交互方式。综合来看,未来的产品形态很可能是一种平衡,既保留可视化界面带来的结构和认知优势,同时让用户能用语言更便捷地完成操作而不是完全用chatbot取代传统界面。