5月15日,蓝驰创投|不鸣创业营与火山引擎|V-START 加速器联合举办 「AI前沿,万物新生——智能体与多模态行业论坛」活动,聚焦智能体与多模态的技术演进与创业实践。
这是中国最大早期基金之一与最先进AI大厂共创的、面向行业的一次精选论坛。参与的嘉宾既包括字节跳动多个业务的一线同学——如Seed、飞书、即梦、Trae、火山引擎等,也有多位AI领域的蓝驰家族成员——如沐言智语、与爱为舞、VITURE、RockFlow等。同时,本次活动还吸引了来自智谱、影眸科技等明星公司的嘉宾参与分享。很高兴我们创造了这个汇聚多元视角的场域,在技术快速演进的关口,直面行业最关隘的议题,做了一次高质量的探讨。
原本只准备了80个座位的场地,因为吸引了近140位来自AI创业公司、字节跳动的观众而座无虚席,到场的多为创业公司一号位和字节算法、产品专家,与会者在会后的free talk环节展开深入讨论。
蓝驰创投投资总监 陶也了
其后,蓝驰创投投资总监陶也了主持了多模态主题的圆桌论坛,即梦故事Agent产品负责人梅园,即梦战略孙乙,智谱AI多模态模型产品总监Eddy,头部AI创业公司产品负责人张心皓和影眸科技CTO张启煊参与讨论。大家就技术演进、产品定义、场景落地等关键问题做了深入思考。
梅园:对于即梦来说,提升模型的感知能力是核心目标。只有当模型能真正理解现实世界的复杂信息,才能在决策时更贴近人类思维,实现更智能、更自然的交互体验。这会让即梦不再只是一个简单的工具,而是能够扮演更具有人格化、陪伴感的“朋友”或“助手”角色,更好地服务用户需求。
即梦故事Agent产品负责人 梅园
孙乙:不考虑技术范式变化,仅从模型交付结果的角度看,目前图生成大致处于GPT-4到O1的阶段,而视频生成仍相对早期,大概在GPT-3.5到4的水平。
以语言模型为参照,模型能力的演化可以划分为三个阶段:最初只能“玩一玩”(如GPT-3.5主要强化对话能力)、随后能完成任务的“片段”(如GPT-4开始具备代码生成等实用功能)、再到开始能“交付完整任务”(如O1及后续模型开始具备端到端交付复杂任务的能力)。
图像生成也经历了类似路径:从Midjourney V4刚能生成图像、到V5/V6能完成拍照级别的任务、再到当前模型(基于模型的推理能力和生成能力的提升)可以交付完整的设计方案,如海报、商品图、营销视觉稿等。
而视频生成目前仍处在“片段生成”的阶段,虽有如Runway Gen-4、Veo2等模型在向高质量镜头生成迈进,但要实现像图片设计那样“理解-生成-编排”一体的完整交付能力,还需模型能力的进一步突破。
未来,视频生成的发展很可能依赖一个具备强大世界知识和视觉理解能力的原生多模态模型,无论是将这个模型作为视频创作的大脑还是模型一并可以完成生成任务,这样才能真正支撑端到端的应用。
即梦战略 孙乙
Eddy:不同业务场景对视频模型的能力需求其实差异很大。电影画面要能登上大银幕,角色需要有情感和表演,且价格敏感度较低;而短剧更看重短时大量生产的规模和成本控制,同时需要极致的情绪表达。广告更关注精美度和品牌LOGO的统一呈现,营销内容对口型同步和推理速度的要求特别高。游戏行业则偏向于实时互动,这类产品对实时性要求高,比较适合用自回归模型。至于究竟是成为工具、社区或是其他形态?我认为至少先在某一个领域达到SOTA。
张启煊:从技术角度看,最早多模态AI通常是单一模态输入对应单一模态输出,但后来发现单一模态输出难以满足复杂需求,需要更多模态输入以更精准控制输出。
但即便如此,之前的方法在确保AI完全按指令生成上仍存在不足。今年GPT-4o给出了新的答案:不仅输入多模态,输出也多模态,这样可以显著提升AI对指令的理解和执行能力。GPT-4o虽然在图像生成质量上没有爆炸式提升,但在输出可控性上有大幅进步,使非专业用户无需复杂操作,也能获得更符合需求的图像。
我认为这就是2025年多模态融合的大趋势:让更多用户摆脱复杂工作流,直接通过自然交互获得想要的结果。
目前来看,语言模态无疑是全人类做得最成熟、最强大的模态,它拥有最大的基础模型、最好的效果以及最广泛的受众,因此大家把语言作为基础是很自然的。但之前除了语言模态主要以GPT架构为主,其他模态,比如图像和视频,多数还是基于Diffusion或Diffusion Transformer架构。接下来很可能会出现一个重要迁移趋势,各种模态都会向自回归(AR)架构靠拢,包括3D领域也在往这方向演进。
回头看GPT-4o最初发布时的Demo视频,里面已经展示了图像生成能力,甚至还有3D生成的演示,只是当时大家以为那是用其他工具(比如Daily 3D)合成的多图效果。其实这或许说明它已经具备了多模态生成能力,只是还没达到生产级别的成熟度,这也是我们接下来非常期待的方向。
张心皓:2024年,行业内普遍把多模态直接等同于多模生成。但过去半年,随着强化学习成为备受关注的重要技术路径,多模态的发展开始趋于收敛。我认为,多模态更准确的描述是多模态理解与生成。这是因为核心问题在于我们如何去理解多模或多模生成的产物。
如果把多模生成简单视作不同模态之间的完全相关性,那么走纯生成路线可能没问题。但如果承认多模世界中存在因果关系——无论是视频中帧与帧之间,还是单张图像中前后像素的因果联系——那么因果性就成了多模生成的关键。
理解必然离不开语言。因为无论是人类对事物因果关系的理解,还是对图像的因果推理,背后都离不开某种语言逻辑的映射。所以,只要我们认定多模是由因果关系构成,而这种因果关系的理解高度依赖语言基础,我相信这将成为2025年一个非常明确的趋势。
梅园:在我们日常评估多模态大模型(尤其是视频生成与创作类任务)时,会遇到几个明显挑战:第一是评估的主观性。比如审美、情绪表达这类维度,本身就没有统一标准,存在很强的人类偏好(bias),千人千面。哪怕是文学作品的好坏,不同人看法也会完全不同,和后验的数据分布不一定一致。所以我们在做的事情是:尝试把这些更偏感性的维度,用工具和流程尽可能量化。我们发现,这种人机协同方式是有效的,比如:将创作过程中的“右脑工作”左脑化;用模型扮演“左脑”角色——做调研、推理、规划;人则提供灵感主干,指引方向。
第二是评估标准体系的构建。对于每一个具体任务都进行详细的指标拆解:把一个大目标拆成多个可量化小步骤;引入专家意见,总结出一些可通用的“套路”;部分内容还能通过验证后,直接用于模型训练中。
所以我们评估一个模型好不好,不是靠单一标准,而是结合任务特点、专家知识、流程拆解来进行。这套评估体系,也是我们团队内部不断优化的重要方向。
孙乙:首先,多模态模型的评估任务本身也有“难度梯度”:比如视频生成,在基础层面,其实是相对容易评估的:是否运动稳定?是否符合基本物理规律?是否存在主体崩坏?这些维度相对明确、可描述,评估起来也更客观。
但随着模型质量提升、用户期待变高,很多评估维度开始超出了普通人认知的边界。这里我们看到一个潜在解法是引入高质量样本作为范例,而非设定硬标准。可以作为审美模板,让模型通过RL的方式学习审美模式,从模仿优秀中得到优化。
Eddy:我们过去在拍电影、做内容时,其实就有一套判断标准——除了技术侧关心的语义依赖、物理合理性,我们更关注:光线和主体是否合理地呈现在画面中;角色的表演是否真实、传神;整体画面的通用美感:如色彩、光影、构图等维度能否达标;以及在不同题材、情境下模型的表现能力——比如是否擅长表达情绪?能否在悬疑、亲情等风格中自洽?
这套从创作实践中抽象出的维度,其实可以很好地反过来指导我们如何更系统地评估模型。因此,我们在内部做评估时:会优先通过这套创作-感知维度的体系快速判断模型表现;再用一些行业广泛认可的Benchmark评估体系进行补充验证,确保评估结果具有通用性和参考价值;同时也会持续关注行业最新进展,比如Pika、Runway、Open-Sora等开源模型的演进节奏,看看是否有值得借鉴的评估方法或方向。
从整体看,我们认为:把行业场景和一线创作经验沉淀成结构化的know how,然后反馈进模型训练,是一个更现实也更高效的方式。这种“内容反哺模型”的路径,能帮助我们走得更快、更稳。
智谱AI多模态模型产品总监 Eddy
张启煊:模型评估的问题远不止是大模型时代才有的——在传统的识别、分类任务中就已经暴露出来了。最早的时候,大家跑ImageNet排名、打分。但当模型性能逐步超越ImageNet的人类标注准确率时,反而会出现一种“分数上去了,性能却下降了”的现象。所以后来基本上也没有人再认真跑ImageNet打榜了。进入生成式模型时代后,评估问题变得更棘手。
我们在做3D生成时感受尤为明显:早期任务是3D重建,这个还相对好评估,比如可以通过不同视角的投影结果与原图计算误差;但进入真正的3D生成阶段后,问题变复杂了:你甚至不知道输入图像的相机内外参,完全无法精确衡量生成结果的合理性;开始我们尝试用CLIP之类的外部模型做辅助评估,比如计算生成结果和输入图像、文本的相似度;但很快也发现这条路不太行了:2023 年我们做Clay(一个3D大模型)的时候就发现,CLIP等proxy模型的判断标准开始失效,不能稳定支撑评估逻辑。
所以到了现在,我们基本采取的方式是:完全转向用户真实反馈为评估依据。具体做法是:在产品中悄悄加入AB Test,把新模型以不同分组上线,看哪个模型的用户“确认率”(confirm rate)更高。说白了就是——我们已经不再相信任何通用指标了,只看真实用户的偏好表现。这就是3D多模态领域评估的现状:没有标准指标,只靠用户行为闭环。
影眸科技CTO 张启煊
张心皓:评估指标本身不该成为目标,而应该从用户场景出发,反向定义模型评估逻辑。比如说:在某些应用场景下,用户可能并不关心分辨率或者美感,他们更在意的可能是可控性;而另一些场景里,用户反而特别在意的是这个视频能不能营造出特定氛围感,或者说模型是否真正理解了内容。我们不会为了追求某个评分而优化模型,而是从用户需求出发,把评估逻辑场景化、任务化。
梅园:最近确实观察到很多技术进步,模型基本上是每个月都会有更新。但我的观点是,除非有特别重大的突破,其实没必要追逐每一次小的技术升级。
就目前来看,即使是当前通用模型的能力,在产品侧的挖掘也还远没有达到上限。比如我们今年在做Agent发现,一个新的技术框架其实可以进一步挖掘模型潜力,也能够在应用上打开新的市场空间。
所以我觉得,第一,做产品时我们要思考:在当前的产品需求下,如何把现有基模能力发挥到极致。第二,要对技术的发展周期和方向有一定判断。比如即使通用模型进步很快,它其实依然覆盖不了很多垂类的PMF场景。第三,从产品角度看,理解用户需求、探索AI Native的产品范式、打造新的用户心智更为重要。
我们希望开拓的不是存量市场,而是能通过产品与用户的交互,挖掘出当下市场尚未被满足的需求。这也是我们在这个过程中沉淀和积累的关键:对用户、对场景、对产品跑通商业化链路的理解,以及建立用户的粘性和情感连接。这些其实并不完全受限于通用模型的能力演进,而是值得我们尽早、持续投入的方向。
AI 视频创作是蓝海市场。短期来看,我们希望先做好更易用的工具,降低整条 AI 创作链路的门槛;随着工具能力变强,用户变多,我们也有机会发掘出那些必须依靠 AI 才能做出的差异化内容。
但如果我们只是做工具,那就始终只是生产链条中的一环,是可以被替代的。所以从更长期的角度看,我们希望能构建一个AI 社区,让更多用户参与到“玩”的过程中,通过他们之间的互动和社交,进一步建立起用户对平台和产品的依赖感。
孙乙:其实做工具和做社区并不是一个二选一的问题。做社区,核心在于你能不能聚集某一类人、提升某一类内容的浓度。这就决定了社区的氛围。比如抖音是一个超级大的平台,但产品经理还是会去用即刻,因为即刻上都是产品经理,内容高度相关,所以它才构成了一个产品经理的社区。所以说,社区更依赖的是你对某类用户需求、某类内容形态的深刻洞察和密度的打造。而工具则不同,它更侧重于你对某一个具体创作链路或生产链路的理解和认知深度。
因此,我觉得关键还是回到创业者自身:你对哪方面真的有深度洞察?就我们团队来说,其实也是工具和社区两个方向在并行探索的状态。
Eddy:关键在于当前的视频模型仍处在高速发展之中。它就像是一个六七岁的孩子,你可以说他是个天才,在某一道数学题上答得很好,但整体上他仍然处于牙牙学语的阶段,和行业真正的实际需求之间还有不小的距离。所以我更倾向于的策略是:等它在某一个具体领域、某一类任务上,真正展现出不亚于人类创作者的能力之后,再去找到一种新的产品形态来落地。这种形态可能是:既具备工具能力,又天然带有娱乐化基因的一种产品路径。
张心皓:我觉得做产品不能心存幻想。很多产品层的feature,早晚都会被更强的模型能力覆盖掉。过去一两年的发展其实已经不断在验证这个趋势。但即便如此,我们也不应该因此停止对产品的探索。我认为哪怕只是做出一些阶段性的带差,能够比当前模型更好地满足某类用户需求,其实就已经非常有价值了。特别是在大模型时代,如果你太容易陷入一种终局导向的思维,会觉得什么都做不了。但如果我们放下这种执念,从“我此时此刻能为用户解决什么问题”出发,就总能找到产品上的突破点。
头部AI创业公司产品负责人 张心皓
无论是之前的Manus,还是最近刚出来的Lovart,其实都在不断印证这个逻辑:只要你找到当下模型和用户之间的带差,并用产品功能把它填补好,就是一个很好的机会点。