过去的这个夏日，蓝驰家族AI探索到哪了？｜蓝驰家族头条

2025-09-08 10:52 星期一

AI狂卷的浪潮和过去的夏天一样热烈。从AI Agent的不断进化，到各类开源模型的发布、具身智能机器人的场景应用……我们感受到AI在各领域的加速渗透，也清晰看到 AI 创新正在从实验室快速走向产业一线。

今天，我们梳理了近期蓝驰家族成员在AI领域的成长轨迹，为你呈现AI前沿的夏日速览。

8月20日以来，VLA司机大模型随理想i8同步开启用户交付，带来了全球首个基于VLA大模型的辅助驾驶，并将于9月10日开启全量推送。VLA随理想i8上市交付后，辅助驾驶每日使用率提升3倍，累计里程渗透率提升2.2倍，泊车每日使用率提升2.1倍，也意味着VLA司机大模型成为了用户真的爱用且好用的辅助驾驶。

8月21日，理想同学基座模型MindGPT 3.1正式发布。作为具备极速推理能力的智能体语言模型，理想同学智能体具有三个特点：自主使用工具、完成复杂任务、专属的记忆理解。在智能体时代，模型即智能体，MindGPT会持续推动智能体语言模型的技术突破，自主规划决策、调用工具并产生行动，进而自主解决问题，实现从认知到执行的闭环。

7月11日，Kimi K2模型正式发布并开源。Kimi K2是一款具备更强代码能力、更擅长通用 Agent 任务的MoE架构基础模型，总参数1T，激活参数32B。

在SWE Bench Verified、Tau2、AceBench等基准性能测试中，Kimi K2均取得开源模型中的 SOTA 成绩，展现出在代码、Agent、数学推理任务上的领先能力。Kimi K2用MuonClip优化器稳健支撑万亿参数模型训练，显著提升token利用效率。结合大规模Agentic数据合成与通用强化学习，模型在通用智能能力上持续进展。

Kimi K2的发布也引发了世界范围内的高度关注。全球顶级科学期刊英国《自然》杂志网站7月16日发表文章，盛赞这次模型发布为“又一个DeepSeek时刻”。

体验链接👇

https://kimi.com/

模型及fp8权重文件开源链接👇

https://huggingface.co/moonshotai/Kimi-K2-Instruct

今年4月，Genspark Super Agent正式上线。该智能体采用MoA（Mixture-of-Agents）系统，整合了9个主流模型与80个工具，能理解用户意图，自主规划执行任务，支持多模态任务处理，包括旅行规划、视频创作、学术研究等需求。在权威GAIA基准测试中，Genspark Super Agent以98.5%的任务完成率登顶，成为全球首个无需邀请码即可注册的全功能 AI Agent。

Genspark Super Agent上线以来，先后推出多个子代理（sub-agent），丰富内置功能模块：

Genspark AI Call：支持从需求理解到电话执行的完整闭环。用户仅需输入自然语言指令作为语音交互子代理，负责电话预订、商务沟通等任务，调用语音合成（TTS）、自动语音识别（ASR）模型及电信 API 完成闭环；
Genspark AI Docs：只需告诉 Genspark需求，即可在几分钟内亲眼见证完整且专业设计的文档呈现。这也是世界首款也是唯一一款原生支持富文本和 Markdown格式的AI文档工具，并支持格式间的即时转换；
Genspark AI Pods：只需用户提供简单指令，AI系统就会立即处理请求，完成内容分析、研究处理、音频制作、Host Generation等步骤，几分钟内用户即可获得完整的、专业级的播客内容；
Genspark AI Meeting Notes：全球首款适用于 Apple Watch 的 AI 会议笔记工具，通过与Genspark Super Agent的紧密集成，用户只需在Apple Watch 上双击或在手机上单击一下，即可将任何会议转换为全面、专业的会议笔记；
Genspark AI Drive：世界上第一个完整代理下载代理无缝集成全新Genspark AI Drive，只需一个命令，即可下载、整理和交互任何文件，让用户能够以惊人的速度和准确性收集、整理和管理来自网络的内容；
Genspark AI Developer：全自动编程 Agent，支持从需求分析到代码生成、部署的全流程自动化。用户可只需通过自然语言描述需求，就可在10分钟内生成含前端界面、后台管理系统及支付接口的完整项目，并集成GitHub版本控制功能；
Genspark AI Designer：通过整合文本语义编码器与视觉特征提取器，完成品牌全案设计，支持从LOGO与印刷、产品与包装到网站app、广告社媒的一站式生成，消除了设计障碍，让每个人都能不受技术限制地构建自己的愿景；
Genspark Clip Genius：从播客摘要、体育片段、游戏蒙太奇到个人Vlog，Genspark Clip Genius通过智能内容分析、巧妙的故事设计、精准编辑与优化、专业后期整合等步骤，只需用户一次提示即可编辑任何视频，并且从分析到最终渲染，能够在几分钟内自动完成。

立即体验Genspark Super Agent👇

https://www.genspark.ai/

6月10日，Genspark再次上新一款颠覆性的全代理AI浏览器。Genspark browser把AI直接嵌入到每个网页中，让浏览器本身就具备了思考和行动的能力，将各种常用的工具和应用都连接起来，形成自动化的工作流，提供购物比价、视频总结、Autopilot Mode甚至让浏览器自己可以刷微博、整理信息，甚至制作个人播客。

AI时代的浏览器应该是什么样？Genspark的尝试给出了一个有趣的答案：浏览器不应该只是一个”窗口”，而应该成为一个真正的智能助手。

8月，智元机器人重磅推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner。不同于传统“数据-训练-评估”割裂的流水线模式，GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构，使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

7月7日，智元发布灵犀X2-N机器人。该机器人最大的特点之一就是能够在双足和双轮形态间自由切换，足式状态下，灵犀X2-N能够盲走台阶，手持12斤重物；切换至轮式状态下的灵犀X2-N则能够应对单边桥、斜坡等复杂地形。

在2025 WRC期间，全球首个城市级、常态化运营的人形机器人示范区正式落地海淀，银河通用为城市生活量身打造的人形机器人智慧零售解决方案——银河太空舱第一次亮相。

银河太空舱由银河通用自研的机器人Galbot运营，可完成语音接待、下单支付、精准抓取与商品取送，实现「无遥操、全流程自主」。每一台太空舱最小仅需9㎡空间，却可全天候自主运营，售卖饮品、小食、文创、药品等高频消费品类。

银河通用机器人在6月发布了全球首个面向零售行业的端到端具身VLA大模型，GroceryVLA标志着银河通用在具身智能领域的重大技术突破。GroceryVLA五大核心能力，使其能够稳定适配商超复杂环境、实现高度通用的自主操作：强适用性、高度通用性、跨场景泛化能力、自主决策能力、强抗干扰性。

8月5日，合肥优艾智合智能机器人有限公司与优艾智合-西安交大具身智能机器人研究院联合发布全球首创“一脑多态”架构的跨场景集群作业人形机器人凌枢。

作为研究院具身智能机器人矩阵“天演”系列的双足式人形机器人，凌枢基于 “一脑多态”具身智能大模型架构，针对半导体制造与能源行业的高精度、长流程、多任务等复合泛化场景需求，以机器人智慧大脑MAIC（Mobile AI Comprehension)为核心，与多种形态的机器人高效集群协同，实现多模态融合感知、自适应多臂协同操作、多形态移动控制、全域物流调度，引领工业具身智能迈入跨场景高泛化集群作业时代。

8月27日，跃然创新发布全球首款搭载端到端语音模型的AI玩具CocoMate系列，标志着行业技术进入新阶段。相比BubblePal，CocoMate在硬件与交互层面实现双重突破：

技术创新： CocoMate依托全新的端到端语音模型，实现从语音直接到语音输出，最大程度保留用户情绪与语境，同时拥有拟人化的情感能力，给予温暖真实的陪伴；
玩法升级：CocoMate支持自然语音对话，以及摇一摇、语音等多重唤醒操作，并支持自定义唤醒词；
外观与设计：CocoMate采用可嵌入玩偶本体且支持拆卸的形态，方便毛绒玩具拆洗和换肤。首发阵容包括奥特曼IP限定版的迪迦、赛罗，以及 Haivivi 原创 IP “泡泡”，后续将陆续推出多款角色。

近期，听力熊 AI 大模型科学家张驰团队发布了视频制作工具的研究成果——FlowDirector：一种全新的无需训练的视频编辑框架。

两大黑科技解密：

一、局部整容术（SAFC）：传统 AI 编辑方法好比给全身涂满颜料，稍不留神就毁容。张驰团队研究出的FlowDirector 自带智能美颜遮罩，只让你想改的地方可见，其他背景自动锁定。

二、智能橡皮擦（DAG）：像画画时先用铅笔打草稿，再用橡皮擦掉多余线条。系统会先生成一个”改动草稿”，再自动擦掉和原视频重复的部分，最后留下完美的修改效果。

8月，听力熊还推出国内首台专为青少年深度定制的AI手机——AI学伴手机X3。除了通讯、摄像、支付、社交等基础功能外，还能够帮助家长远程管控，时刻确保孩子的安全。不仅如此，该机型还内置多种AI工具，全天候、多角度陪伴孩子成长。

潞晨科技推出Video Ocean Agent，作为全球首个接入GPT-5的视频 Agent，Video Ocean Agent并非只是加速某个单点流程，而是将整套 AI 制作流程无缝衔接成一支“云端创作团队”。

脚本策划模块——读懂一句创意指令，自动拆分分镜与节奏；
视觉合成模块——根据脚本检索或生成动静态素材，并匹配配色与字幕风格；
配音字幕模块——依角色与情境合成多语言背景音乐和音效，同时实时嵌入字幕；

点击链接体验👇

https://video.luchentech.com/

6月12日，亮亮视野在韩国首尔正式推出旗下消费级AR眼镜Leion Hey2。该产品实现了同传级别“无感知”实时翻译体验，突破了AR眼镜行业在轻量、性能、续航之间的“不可能三角”困境，整机重量仅49克，支持100多种语言、延迟低于500ms的实时翻译，单机工作续航达8小时，配合便携式眼镜盒可实现96小时续航，适用于跨国会议、海外旅行、留学课堂等多元场景。

自7月21日开启测试以来，枫清科技推出的Fabarta个人专属智能体已应用到法律、教育、政务等多种垂直领域办公写作场景中，8月4日，除对现有 “专业版” 进行体验优化与功能强化外，Fabarta个人专属智能体推出“社区版”与“企业版”，精准适配不同用户群体及企业级应用环境，三类版本均具备智能写作、知识问答等核心功能。

对专业个人用户而言，Fabarta个人专属智能体使写作实现了“本地知识应用-智能框架生成-专业内容核查”的完整写作逻辑链。同时，用户每一次生成的成稿都会沉淀为本地知识，从而降低下一次写作的成本。

而在企业组织层面，Fabarta个人专属智能体能全面打通云端、边端和本地，实现企业知识库、数据服务与本地知识库的融合，把员工的个人智能体与企业知识中台、企业数据、业务系统串联集成，将AI智能体的能力嵌入企业工作流，提升组织效率。

6月24日，Jobright正式发布Jobright Agent，成为第一个代表求职者查找、定制和提交申请的AI职业代理。

Jobright agent重塑了求职体验的各个环节，将求职模式从人工被动处理转变为智能主动的职业推荐：

从搜索到匹配：传统平台要求用户手动筛选海量职位。职达智能代理基于技能、经验和职业目标，为求职者智能匹配机遇；
从手动到自动：传统招聘网站强制用户手动筛选岗位并重复投递，而Jobright Agent自动化这些繁琐流程，让求职者专注面试准备等真正有价值的事务；
从单向匹配到双向契合：超越关键词匹配，Jobright Agent评估双方契合度，显著提升求职者与招聘团队的录用成功率；
从被动等待到主动出击：Jobright Agent不再被动等待用户发现机会，而是主动搜寻相关岗位并代求职者发起里路程。

Jobright受到超过520,000名专业人士的信赖，并同比增长30%。Jobright Agent为求职者提供2倍的面试次数，并将求职时间缩短了80%。