过去的这个夏日,蓝驰家族AI探索到哪了?|蓝驰家族头条
AI
2025-09-08 10:52 星期一

AI狂卷的浪潮和过去的夏天一样热烈。从AI Agent的不断进化,到各类开源模型的发布、具身智能机器人的场景应用……我们感受到AI在各领域的加速渗透,也清晰看到 AI 创新正在从实验室快速走向产业一线。

今天,我们梳理了近期蓝驰家族成员在AI领域的成长轨迹,为你呈现AI前沿的夏日速览。

8月20日以来,VLA司机大模型随理想i8同步开启用户交付,带来了全球首个基于VLA大模型的辅助驾驶,并将于9月10日开启全量推送。VLA随理想i8上市交付后,辅助驾驶每日使用率提升3倍,累计里程渗透率提升2.2倍,泊车每日使用率提升2.1倍,也意味着VLA司机大模型成为了用户真的爱用且好用的辅助驾驶。

8月21日,理想同学基座模型MindGPT 3.1正式发布。作为具备极速推理能力的智能体语言模型理想同学智能体具有三个特点:自主使用工具、完成复杂任务、专属的记忆理解。在智能体时代,模型即智能体,MindGPT会持续推动智能体语言模型的技术突破,自主规划决策、调用工具并产生行动,进而自主解决问题,实现从认知到执行的闭环。

7月11日,Kimi K2模型正式发布并开源。Kimi K2是一款具备更强代码能力、更擅长通用 Agent 任务的MoE架构基础模型,总参数1T,激活参数32B。

在SWE Bench Verified、Tau2、AceBench等基准性能测试中,Kimi K2均取得开源模型中的 SOTA 成绩,展现出在代码、Agent、数学推理任务上的领先能力。Kimi K2用MuonClip优化器稳健支撑万亿参数模型训练,显著提升token利用效率。 结合大规模Agentic数据合成与通用强化学习,模型在通用智能能力上持续进展。

Kimi K2的发布也引发了世界范围内的高度关注。全球顶级科学期刊英国《自然》杂志网站7月16日发表文章,盛赞这次模型发布为“又一个DeepSeek时刻”。

体验链接👇

https://kimi.com/

模型及fp8权重文件开源链接👇

https://huggingface.co/moonshotai/Kimi-K2-Instruct

今年4月,Genspark Super Agent正式上线。该智能体采用MoA(Mixture-of-Agents)系统,整合了9个主流模型与80个工具,能理解用户意图,自主规划执行任务,支持多模态任务处理,包括旅行规划、视频创作、学术研究等需求。在权威GAIA基准测试中,Genspark Super Agent以98.5%的任务完成率登顶,成为全球首个无需邀请码即可注册的全功能 AI Agent。

Genspark Super Agent上线以来,先后推出多个子代理(sub-agent),丰富内置功能模块:

  • Genspark AI Call:支持从需求理解到电话执行的完整闭环。用户仅需输入自然语言指令作为 语音交互子代理,负责电话预订、商务沟通等任务,调用语音合成(TTS)、自动语音识别(ASR)模型及电信 API 完成闭环;
  • Genspark AI Docs:只需告诉 Genspark需求,即可在几分钟内亲眼见证完整且专业设计的文档呈现。这也是世界首款也是唯一一款原生支持富文本和 Markdown格式的AI文档工具,并支持格式间的即时转换;
  • Genspark AI Pods:只需用户提供简单指令,AI系统就会立即处理请求,完成内容分析、研究处理、音频制作、Host Generation等步骤,几分钟内用户即可获得完整的、专业级的播客内容;
  • Genspark AI Meeting Notes:全球首款适用于 Apple Watch 的 AI 会议笔记工具,通过与Genspark Super Agent的紧密集成,用户只需在Apple Watch 上双击或在手机上单击一下,即可将任何会议转换为全面、专业的会议笔记;
  • Genspark AI Drive:世界上第一个完整代理下载代理无缝集成全新Genspark AI Drive,只需一个命令,即可下载、整理和交互任何文件,让用户能够以惊人的速度和准确性收集、整理和管理来自网络的内容;
  • Genspark AI Developer:全自动编程 Agent,支持从需求分析到代码生成、部署的全流程自动化。用户可只需通过自然语言描述需求,就可在10分钟内生成含前端界面、后台管理系统及支付接口的完整项目,并集成GitHub版本控制功能;
  • Genspark AI Designer:通过整合文本语义编码器与视觉特征提取器,完成品牌全案设计,支持从LOGO与印刷、产品与包装到网站app、广告社媒的一站式生成,消除了设计障碍,让每个人都能不受技术限制地构建自己的愿景;
  • Genspark Clip Genius:从播客摘要、体育片段、游戏蒙太奇到个人Vlog,Genspark Clip Genius通过智能内容分析、巧妙的故事设计、精准编辑与优化、专业后期整合等步骤,只需用户一次提示即可编辑任何视频,并且从分析到最终渲染,能够在几分钟内自动完成。
立即体验Genspark Super Agent👇

https://www.genspark.ai/

6月10日,Genspark再次上新一款颠覆性的全代理AI浏览器。Genspark browser把AI直接嵌入到每个网页中,让浏览器本身就具备了思考和行动的能力,将各种常用的工具和应用都连接起来,形成自动化的工作流,提供购物比价、视频总结、Autopilot Mode甚至让浏览器自己可以刷微博、整理信息,甚至制作个人播客。

AI时代的浏览器应该是什么样?Genspark的尝试给出了一个有趣的答案:浏览器不应该只是一个”窗口”,而应该成为一个真正的智能助手。

8月,智元机器人重磅推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner。 不同于传统“数据-训练-评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

7月7日,智元发布灵犀X2-N机器人。该机器人最大的特点之一就是能够在双足和双轮形态间自由切换,足式状态下,灵犀X2-N能够盲走台阶,手持12斤重物;切换至轮式状态下的灵犀X2-N则能够应对单边桥、斜坡等复杂地形。

在2025 WRC期间,全球首个城市级、常态化运营的人形机器人示范区正式落地海淀,银河通用为城市生活量身打造的人形机器人智慧零售解决方案——银河太空舱第一次亮相。

银河太空舱由银河通用自研的机器人Galbot运营,可完成语音接待、下单支付、精准抓取与商品取送,实现「无遥操、全流程自主」。每一台太空舱最小仅需9㎡空间,却可全天候自主运营,售卖饮品、小食、文创、药品等高频消费品类。

银河通用机器人在6月发布了全球首个面向零售行业的端到端具身VLA大模型,GroceryVLA标志着银河通用在具身智能领域的重大技术突破。GroceryVLA五大核心能力,使其能够稳定适配商超复杂环境、实现高度通用的自主操作:强适用性、高度通用性、跨场景泛化能力、自主决策能力、强抗干扰性。

8月5日,合肥优艾智合智能机器人有限公司与优艾智合-西安交大具身智能机器人研究院联合发布全球首创“一脑多态”架构的跨场景集群作业人形机器人凌枢。

作为研究院具身智能机器人矩阵“天演”系列的双足式人形机器人,凌枢基于 “一脑多态”具身智能大模型架构,针对半导体制造与能源行业的高精度、长流程、多任务等复合泛化场景需求,以机器人智慧大脑MAIC(Mobile AI Comprehension)为核心,与多种形态的机器人高效集群协同,实现多模态融合感知、自适应多臂协同操作、多形态移动控制、全域物流调度,引领工业具身智能迈入跨场景高泛化集群作业时代。

8月27日,跃然创新发布全球首款搭载端到端语音模型的AI玩具CocoMate系列,标志着行业技术进入新阶段。相比BubblePal,CocoMate在硬件与交互层面实现双重突破:

  • 技术创新: CocoMate依托全新的端到端语音模型,实现从语音直接到语音输出,最大程度保留用户情绪与语境,同时拥有拟人化的情感能力,给予温暖真实的陪伴;
  • 玩法升级:CocoMate支持自然语音对话,以及摇一摇、语音等多重唤醒操作,并支持自定义唤醒词;
  • 外观与设计:CocoMate采用可嵌入玩偶本体且支持拆卸的形态,方便毛绒玩具拆洗和换肤。首发阵容包括奥特曼IP限定版的迪迦、赛罗,以及 Haivivi 原创 IP “泡泡”,后续将陆续推出多款角色。

近期,听力熊 AI 大模型科学家张驰团队发布了视频制作工具的研究成果——FlowDirector:一种全新的无需训练的视频编辑框架。

两大黑科技解密:

一、局部整容术(SAFC):传统 AI 编辑方法好比给全身涂满颜料,稍不留神就毁容。张驰团队研究出的FlowDirector 自带智能美颜遮罩,只让你想改的地方可见,其他背景自动锁定。

二、智能橡皮擦(DAG):像画画时先用铅笔打草稿,再用橡皮擦掉多余线条。系统会先生成一个”改动草稿”,再自动擦掉和原视频重复的部分,最后留下完美的修改效果。

8月,听力熊还推出国内首台专为青少年深度定制的AI手机——AI学伴手机X3。除了通讯、摄像、支付、社交等基础功能外,还能够帮助家长远程管控,时刻确保孩子的安全。不仅如此,该机型还内置多种AI工具,全天候、多角度陪伴孩子成长。

潞晨科技推出Video Ocean Agent,作为全球首个接入GPT-5的视频 Agent,Video Ocean Agent并非只是加速某个单点流程,而是将整套 AI 制作流程无缝衔接成一支“云端创作团队”。

  • 脚本策划模块——读懂一句创意指令,自动拆分分镜与节奏;
  • 视觉合成模块——根据脚本检索或生成动静态素材,并匹配配色与字幕风格;
  • 配音字幕模块——依角色与情境合成多语言背景音乐和音效,同时实时嵌入字幕;

点击链接体验👇

https://video.luchentech.com/

6月12日,亮亮视野在韩国首尔正式推出旗下消费级AR眼镜Leion Hey2。该产品实现了同传级别“无感知”实时翻译体验,突破了AR眼镜行业在轻量、性能、续航之间的“不可能三角”困境,整机重量仅49克,支持100多种语言、延迟低于500ms的实时翻译,单机工作续航达8小时,配合便携式眼镜盒可实现96小时续航,适用于跨国会议、海外旅行、留学课堂等多元场景。

自7月21日开启测试以来,枫清科技推出的Fabarta个人专属智能体已应用到法律、教育、政务等多种垂直领域办公写作场景中,8月4日,除对现有 “专业版” 进行体验优化与功能强化外,Fabarta个人专属智能体推出“社区版”与“企业版”,精准适配不同用户群体及企业级应用环境,三类版本均具备智能写作、知识问答等核心功能。

对专业个人用户而言,Fabarta个人专属智能体使写作实现了“本地知识应用-智能框架生成-专业内容核查”的完整写作逻辑链。同时,用户每一次生成的成稿都会沉淀为本地知识,从而降低下一次写作的成本。

而在企业组织层面,Fabarta个人专属智能体能全面打通云端、边端和本地,实现企业知识库、数据服务与本地知识库的融合,把员工的个人智能体与企业知识中台、企业数据、业务系统串联集成,将AI智能体的能力嵌入企业工作流,提升组织效率。

6月24日,Jobright正式发布Jobright Agent,成为第一个代表求职者查找、定制和提交申请的AI职业代理。

Jobright  agent重塑了求职体验的各个环节,将求职模式从人工被动处理转变为智能主动的职业推荐:

  • 从搜索到匹配:传统平台要求用户手动筛选海量职位。职达智能代理基于技能、经验和职业目标,为求职者智能匹配机遇;
  • 从手动到自动:传统招聘网站强制用户手动筛选岗位并重复投递,而Jobright Agent自动化这些繁琐流程,让求职者专注面试准备等真正有价值的事务;
  • 从单向匹配到双向契合:超越关键词匹配,Jobright Agent评估双方契合度,显著提升求职者与招聘团队的录用成功率;
  • 从被动等待到主动出击:Jobright Agent不再被动等待用户发现机会,而是主动搜寻相关岗位并代求职者发起里路程。

Jobright受到超过520,000名专业人士的信赖,并同比增长30%。Jobright Agent为求职者提供2倍的面试次数,并将求职时间缩短了80%。