我们知道你已经对DeepSeek R1这个词审美疲劳了,但关于创业者怎么把包括R1在内的开源模型用起来、用好,还很少有先行者跟你分享经验。
所以蓝驰创投在近期发起了一场研讨会,邀请了十位蓝驰家族企业的创业者们,他们要么曾将其产品接入过DeepSeek R1等开源模型、要么帮客户使用过、要么对其间的技术有更深的研究。
我们希望在这场从应用到技术的讨论中,厘清开源模型究竟带来了什么变化、如何借助它来使更高的智能水平赋能于业务,从而带给创业者更实际的帮助。
用了DeepSeek R1之后,我的业务……
具身智能公司:我们发现通过在DeepSeek R1这样的强推理模型上扩展其视觉输入(vision input),能显著增强其推理能力、甚至超越GPT-4o模型。所以不仅“慢思考”可以提升推理能力,多模态的融合和模态之间的穿透也能显著增强模型的推理能力。
如果能够发现图像、文本描述、触觉以及机器人强化动作的轨迹可以在一个统一的世界模型中被表征,那么未来实现AGI(通用人工智能)的VOA(虚拟到现实、现实到虚拟的打通)将变得更加顺畅。这是团队接下来的努力方向。如果模态融合,那么语言模型在跨颜色抓取等OOD(分布外)泛化任务上的推理和决策将变得更加容易。
在模态融合方面,未来有三个研究方向:1、在表征空间中显式地学习因果关系:当前大模型的训练方法仍然是数据驱动的,模态之间的融合更多是基于统计相关性而非因果关系。2、基于因果关系的主动干预:通过主动干预,智能体可以更好地理解环境中哪些因素的改变导致了行为的变化,而不仅仅是依赖统计相似性。3、将因果模型和因果干预能力集成到VOA中:最终目标是让智能体能够在不同模态间自由切换,并在OOD环境中实现泛化。
SaaS公司:我们的解决方案主要面向两类客户:B To 大C(如教育、家装、汽车、房产等行业)和B To 小B(如知识产权、财税等领域)。这些行业的销售模式主要以电话和线上销售为主,高成本获取的销售线索需要精细化管理,而现有的管理方式高度依赖人工,难以高效处理大量线索。
接入DeepSeek R1后,我们用大模型处理海量非结构化数据的能力,将录音、聊天记录等转化为结构化信息。销售场景对模型的推理能力要求极高,不仅需要分析数据,还需要为销售人员提供下一步的谈单思路、跟进动作以及对应的话术。基于R1,我们在线索管理上的效率提升了十倍,客户回复率也提升了两到三倍。
R1目前在教育市场上的效果很好。因为AI生成的话术逻辑性更强,能够直击客户痛点,让销售管理者感到惊艳甚至吃惊。像我们这类应用创业的成功很大程度上就取决于客户的认知程度。这是R1非常大的价值之一。
社交产品公司:目前DeepSeek R1使用下来我们的感受是,将AI与真人结合,共同提供原本由真人单独完成的服务,是目前最好的盈利模式。用户本质上还是更倾向于与真人互动,没有人愿意单纯为AI本身付费。
不过我们能判断包括R1在内的强大开源软件给游戏行业带来的影响。游戏创作的门槛一直很高,但很快就会降低。未来人们只需用三言两语表达创意,就能轻松创造出好玩的游戏。
我们在用AI做社交产品的过程中发现了一个非共识。目前大部分AI社交类产品中用户与AI的对话模式是:只有用户发出一条消息,AI才会回复一长串内容。这种模式是错误的,不是正常的社交模式。“斯坦福小镇”的经验告诉我们,当用户与某个对象建立关系后,即使用户暂时不与之互动,AI仍然可以模拟这个对象的心理活动,继续保持关系。
这是AI带来了根本性的变化。在传统的社交软件中,服务端的主要功能是转发消息,因为两端都是真人用户。而在AI驱动的社交软件中,应该服务端承载了许多“灵魂”,给用户更好的体验。
互动游戏公司:我们接入过两个模型:DeepSeek R1和Claude 3.5。这两个模型对比下来,R1更倾向于用逻辑角度去传递信息,而Claude 3.5则更注重从视觉画面角度进行信息传递。
比如在描述“打一个人”的场景时,R1用逻辑性语言完整描述事情的起因、经过和结果,高度关注“打没打到”这一结果,但Claude 3.5就没有这么关注结果,而是会严格遵循我们的要求,比如在听觉、视觉等五感的占比上出现更偏视觉传达的描述。
最初我们需要五个agent协同工作,但切入R1后可以将两个功能整合到一个agent中,效果不仅没有下降,在语言表达的精确度、拟人化风格的表现程度以及规则贯彻的严谨性上,甚至比之前五个agent协同工作时更为出色。这最大好处是解决了延时问题,我们将延时压缩到了毫秒级别。此外,在情绪感知、叙事方式和主持技巧等层面,我们也观察到了显著的改进。
DeepSeek之后,创业者往哪走?
基础设施公司A:技术能力顶尖的人,可以通过DeepSeek论文中的summary自行复现。所以有技术能力、资金的人,应该大胆投入基础模型的研究。如果资金不足,就应该专注于应用开发。
是不是学过计算机已经不再那么重要了,即使是文科生也能创业。未来的发展趋势是从重资产向智力密集型、算法驱动的轻资产模式转变。以DeepSeek为代表的未来会有更好的工具,成本会越来越低,资产的重要性将逐渐降低,而创意和执行速度将成为关键因素。
而最重要的是,R1很好地利用了过去两年国外巨型财团和大厂所营造的「被AI抛弃」的恐惧,在非常好的时点开源,再加上本身好用,这一切形成的明星效应——也就是「势」是最重要的。这会让创业生态重新繁荣起来。
所有伟大的breakthrough都来自真正的开放。那么我们什么时候会有真正开放的大模型?随着AI越来越重要,各国政府都会深入参与其中,大模型领域会逐步迎来这个时刻。
应用侧方面,很多有规模的大公司会不计成本去做 AI 应用。在选择上,这些公司未必会局限于一定使用自己的大模型,而是会根据实际情况灵活选择。这其实就是很好的范本,当使用大模型的成本降下来时,应用开发不应该拘泥于某一种模型,而是应该集百家之长。
基础设施公司B:我们观察了下客户对于AI推理服务的主要诉求:首先,当模型能力达到一定基础后,客户会关注并发、弹性,比如娱乐应用的晚高峰时、电商的双十一、黑五等促销旺季;其次是成本、性价比,因为成本决定了模型在哪些场景中可以被使用,客户希望解锁更多应用场景,比如App是付费模式还是免费广告模式等。第三是时延,无论是端到端的实验还是首次输出(first token)的时延,都与用户体验密切相关。像数字人直播、智能电话客服、具身智能都格外关注这点。
这次DeepSeek的爆火我们有些观察。在我看来,最佳的、完全开源的底座模型迟早会出现,原因就是成本与价格的内卷,所有与开源相关的生态方都会因此受益。
另外建议大家更多关注蒸馏版,其实许多场景都并不需要V3、R1的满血版。我一直认为每一代大模型革命都是最早由一家闭源大模型突破,接下来一个大参数的开源大模型推动行业迅速被认知,一系列公司在这个开源大模型基础上再做二次蒸馏等,最后降低成本普及应用,而最后的普及应用一定是云边端融合。
当下是一个价格战的环境,创业公司先争取市场的声音和声量,成本和价格是不是合理可以暂时放在第二位。各家现在都是亏本提供API服务,两周内近100家都宣称接入Deepseek。短期内这很痛苦,但成本回报的优化曲线和我们在海外的表现,都显示出良性市场的潜力。当体量达到一定层级,AI 免费时代就会到来。
如果未来一年大模型成本再降十倍,我认为大多数应用都不用做模型了。目前很多应用公司的token成本还在40-60%左右,一年以后这个数字有希望降到20%。
数据服务公司:我们的核心业务是以数据为中心做AI在产业端的落地。我们主打的是通过智能化手段将企业本地数据编织成知识,并以行业智能体的形式嵌入企业的核心工作流中。
过去大模型在B端难以落地的原因主要有三点:一是无法消除模型的幻觉;二是无法保证数据的安全可控;三是模型的推理能力和可解释性表现不佳。
DeepSeek R1对我们最大的推进,就是在产业端的落地,对用户起到了快速教育的作用。在这之前国央企等头部客户还在观望大模型的ROI、能带来什么高价值场景。但R1的火爆出圈就让教育成本归零了。
技术视角怎么看DeepSeek R1
大模型公司:从技术视角看,呈现纯 RL 推理过程是 DeepSeek 最亮眼的突破,这一突破也为人工智能超越人类提供了一条思考路径。另外,DeepSeek没有以往模型过于机器化的感觉,这是很强且现在很难去复现的点。长期而言,这个点如何去呈现,需要不断打磨。
目前,RL只用了几万条数据,为什么数据量这么小?因为RL需要非常复杂和具有挑战性的问题来激发推理过程,而这样的数据非常稀缺。所以必须依赖人力来提出这些复杂的问题。在目前几万条数据的情况下,算力需求非常大,因为RL的效率较低,甚至比SFT还要低。但未来,当数据量逐渐增大,且我们探索到合适的scaling law时,显然需要更多的计算资源来支撑这一过程。
这一波技术发展是一个利好的信号,尤其是对于大厂而言。过去,大公司可能没有信心超越OpenAI,但现在不一样了,未来我们会看到更多的投入和创新。
在底座模型上我主要关注两点,第一点是RL的Scaling Law是否可以实现。我们已知随着算力的增加模型的智能程度会不断变好,但数据的增加能否做到还不清楚。如果能够探索清楚这点,我们就又有一条能够不断提升模型智能的路径。其次,多模态是否能帮我们通往AGI?如果跑通这条路,会走得更快。在NLP中,视觉就是个更容易的任务。
AI产品公司:DeepSeek是一个开源模型,但是否开源不是我们最主要的选择理由,合适很重要。我们要想明白模型的技术不是目标,只要它能显著降低成本就值得用。
我们第一看大模型的能力,第二看速度,第三看稳定性。2025年是Agent发展的一年,而Agent里最关键的一点就是无论哪一个大模型,最终都需要在关键步骤上有好的表现。越是使用Agent的时候,我们越应该让它自由,但它越自由也越容易失控,这就需要稳定性好的大模型把关关键步骤。
从技术视角看,想要做到模型和应用一体的公司非常难,做应用的人其实不想被模型限制住,自己生产的模型可能又不太行。
在应用开发上,在我们看来未来有几个大方向:
首先,Agent向前走的话,需要推理模型(Reasoning Model)。
其次,实时API与交互。本质是高效、端到端的实时API,响应时间缩短,input还是语音。这将带来全新的交互体验,尤其是在多模态场景下,模型需要更好地处理社交规范(如对话中的打断和上下文切换)。
最后,Operator与Container相关。通过优化上下文组织(context engineering),开发者可以在不依赖特定模型的情况下提升任务完成效率。例如,Cursor工具通过优化编程上下文,使得开发者可以灵活切换模型,而不必依赖于特定的模型。
具身智能公司:DeepSeek R1不能说是全面超越美国的产品,只是在一个维度上表现出优势,是个有特色的大模型。中间有几个值得祛魅的点:
第一,R1在filtering的过程中,有很多人力和工程优化的投入,这其实是模型能力最终表现很好的关键因素之一,但是被大家忽略了。第二,DeepSeek R1在用做产品的思维提升用户交互体感,它在思维链中会总结你之前问的问题、然后把它不知道的放到结果里。因此,虽然表面上看起来是模型能力提高了,但背后的原因可能并不像大家想象的那么“高大上”。
但不可否认,DeepSeek让我们看到在未来一至三年的技术突破,第一个突破点是传统大模型的预测和RL会深度结合,甚至可能不是现在的融合方式,而是长程推理的结果内化成模型快思考。第二点是DeepSeek的MOE技术会被广泛应用,大模型的应用成本降到最低,降低速度可能比大家想象得更快。第三点是未来在应用层面不会只有一个模型,不同类型的大模型结合产生一个Agent系统并且以产品的形式呈现。
目前市场上的大模型公司,应该继续开发最前沿的模型、还是同步也要做应用?从我们之前开发大模型的经验来看,如果应用的门槛足够高,仅仅依赖基础模型是难以满足产品需求的。比如GPT,尽管基础模型接近产品所需的标准,但为了弥补那“最后一厘米”的差距,需要对大模型进行微调(fine-tune),成本极其高昂,有时甚至相当于重新开发一次模型的十分之一或五分之一。
这意味着在产品设计之初,就需要权衡是否真的需要如此庞大的基础模型(foundation model),以及其成本和所能带来的能力。而不是一味追求模型能力的极限,导致在应用时发现成本过高,不得不推翻重来。