
作者丨四月愚人
原本平静的5月,从14日凌晨OpenAI发布GPT-4o开始热闹起来。

这不禁让人想起去年3月14日GPT-4发布后,一个月内各种大模型扎堆发布,从而揭开了“百模大战”的序幕。
相比2023年,进入2024年后,各家企业虽然仍然在大模型上持续投入,但逐渐将重心从模型转向了应用。
从OpenAI最近一年的公开行为可以看出这一趋势。
2023年3月OpenAI将GPT-3.5升级到了GPT-4,这之后在谷歌、Claude和国内一众企业追赶GPT-4的过程中,无论是不是遇到了技术瓶颈,OpenAI似乎放缓了GPT-5的发布节奏,而是相继推出了GPT-4V和GPT-4o两个版本。
通过加入视觉和语音模态,在模型现有基础能力的条件下为应用提供支持。GPT-4o模型展现出的多模态实时交互能力,确实让我们对智能助理应用有了更多想象。
近期发布的大模型应用大致可分为两类。
一类是智能体,如豆包和元宝。基本沿用了ChatGPT的形式,但在对话界面的基础上增加了搜索等工具调用和角色设定等功能。虽然暂未支持任务规划等复杂功能,因为具备了工具调用来自动执行任务的能力,我们仍然可以将这些应用归为智能体的雏形。
另一类是智能体平台,如扣子和元器。主要沿用了GPT Builder的形式,可以通过更灵活的知识库、插件API等设置无代码/低代码开发定制化的智能体,同时增加了可视化工作流界面和将智能体发布到飞书/微信等功能。
智能体已成为业界所共识的现阶段大模型应用的主要载体。
在整个行业开始商业化应用探索的背景下,我们看到了从“百模”到“千体”的变化。这里的“千体”除了豆包、元宝这种标准化智能体,还包括基于扣子、元器这些智能体平台上构建的成千上万的定制化智能体。
百度将于5月30日举办移动生态大会,大会主题就是“让智能体人人可用”, 据说也会聚焦智能体和相关生态。即便目前智能体能实际落地的场景有限,但不得不让人感慨这种从模型到应用的速度。
就好像去年才开始大规模建设发电厂(大模型)和电网(云、API),今年就能体验到一些具有多种功能的电器(智能体)了。而且,如果这些标准化的电器不能满足需求,你还可以自己动手设计,迅速打造一款专属的定制化电器。
本文只讨论虚拟空间的智能体。
智能体AI原生的特点使其有机会在中短期内成为现有软件层之前新的入口,在长期甚至有可能替代现有的软件层。
从C端看,智能体在大模型基本的对话能力基础上增加了插件工具调用等功能。这让它可以胜任自然语言界面下的个人助理,统一处理用户需求,然后调用其他应用层软件和服务,即成为离用户更近的统一入口。
从B端看,现有大模型的服务主要是通过云计算和API提供通用智力。智能体通过在这之上叠加业务工作流和领域知识,可以将通用智力转化为企业可以使用的生产力,即成为离业务更近的入口。
以下从C端和B端分类总结了部分目前与智能体相关的模型和应用
C端智能体的定位是个人助理,自然交互是基本要求,个性化是提升体验的关键。B端智能体的定位是数字员工,自动化是基本要求,专业化是提高效率的关键。
不过很多智能体平台目前没有明确区分C端和B端,例如扣子、智谱AI开放平台和Dify,它们一方面配合C端智能助理的开发,同时也适用于一些B端应用场景。表中B端列出的仅是明确表示面向B端市场的智能体平台。
与C端相比,B端智能体平台需要提供更丰富的插件选项和更灵活的工作流设计功能。此外,B端智能体平台通常还需要集成数据标注、模型微调等功能,以更好地满足企业对模型垂直能力的需求。

智能体应用作为互联网应用的延伸,其带来的新入口往往建立在互联网现有入口的基础上。
结合大模型应用生态,C端入口主要包括硬件(如iPhone)/ OS(如Windows)、平台级应用(如微信)、杀手级应用(如抖音)/垂直场景(如情感陪伴),B端入口主要包括云服务平台(如阿里云)、软件框架(如飞桨)、企业平台软件(如飞书)/垂直场景(如销售)。

