标题 摘要 内容
    详情

    AIGC丨研究报

    核心摘要:

    古人有云:日就月将,学有缉熙于光明。人类对人工智能学的潜心钻研终于再度获得重大突破,大模型的涌现能力与AIGC的应用普及为那不一定是AGI但一定更AI的未来提供了确定性的加速度。AI2.0时代的加速到来,不仅是把AI能力融入到现有应用中,更是未来产业范式的再塑造。AI正跳跃式地加速渗透进各行各业,推动一场新的生产力与创造力革命。AI产业链各环节参与者的角色功能、产品服务和应用生态可能将发生变化。

    对此,艾瑞发布《AIGC系列报告——中国AIGC产业全景报告》,作为AIGC系列首发,报告将展开对AIGC产业的全景洞察、探究生成式AI技术对数字产业的影响变化、绘制“中国AIGC产业全景图谱”、分析主流参与厂商类型与格局策略、各类型厂商发展路径和能力要求变化等,为市场辨析产业发展价值与空间。

    图片

    报告研究范围 - AIGC

    AIGC与大模型将引领“AI产业”与“产业AI”发展

    AIGC(AI-Generated Content)指利用人工智能技术(生成式AI路径)来生成内容的新型内容生产方式。2022年11月上线的AIGC应用ChatGPT,凭借其在语义理解、文本创作、代码编写、逻辑推理、知识问答等领域的卓越表现,以及自然语言对话的低门槛交互方式,迅速获得大量用户,于23年1月突破1亿月活,打破前消费级应用的增速记录。微软称其在GPT-4(ChatGPT Plus背后运行的大模型)中看到了AGI(通用人工智能)的雏形。大众的生活工作日常出现了Midjourney等新形态的各类AIGC应用,各行业的智能化升级也看到了新的可能性,“AI产业”与“产业AI”的想象空间进一步拓展。AIGC应用创新的技术支撑为“生成对抗网络(GAN)/扩散模型(Diffusion)”与Transformer预训练大模型”的两类大模型分支。在国外AIGC应用展示出大模型的能量的同时,我国企业也加强了相关产品技术布局,云厂商、AI大厂、创企、各行业公司及技术服务商等产业各领域玩家纷纷发布大模型或基于大模型的应用产品及各类技术服务。相较于一般AI应用,大模型应用的训练及推理需要更强的算力支持。综上,本报告将围绕模型、应用、算力三个角度对AIGC产业的发展进行探讨,试图在讨论开源闭源、垂直通用、知识幻觉等大模型未来发展的各种不确定性的同时,为AIGC应用的迭代升级、产业的智能化应用,提供尽可能多的研究辅助,为那个不一定是AGI但一定更AI的未来提供确定性的加速度。
    图片

    图片

    中国AIGC产业市场规模
    市场规模呈指数级增长,突破规模化临界点攫取万亿产业价值
    根据第50次《中国互联网络发展状况统计报告》,截至2022年6月,中国互联网普及率已高达74.4%。在网民规模持续提升、网络接入环境日益多元、企业数字化进程不断加速的宏观环境下,AIGC技术作为新型内容生产方式,有望渗透人类生产生活,为千行百业带来颠覆变革,开辟人类生产交互新纪元。艾瑞咨询预测,2023年中国AIGC产业规模约为143亿元,随后进入大模型生态培育期,持续打造与完善底层算力基建、大模型商店平台等新型基础设施,以此孕育成熟技术与产品形态的对外输出。2028年,中国AIGC产业规模预计将达到7202亿元,中国AIGC产业生态日益稳固,完成重点领域、关键场景的技术价值兑现,逐步建立完善模型即服务产业生态,2030年中国AIGC产业规模有望突破万亿元,达到11441亿元。
    图片
    中国AIGC产业投融资情况
    模型创业初抬头,多模态、跨模态备受青睐,资本扎堆优质项目
    2021年至2023年7月期间AIGC赛道共发生280笔投融资,展现了其高热度与高成长性。从产业细分维度,应用层创业机会最多,模型层创业受到ChatGPT影响,在2023年集中涌现;在获投的应用与模型层创业项目中,文本、影像、语音平分秋色,但相比单一模态,多模态和跨模态的应用前景更加为资本所看好。从投融资轮次维度,70%左右的项目仍处于A轮及以前阶段,同时有高达14.6%的比例属于股权、战略融资,说明赛道虽然处于起步期,但其战略价值已被公认。在全部获投的170家公司中,获投3次及以上公司约占17%。同一标的的高频融资,从企业需求侧反映AIGC前期创业所需大量资金支持,从资方供给侧表明优质创业项目仍非常稀缺。
    图片

    图片

    中国AIGC产业图谱全景图
    图片

    图片

    预训练大模型分类与介绍
    基于两大类基础架构衍生出各类大模型;多模态已成趋势
    预训练大模型按照模态可以分为文本、图像、视频、代码、音乐生成等多种,但从底层架构上都分属两类。Transformer是一种编解码模型框架,适用于处理文本、代码这类强连续性生成任务;Diffusion、GAN、NeRF等框架善于处理图像生成类任务。叠加文-图转换技术可以形成文生图模型。由单模态模型在实际训练时融合其他模态技术,可形成多模态、跨模态大模型,如GPT-4、文心一言、 Mid journey等,由于多模态模型可接受文本、图像等不同输入输出形式,对应用场景能够更广泛适配,着力发展多模态模型成为产研两界共同趋势。
    图片
    预训练大模型的路径探讨
    了解人工智能时代的“iOS”与“安卓”,闭源与开源市场将并存互补
    在以OpenAI为代表的闭源模型厂商开放对外技术服务后,开源模型厂商也在加紧发力,以Meta的Llama模型为代表陆续开源迭代,意图进一步实现生态层面的跑马圈地,2023年上半年LLM与数据集迎来开源季。大模型的开源可根据开源程度分为“可研究”与“可商用”级别。2023年2月,Meta发布了开源大模型LLM的第一个版本Llama,授予“可研究”用途。2023年7月进一步发布“可商用”的Llama2版本,虽然有日活超过7亿产品需额外申请、不能服务于其他模型调优等的商用限制,但海外很多中小企业已可用Llama2的模型来做私有化部署,基于Llama2开源模型训练出定制化的可控模型。由于Llama2基本不支持中文,对中国的大模型商用生态暂时不会产生实质性变化,中国仍需开发培育适配于中文数据土壤的开源生态。闭源LLM可为B端用户和C端消费者持续提供优质的模型开发及应用服务;开源LLM可从研究角度促进广大开发者和研究者的探索创新,从商用角度加速大模型的商业化进程与落地效果。未来,开源和闭源的LLM会并存和互补,为大模型发展共同创造出多元协作的繁荣生态。
    图片
    着力打造中国AIGC开源社区生态
    轻量级模型陆续开源,助力开源生态建设,千亿级模型暂以闭源路径开展
    AIGC开源社区的建设可以吸纳更多的开发者及拥有定义用户的主导权,以AI开源创新平台为杠杆,带动支撑底层AI芯片、智算中心及云服务等基础设施发展。从供给侧逻辑来看,大模型开源早期由高校和机构推动,如清华大学的ChatGLM-6B、复旦大学的MOSS,陆续有头部云厂商加入,如百度的文心系列与阿里的通义系列,共同为中国AIGC开源社区的建设“增砖添瓦”,以阿里云魔塔社区、百度云飞桨社区为代表的开源社区建设成果初现,而千亿级模型暂以闭源路径开展,凭借稳定、优质效、完整工具链等产品特点定位应用市场;从商业化路径来看,参考海外明星开源社区Hugging Face的商业模式,中国AI开源社区同样会先免费提供基础算力,为客户提供免费的社区体验、demo部署及测试,并进一步通过付费服务推送轻量级迁移的微调推理服务或深度开发的训练调优平台,提升模型产品性能,通过开源社区吸引开发者、企业客户完成更多部署应用资源的引流变现。
    图片
    大模型落地将带来新一轮AI产业化扩散
    大模型的落地将提速AI工业化生产,并充分释放AI产业潜在市场空间
    大模型类似于一个能力全面且突出的“完全体”,不仅通用性强,且能力相比小模型有较大提升。因此,用大模型做应用开发,可以采用“预训练+微调”开发范式,只需要针对具体任务,对大模型进行二次开发、微调甚至只是单纯以领域知识库做辅助,就可以快速赋能应用。相比独立分散的小模型开发,标准化、流程化程度更高,在开发效率和运维成本上都有较大改善,有效促进了AI的工业化生产。同时,模型能力的提升使得更多AI服务可以落地,有效扩展了AI的应用范围,这些共同促进AI供需两侧潜力释放。
    图片
    MaaS是大模型能力落地输出的新业态
    打造大模型商店,为下游提供低门槛、低成本的模型使用与开发支持
    MaaS(Model-as-a-Service),模型即服务,是指以云计算为基础,将大模型作为一项服务提供给用户使用的新业态。如今,MaaS模式已成为各家云巨头厂商发展第一战略优先级,把模型作为重要的生产元素,依托于既有IaaS设施与PaaS平台架构,为下游客户提供以大模型为核心的数据处理、特征工程、模型训练、模型调优、推理部署等服务。未来,顺应大模型开源趋势,MaaS服务商将着力打造大模型商店平台,发力大模型生态建设,纳入更多允许商用的开源模型,提升平台的基模类型及能力,并丰富工具链产品服务,通过业务积累、数据回流、模型迭代逐步形成壁垒,在拉高云服务营收天花板的同时进一步塑造厂商的核心竞争力。
    图片
    大模型成为AI应用开发的操作系统
    模型即服务(MaaS)构建新型AI基础设施,重构AI开发部署范式
    随着企业上云进程中智能化转型需求的逐步增多和传统行业领域数据的不断积累,AI应用开发过程中逐渐面临大量细分领域的深耕、非典型客户需求,对算法的通用性和延展性提出了较高要求。传统“小模型”范式的AI应用开发流程一般针对单一场景,独立完成模型选择-数据处理-模型优化-模型迭代等一系列开发环节。因此,AI应用在定制化需求、长尾需求下的开发效率较低,且模型精度、性能、可扩展性等指标质量也会受到影响。随着AI产业深入及智能化需求增加,AI在研发门槛及开发效率的问题日益凸显。“预训练大模型”应运而生,其将数据中蕴含的知识通过无监督或者自监督学习方式提取出来,存储在具有大量参数的神经网络模型中。AI应用开发流程转变为,调用通用流程-结合行业经验-解决实际问题。未来,大模型将成为AI产业的操作系统,其基础设施特性可为AI应用开发做好底座,将AI模型变得可维护、可扩展、可迭代,极大降低AI应用的开发门槛。从需求侧来看,客户能通过更低成本、高效率的MaaS(Model As a Service)路径获得AI能力,完成AIGC应用的个性化开发、优化及部署,持续兑现大模型的技术红利,将AI能力应用渗透到各行各业的场景业务中。
    图片
    市场需评估基础通用大模型产品服务能力
    艾瑞提出EPS-EPD评估体系,定位大模型产品的基模性能与商业能力
    大模型能力评测意义重大,评测结果可让供需两侧了解各家大模型能力的优势与不足,做出更好的产品调优与应用选择。随着大模型产业的发展迭代,评测基准体系也在不断完善。艾瑞判断,未来大模型的产品服务能力评测将作为一项工具包,打包在大模型平台中为客户提供产品服务。对此,艾瑞提出EPS-EPD评估体系,以其为核心构建一系列评测集,对市面公开大模型能力展开测评,全维度定位大模型产品的基模性能与商业能力,为业内各界对模型评估有结果需求的客户提供信息参考。
    图片