标题 摘要 内容
    详情

    【导读】2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。

    2025年4月7日,每年都备受瞩目的斯坦福AI指数报告,重磅发布了!

    这份报告由斯坦福大学以人为本AI研究员发布,代表着每年AI领域最核心和前沿的动向总结。

    今年,这份报告长达456页,抛出不少惊人观点。


    图片

    比如,如今在2025年,中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型正在快速追赶美国的领先地位!

    而DeepSeek领衔的开放权重模型,更是以1.7%之差,逼宫各大闭源巨头。前者和后者的差距,已经由2024年的8%,缩小至2025年的1.7%。

    当然,目前从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。

    明显的一个趋势,就是如今大模型的性能已经趋同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。


    图片

    图片

    十二大亮点

    最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。

    1. AI性能再攀高峰,从基准测试到视频生成全面突破

    2023年,研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

    仅一年后,性能便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

    不仅如此,AI在生成高质量视频方面取得重大突破,甚至,在某些场景下AI智能体甚至超越人类表现。


    图片


    · 更有用智能体崛起 

    2024年发布的RE-Bench基准测试,为评估AI智能体复杂任务能力设立了严苛标准。

    数据显示:在短期任务(2小时内)场景下,顶级AI系统的表现可达人类专家的4倍;但当任务时限延长至32小时,人类则以2:1的优势反超。

    值得注意的是,AI已在特定领域,如编写特定类型代码,展现出与人类相当的专业水平,且执行效率更胜一筹。


    图片


    2. 美国领跑顶尖模型研发,但中国与之差距逐渐缩小

    2024年,美国产出40个重要AI模型,远超中国的15个和欧洲的3个。

    然而,中国模型在性能上的差距正加速缩小:MMLU等基准测试中,中美AI差异从两位数缩小至近乎持平。

    同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地区也涌现出具有竞争力的模型。


    图片


    3. AI正变得高效且普惠,推理成本暴降280倍


    随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。

    更令人振奋的是,开源模型性能突飞猛进,部分基准测试中与闭源模型的差距从8%缩至1.7%。

    · 大模型使用成本持续走低,年降幅最高900倍

    在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。

    视具体任务需求,LLM推理服务价格的年降幅可达9-900倍不等。


    图片

    · 小模型性能显著提升,参数暴减142倍

    2022年,在大规模多任务语言理解(MMLU)基准测试中,得分超60%的最小模型是 PaLM,参数量为5400亿。

    到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。

    这代表,两年多的时间里模型参数减少了142倍。


    图片


    4. 科技巨头称霸AI前沿,但竞争白热化


    2024年,近90%的重要模型源自企业,学术界则保持基础研究优势。

    模型规模呈指数增长:训练算力每5个月翻番,数据集每8个月扩容一倍。

    值得注意的是,头部模型性能差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。


    图片


    5. AI逻辑短板,推理能力仍是瓶颈


    采用符号推理方法的AI系统,能较好解决IMO问题(虽未达人类顶尖水平),但LLM在MMMU等复杂推理任务中表现欠佳,尤其不擅长算术推导和规划类强逻辑性任务。

    这一局限影响了其在医疗诊断等高风险场景的应用可靠性。


    图片


    6. 大厂ALL in AI,投资与采用率创双纪录


    科技大厂们,正全力押注AI。

    2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。

    生成式AI势头尤猛,全球私募投资达339亿美元(同比增18.7%)。

    与此同时,企业AI采用率从55%升至78%。研究证实,AI不仅能提升生产力,多数情况下还可缩小劳动力技能差距。

    更引人注目的是,将生成式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至去年的71%,增幅超一倍。


    图片