斯坦福:13张图揭秘全球AI产业现状

斯坦福:13张图揭秘全球AI产业现状

今年的斯坦福AI指数报告(一份超过300页的报告,追踪2023年全球人工智能的趋势)近日已经发布。

 

该指数是斯坦福人工智能以人为本研究所(HAI)的一个独立项目,由来自学术界和产业界各个学科的专家组成的AI指数指导委员会领导。今年的报告涵盖了多模态基础模型的崛起、对生成式AI的重大现金投资、新的性能基准、全球观点的变化,以及新的重大法规。

 

让我们通过该报告中最主要的13张图来了解AI产业现状。

向开源迈进

在过去的一年中,各组织发布了149个基础模型,数量是2022年的两倍多。在这些新发布的模型中,有65.7%是开源的(意味着任何人都可以自由使用和修改),相比之下,2022年只有44.4%,2021年为33.3%。

 

图片

 

开源模型性能更差?

封闭源代码模型仍然优于开源模型。在选定的10个基准测试中,封闭模型的性能中位数优势为24.2%,差异范围从数学任务如GSM8K的4.0%到代理任务如AgentBench的317.7%。

 

图片

 

具体来说,它列举了四个不同领域的AI基准测试,每个测试的性能提升百分比:

 

代理行为(Agent-based behavior): AgentBench —— +317.71%

 

数学推理(Mathematical Reasoning): MATH —— +39.57%

 

编程(Coding): HumanEval —— +54.82%

 

通用语言(General Language): MMLU —— +27.54%

 

每个基准测试的名称都有其对应的性能提升百分比,以及一个条形图来直观地表示这些数据。条形图上的颜色不同,可能用于区分不同的测试或者展示不同的数据组。

 

这些数据表明,相比于开放模型,在AgentBench测试中的代理行为性能有最显著的提升,而在通用语言能力测试MMLU中的提升则相对较小。   

 

行业主导者

工业界在构建和发布基础模型方面占主导地位。过去一年中,谷歌在发布模型数量上超过了其他行业玩家,包括Gemini和RT-2。实际上,自2019年以来,谷歌在发布基础模型数量上一直领先,总共发布了40个,紧随其后的是OpenAI,发布了20个。学术界相对落后:去年,加州大学伯克利分校发布了三个模型,斯坦福大学发布了两个。

 

图片

 

工业界AI巨头占多数

这幅图表展示了从2019年到2023年不同部门开发基础模型的数量,在2023年,工业界占所有新基础模型的72%。基础模型是大型、预训练的模型,可以被进一步调整用于多种不同的任务和应用。图表根据部门区分了四个类别:

 

工业(Industry): 显示了一个显著的上升趋势,到2023年达到了108个模型。   

 

学术界(Academia): 增长相对平缓,到2023年达到了28个模型。

 

工业-学术合作(Industry-academia collaboration): 显示了小幅增长,到2023年达到了9个模型。

 

政府(Government): 保持了较低的增长,2023年有4个模型。

 

工业-政府合作(Industry-government collaboration): 这个类别在图表中未显示增长,数量保持在0。

 

图片

 

模型训练成本飙升

学术界和政府在人工智能竞赛中被边缘化的原因之一是:训练这些巨型模型的成本呈指数级增长。谷歌的Gemini Ultra训练成本估计为1.91亿美元的计算资源,而OpenAI的GPT-4的训练成本估计为7800万美元。相比之下,2017年引入了几乎支持所有现代大型语言模型(LLM)架构的原始变压器模型,其成本仅约900美元。   

 

图片

 

图表的纵轴代表训练成本,单位是美元,并使用对数尺度从1,000美元到100,000,000美元。横轴表示训练计算的规模,单位是petaFLOP(千万亿次浮点运算),同样使用对数尺度从10千petaFLOP到100千亿petaFLOP。

 

人工智能竞赛

至少在机器学习模型数量方面,美国在2023年远远超过了其他国家,共开发了61个模型。自2019年以来,美国一直在引领大多数引人注目的模型的开发,其后是中国和英国。   

 

图片

 

部分达到了人类水平

截至2023年,人工智能在许多重要的AI基准测试中达到了人类水平的表现,这些测试从阅读理解到视觉推理不等。然而,在一些如竞赛级数学的基准测试中,它仍略有不足。由于人工智能在许多标准基准测试中的表现突飞猛进,AI学者不得不创建新的更具挑战性的任务。今年的指数还追踪了几个这样的新基准,包括编码、高级推理和代理行为等任务的基准。   

 

图片

 

各条曲线表示不同的AI性能指标:

 

图像分类(ImageNet Top-5): 这条曲线表明AI在图像分类方面的性能很早就超过了人类的基线。

 

基本阅读理解(SQuAD 1.1): AI在阅读理解任务上的表现在2018年左右超过了人类。

 

英语语言理解(SuperGLUE): 这是一个更复杂的语言理解基准,AI的性能在2021年左右超越了人类。

 

视觉推理(VQA): 在视觉问题回答方面,AI性能在2020年后迅速上升,并在2023年接近人类表现。

 

多任务语言理解(MMLU): AI在这个多任务语言理解基准上的表现在2022年显著提升,接近但尚未超过人类表现。

 

竞赛级数学(MATH): AI在竞赛级别的数学问题解决上的性能在2022年快速上升。

 

私人投资下降

尽管自2021年以来人工智能私人投资持续下降,生成式AI的发展却在加速。2023年,该领域吸引了252亿美元的投资,几乎是2022年投资的九倍,大约是2019年的30倍(可以称之为ChatGPT效应)。2023年,生成式AI占所有与AI相关的私人投资的四分之一以上。

 

图片

 

美国在AI领域的领先资金投入

2023年美国在人工智能私人投资领域占据主导地位。2023年,美国的投资额为672亿美元,大约是投资额第二高的国家中国的8.7倍,是第三高的国家英国的17.8倍。从更广的角度看,自2013年以来的累计投资也显示出相同的排名:美国以3352亿美元领先,其次是中国的1037亿美元,英国为223亿美元。   

 

图片

 

AI在企业的渗透率

越来越多的公司在其业务的某些部分实施人工智能:在调查中,55%的组织表示他们在2023年使用人工智能,高于2022年的50%和2017年的20%。企业报告称,他们使用人工智能自动化联系中心、个性化内容和获取新客户。   

 

图片

 

具体来说,它展示了企业在五个不同领域应用AI的百分比:

 

呼叫中心自动化(Contact-center automation): 26%的企业正在使用AI来自动化呼叫中心的运营。

 

个性化(Personalization): 23%的企业在使用AI进行产品或服务的个性化。

 

客户获取(Customer acquisition): 22%的企业利用AI来获取新客户。

 

基于AI的产品增强(AI-based enhancements of products): 同样有22%的企业在现有产品中整合AI功能以提升产品价值。

 

创建新的基于AI的产品(Creation of new AI-based products): 有19%的企业在使用AI开发全新的产品。

 

从这些数据可以看出,呼叫中心自动化是当前AI在业务中最常见的应用,而创造新的AI产品则相对较少。这可能反映了企业倾向于先在现有流程中集成AI,之后再探索开发全新的AI驱动产品。   

 

年轻人和富裕人群对工作被AI替代感到担忧

在全球范围内,大多数人预计人工智能将改变他们的工作,超过三分之一的人预计人工智能将取代他们。年轻一代——Z世代和千禧一代——与老一代如X世代和婴儿潮一代相比,预计人工智能将对他们的工作产生更大的影响。具体来说,66%的Z世代相比之下,46%的婴儿潮一代受访者认为人工智能将显著影响他们目前的工作。与此同时,拥有更高收入、更多教育和决策角色的个体预见人工智能将对他们的就业产生重大影响。

 

图片

 

澳大利亚和英国人民对AI产品最忧心忡忡

在一项关于人工智能产品和服务是否让您感到紧张的调查中,69%的澳大利亚人和65%的英国人表示表示担忧。日本对其人工智能产品的担忧程度最低,仅为23%。   

 

图片

 

监管机构针对AI的行动

越来越多的美国监管机构通过了法规,以保护公民并管理人工智能工具和数据的使用。例如,版权局和国会图书馆通过了关于包含由人工智能生成的材料的作品的版权注册指南,而证券交易委员会则制定了一项网络安全风险管理策略、治理和事件披露计划。通过最多监管的机构是总统行政办公室和商务部。 

 

图片

元宇宙投融邦 元宇宙投融邦
0
0
发布评论
后可评论
0/1000
全部评论

暂无评论,来抢沙发

猜你喜欢 换一批
数据加载中,请稍候...