2023年人工智能行业回顾
生成式AI大模型快速发展
2022年11月,OpenAI发布的ChatGPT在短短两个月内就吸引了超过1亿用户,掀起了对大模型的热潮。紧随其后,2023年1月,OpenAI发布了新一代大模型GPT-4,相比GPT-3的参数规模增加了100倍,达到了惊人的1360亿参数。GPT-4不仅在文本处理能力上有质的飞跃,还可以处理图像等多种模态。
在ChatGPT获得巨大关注后,微软、谷歌等科技巨头纷纷加快在AI领域的布局。3月,微软宣布将GPT-4技术应用于搜索引擎Bing,以及Office等产品,实现了从云服务到终端的全面部署。谷歌也在2月推出了新一代AI系统Bard,5月发布了多模态模型PaLM-2。可以看出,大模型已成为各大企业竞相布局的方向。
8月,我国首批22个大模型完成备案上线,百度“文心一言”等进入商用阶段。中国大模型产业也进入了快速增长期。仅2023年,国内大模型的发布数量超过100个。与国外通用型大模型不同,中国的大模型更关注行业应用,如面向医疗领域的“医知诊所”、金融领域的“随行付”等。这是中国大模型发展的一个特色。
算法进步推动模型变“大”
近年来人工智能模型规模获飞速增长,得益于算法技术的重大进展。其中,具有划时代意义的是Transformer和“生成式训练”策略。
2017年,Google提出的Transformer模型采用了自注意力机制。这一机制打破了传统模型只能顺序处理的限制,实现了并行计算。这样一来,模型的训练时间大幅减少,使得规模数十亿级甚至百亿级的巨型模型成为可能。Transformer模型为人工智能的发展打开了新的大门。
在模型训练策略上,提出“生成式训练”也是一大突破。以GPT系列模型为代表,它们通过不断“预训练”,从海量文本中学习语言知识和语言表达能力,得到了比以往更强的语言理解生成能力。正是因为采用了“生成式训练”,ChatGPT才能进行如此逼真的语言交互。
得益于算法创新,大模型的规模不断扩大。早期的大模型参数基本在亿级,而GPT-3已达1750亿参数,GPT-4进一步增至1360亿参数,比GPT-3还要大出近10倍。参数量的增加直接导致了模型能力的极大提升。
算力成为大模型发展的关键基础
随着生成式AI的发展,算力正从通用处理器向专用处理器转移。根据《2023人工智能现状报告》,2023年专用处理器市场份额已达47%,而通用处理器下降至53%。其中,GPU份额从2022年的45%下滑至38%;而TPU份额从8%增至17%。
在专用处理器中,NVIDIA仍占据主导地位。其2023年销售收入达到历史新高,超过500亿美元,其中数据中心销售占比达40%。除NVIDIA外,谷歌、华为、亚马逊等也在自主研发TPU、NPU等专用芯片,争夺这一快速增长的市场。
在内存子系统中,SRAM也正在取代RAM,成为AI计算的首选。2023年,SRAM市场占比已达32%,RAM下滑至68%。NVIDIA的GPU使用HBM2E高带宽SRAM,谷歌TPU使用HBM低功耗SRAM。
与模型规模的增长相对的是计算能力需求的爆炸式增长。以OpenAI最大模型为例,其训练需要数千个GPU并持续3-6个月之久。这对算力提出了极高的要求。因此,专用于AI计算的芯片成为各大科技公司热点竞相布局的方向。
2021年,百度推出自主研发的昆仑芯片;2022年,华为发布自主可程控芯片鲲鹏;英伟达也在其数据中心GPU上进行了针对AI计算的优化。这些芯片大幅提升了AI模型训练和推理的速度。同时,云计算平台正在成为大模型的主要运行环境。以阿里云为例,其自研的云计算芯片Hanguang 800正是针对AI计算进行了优化设计。
阿里云研究院提出大模型是云计算的“第三次浪潮”。弹性的云计算资源正是大模型得以快速迭代和商业化的关键基础。未来随着大模型在更多场景的应用,云计算市场空间也将持续扩大。
安全与伦理成为行业关注焦点
与人工智能发展的热潮相伴而生的是安全和伦理问题。这已成为业内和社会广泛关注的焦点。
首当其冲的是AI生成内容造假问题。大模型生成的文字、图片和视频具有极高的逼真性,可能被用来生成和传播假新闻、虚假信息,从而危害公众利益。其次是隐私和数据安全问题。大模型训练需要大量数据,若数据来源不当,可能导致用户隐私泄露。此外,训练数据本身也存在选择偏见,可能导致模型生成有害偏见内容。
鉴于人工智能的负面影响,欧盟等国家已推出相关监管政策。中国也发布了《人工智能治理原则》。业界呼吁要建立“可信赖的人工智能”,在创新应用的同时兼顾伦理和安全底线。只有让公众对AI建立信任,AI才能真正造福人类。
2024年人工智能展望
多模态交互将成为发展方向
现阶段的人工智能系统多是单一模态,如只能处理文本或语音等单一类型信息。未来AI系统将向多模态发展,不仅可以处理多种类型信息,还可以实现不同模态之间的转换,如文本转语音、图像生成文字描述等。
以ChatGPT为例,其后续版本很可能将加入语音交互的功能。用户可以通过语音提问,AI系统生成语音回答。未来系统还可根据语音描述生成对应图片。这类多模态交互将大幅提高人机交互的友好性。
实现多模态交互需要图像、语音、语言理解等多个子领域的能力融合。这对算法和模型提出了更高要求。当前多模态任务的效果还落后单一模态,但相关技术都在快速进步。业界预计多模态AI将推动新一轮产业革命,是实现通用人工智能的重要基础。
开源社区将推动技术创新
人工智能开源社区正在蓬勃发展,已成为推动技术创新的重要力量。包括Anthropic、EleutherAI、Hugging Face等机构都在推动大模型的开源工作。以每年超过100%的速度快速增长的开源大模型,使广大研发者可以基于这些模型进行创新探索。
相比商业大模型,开源模型降低了技术门槛,避免了对少数大公司的依赖,有利于形成技术生态。当前,开源社区的研究热点包括:在小模型上复现大模型的能力、探索混合专家模型等。可以预见,随着社区势力的增强,开源技术必将取得更多突破,推动整个行业进步。
行业应用将持续拓展
当前,人工智能技术已在零售、制造、金融、医疗等广泛的行业领域展现出巨大应用潜力。
以医疗为例,人工智能可以辅助医生读片、提高诊断效率、优化治疗方案等。金融领域使用AI分析海量非结构化数据,实现精准营销和反欺诈。制造业应用AI进行产品质量预测、工艺优化、故障预测维修等。
面向行业和场景的定制化解决方案是当前应用拓展的主要方向。这需要根据行业特点构建高质量的数据集,并融合领域知识进行模型微调。若能提供出色的用户体验,此类定制AI产品具有明显的竞争优势。
AI辅助开发将提升生产力
AI赋能软件开发是当前的热点方向之一。代码自动生成是其中的重要应用场景。以GitHub的Copilot为例,它可以根据开发者输入的评论、函数名等自动生成代码。统计数据显示,使用Copilot可以将开发工作量减少超过50%。
代码生成只是开始,未来人工智能将辅助测试、调试、项目管理等软件开发的全流程,使开发效率整体出现质的飞跃。在低代码开发平台上,AI也展现出广阔的应用前景。简单的语音或图形输入,就可以通过AI生成完整程序,开发门槛将大幅降低。
安全治理将趋严格
安全和伦理问题是人工智能亟待解决的难题。其中,参数规模巨大的大模型更需要引起足够重视。
在法律法规方面,数据本地化、出境安全评估等监管力度可能会进一步加强,对关键数据和算法的流通实施严格审查。企业也将加大安全治理力度,通过技术手段增强产品的安全性和可解释性。
此外,还需要加强对开发者和公众的安全教育。提高安全意识,规范使用场景,最大程度减少潜在风险。只有实现安全与开放的平衡,人工智能才能健康发展。
结语
人工智能技术正处于快速演进时期,2023年标志着该领域从感知智能迈向认知智能的关键一步。在抓住发展机遇的同时,我们更需要保持理性,关注技术对社会的影响。只有积极而稳妥推进人工智能的应用,它才能发挥巨大力量,造福人类文明。