英国Air Street Capital 发布《人工智能全景报告 2024》
2024年10月,英国风投公司Air Street Capital 团队和Nathan Benaich发布《人工智能全景报告 2024》,对人工智能领域的研究、产业、政治和安全等方面进行了全面分析,并对未来发展做出了预测。报告显示,人工智能领域在模型性能、应用拓展、产业格局、政策监管和安全研究等方面取得了显著进展,同时也面临着诸多挑战和不确定性。
一、核心观点
1. 模型性能与研究进展
前沿实验室模型性能趋同,但 OpenAI 的 o1 在推理计算方面表现突出,推动规划和推理成为研究前沿。
基础模型在多模态研究中取得进展,突破语言限制,应用于数学、生物学、物理学等多个领域。
中国(V)LLMs 在社区排行榜上表现出色,部分模型在特定任务上超越美国同类模型。
2. 产业格局与市场动态
NVIDIA 成为全球最强大的公司之一,其市场资本达到 3T 美元,各大实验室依赖其硬件,但也面临着竞争和挑战。
生成式 AI 公司收入增长,但盈利模式仍不清晰,长期定价和可持续性问题待解。
AI 应用在多个领域迅速发展,如企业自动化、法律科技、视频生成等,同时也面临着版权、伦理等问题。
3. 政策监管与地缘政治
各国政府加强对 AI 的监管,美国出台行政命令,欧盟通过 AI 法案,中国进入 AI 监管执法时代,但监管措施的实施和效果仍有待观察。
美国对中国的 AI 技术出口和投资限制收紧,影响了芯片制造商和科技公司的合作。
计算需求的增长对科技公司的碳排放和能源基础设施提出了挑战,引发了对可持续发展的关注。
4. 安全风险与应对措施
AI 安全研究从强调风险转向加速发展,公司在推动产品应用的同时,也面临着模型越狱、对抗攻击等安全问题。
各国政府和机构加强对 AI 安全的研究和监管,建立安全机构,制定评估框架,但在具体实施和标准设定上仍存在争议。
研究人员探索多种方法提高模型的安全性和可靠性,如改进对齐算法、增强模型解释性等,但仍面临诸多挑战。
二、模型性能与研究进展
1. 前沿模型竞争态势
OpenAI 的 o1 在推理计算方面表现出色,通过将计算从训练转移到推理,实现了复杂问题的逐步推理,在数学和科学任务上取得显著进步,但成本较高。
Claude 3.5 Sonnet、Gemini 1.5 和 Grok 2 等模型性能提升,与 GPT - 4 差距缩小,模型在编码、事实回忆和数学等方面能力较强,但在开放问题回答和多模态问题解决方面有待提高。
Llama 3 系列模型在推理、数学、多语言和长上下文任务中表现出色,与 GPT - 4o 等模型竞争,其中 Llama 3.1 405B 在某些任务上与 GPT - 4o 相当,Llama 3.2 引入多模态能力,基于 Llama 的模型下载量超 4.4 亿次。
2. 模型评估与优化
模型评估方法不断发展,LMSYS Chatbot Arena Leaderboard 成为社区评估模型的重要方式,但结果存在争议,如 GPT - 4o 和 GPT - 4o Mini 在该榜单上得分相同且后者表现异常。
研究人员通过改进评估基准、数据处理和模型优化等方法提高模型性能,如 Google DeepMind 提出的 DiLoCo 算法减少通信需求,JEST 选择数据方法降低计算成本,同时研究者也关注模型压缩、量化和混合模型等方向,以提高模型效率和性能。
3. 模型的跨领域应用
基础模型在多个领域取得突破,如 AlphaFold 3 在蛋白质结构预测和相互作用分析方面表现优异,AlphaProteo 能够设计具有更高亲和力的蛋白质结合物,语言模型可设计人类基因组编辑器,ESM3 用于蛋白质序列、结构和功能的生成式建模。
在其他领域,如大气科学、神经科学、机器人学等,基础模型也发挥了重要作用,如 Aurora 用于大气预测,MindEye2 重建大脑视觉,Wayve 的 LINGO - 2 实现语言与驾驶决策的结合,Segment Anything 2 扩展到视频分割。
三、产业格局与市场动态
1. 硬件市场格局
NVIDIA 总市值达到 3 万亿美元,成为全球最强大公司之一,其新推出的 Blackwell 架构 GPU 承诺性能提升和成本降低,尽管面临制造问题,仍有望实现高额收入。
AMD 和 Intel 投资软件生态系统,AMD 收购服务器制造商 ZT Systems,Intel 硬件销售下降,短期内难以挑战 NVIDIA 地位。
各大实验室寻求减少对 NVIDIA 的依赖,谷歌推出 Axion,Meta 推出第二代 AI 推理加速器,OpenAI 与谷歌 TPU 团队和 Broadcom 洽谈合作,同时 AI 芯片初创公司如 Cerebras 和 Groq 也在努力竞争,Cerebras 申请 IPO,Groq 获得高估值投资。
2. 生成式 AI 产业发展
生成式 AI 公司收入增长,OpenAI 收入有望三倍增长,但面临训练、推理和人员成本高导致亏损增加的问题。
模型价格和推理成本发生变化,o1 价格较高,其他模型如 GPT - 4o、Claude 等推理成本下降,谷歌 Gemini 系列定价具有竞争力。
企业从构建模型转向设计产品,注重产品化和用户体验,如 OpenAI、Anthropic 和 Meta 推出新功能和工具,同时行业内也出现了合作、收购和竞争等现象,如微软与 OpenAI、谷歌与 Anthropic 的合作,以及监管机构对关键参与者关系的审查。
3. 应用领域拓展与挑战
AI 应用在多个领域迅速发展,如企业自动化(FlowMind 和 ECLAIR 利用基础模型改进工作流程)、法律科技(AI 工具用于法律工作,Harvey 等初创公司获得投资)、视频生成(Runway、Pika 等公司竞争激烈,面临成本和质量挑战)、医疗(Med - Gemini 在医学领域取得进展,合成数据用于医疗图像生成)等。
同时,AI 应用也面临版权、伦理等问题,如模型训练数据的版权争议,以及 AI 生成内容的可靠性和安全性问题,部分公司采取版权合作或伦理认证等措施应对。
四、政策监管与地缘政治
1. 各国监管政策进展
美国出台 AI 监管政策,拜登签署行政命令,要求政府机构制定网络安全标准、发布 AI 使用政策、评估风险等,但该命令可被撤销,共和党已承诺废除。同时,各州也在制定自己的 AI 法规,如加利福尼亚州的 SB 1047 法案引发争议,最终被州长否决。
欧盟通过 AI 法案,成为首个采用全面监管框架的地区,该法案对 AI 风险进行分类管理,禁止 “不可接受风险” 应用,对基础模型和高风险系统提出要求,但在实施方面仍存在问题,行业有时间参与规则制定。
中国进入 AI 监管执法时代,要求实验室在模型发布前进行测试,确保政治问题回答正确,同时规范数据使用,禁止未经授权的数据抓取,对违反规定的行为进行处罚。
2. 地缘政治与国际合作
美国对中国的 AI 技术出口和投资限制收紧,影响了芯片制造商和科技公司的合作,NVIDIA 推出针对中国市场的芯片,中国企业通过多种方式获取芯片,如租赁海外数据中心的 GPU、通过中间商购买等。
国际合作方面,各国在 AI 治理方面进行合作,如英国举办 AI 安全峰会,各国签署合作声明,但具体实施和合作程度仍有待观察,法国等国家对 AI 治理的重点和方向有不同看法。
3. AI 对公共政策的影响
AI 发展对公共政策产生多方面影响,如计算需求增长对能源基础设施和碳排放提出挑战,科技公司的碳排放增加,数据中心电力需求预计大幅增长,部分国家和地区对数据中心建设进行限制。
AI 在国防领域的应用受到关注,美国国防部和相关机构投资于自主系统和无人机等项目,Anduril 等公司获得合同,但欧洲生态系统仍较小,AI 在国防领域的应用还面临技术、伦理和政策等多方面的问题。
五、安全风险与应对措施
1. 安全意识转变与公司策略调整
从强调 AI 安全风险转向加速产品应用,公司如 OpenAI 在产品推广中更注重功能和用户体验,同时也面临着安全与发展的平衡问题。
OpenAI 领导权争夺事件引发对 AI 安全问题的关注,Ilya Sutskever 离开 OpenAI 成立 Safe Superintelligence Inc.,专注于构建安全的 AGI,公司内部对安全问题的看法存在分歧。
2. 安全研究与技术发展
各国政府和机构加强对 AI 安全的研究和监管,英国成立 AI 安全研究所(AISI),美国、日本和加拿大跟进,AISI 负责评估模型、开展研究和协调国际合作,同时制定了相关的评估框架,如 Inspect。
研究人员针对模型越狱、对抗攻击等安全问题开展研究,提出多种防御方法,如 OpenAI 的指令层次结构、Anthropic 的警告防御、Gray Swan AI 的断路器等,但模型仍面临着红队攻击的挑战,如 GPT - 4o Mini 的指令层次结构被攻破。
3. 模型可靠性与对齐研究
研究人员探索提高模型可靠性和对齐性的方法,如改进评估指标、增强模型解释性、优化对齐算法等,以解决模型的幻觉、偏见和不诚实回答等问题。
关于 RLHF 是否导致模型 “谄媚” 存在争议,Anthropic 认为 SOTA AI 助手存在此类行为,研究人员提出 Direct Preference Optimization(DPO)等替代方法,但 DPO 也可能存在 “过度优化” 问题,RLHF 在在线学习方面仍具有优势,Google DeepMind 提出结合 DAP 和 RLHF 的方法。