AI算力限制升级背后的“阳谋”

1月29日，美国商务部在Federal Register（联邦公报）正式公布了《采取额外措施应对与重大恶意网络行为相关的国家紧急状态》提案。

这个提案的意思并不复杂，就是要求美国IaaS（云服务）厂商在提供云服务时，要验证外国用户身份，限制外国行为者对美国IaaS产品的访问，并要求详细报告训练AI大模型的外国交易，以保护美国的网络安全和利益。

这次提案，相当于对此前中国AI封锁命令的“升级”。在美国限制高性能计算芯片对华出口的措施后，借用国外云厂商的服务，被认为缓解国内“缺芯”局面的“解决方案”。随着此次提案的出台，意味着美国实现了对中国AI产业从高端芯片到云服务整个基础设施的全面限制。

不过与高性能计算芯片的严格限制不同，此次法案更侧重于对中国大模型发展情况的长期监测。但即使如此，也不能完全排除后续更多限制政策的可能性。当所有人都被注意力放在追寻大模型性能极限的时候，在一个更大的舞台上，一场关乎人工智能的角逐也在缓缓拉开帷幕。

/ 01 / AI封锁再升级

此次提案一共38页，包含对AI模型、客户识别计划以及AI大模型训练审核报告等内容。具体来说，该提案的内容主要有三点：

一是要求美国IaaS提供商构建自己的客户识别程序（CIP）。而一旦该程序发现有“外国人”使用其云服务，并且用于训练具有“潜在用于恶意网络活动的能力的AI大模型”，美国IaaS提供商就必须向商务部提交涵盖“外国人”的身份、符合第14110号人工智能行政令规定或由商务部长确定的AI模型的“训练运行”情况等信息的报告。

二是要求美国IaaS提供商以及国外经销商构建维护、保护和获取在验证客户身份过程中访问的相关客户信息记录的程序。此记录必须包括客户首次尝试开设账户时提供的身份证据和属性的描述，验证客户身份所采取的任何措施的方法和结果的描述，以及验证识别信息时发现的任何实质性差异的解决方案的描述。也就是说，客户识别程序过程中的所有资料需被留存。

三是美国IaaS提供商还必须向商务部提交客户识别程序的认证表，其中包括用于验证外国人身份的机制、服务、软件、系统或工具的描述、用于要求客户通知IaaS提供商其所有权变更的程序、IaaS提供商用于持续验证客户提供信息准确性的流程，还必须描述IaaS提供商用于检测恶意网络活动的机制、服务、软件、系统或工具。

表面上看，这是为了防范潜在的AI威胁而采取的措施。但实质上，更像是美国政府于2023年10月17日出台进一步限制高性能计算芯片对华出口的措施之后，对中国AI封锁命令的又一次升级。

此次监管的思路借鉴于银行业的“了解你的客户”（Know Your Customer/KYC）思路。KYC是在金融领域应用很成熟的规则，在银行反洗钱和反恐怖主义融资等方面获得广泛的应用，且得到了国际社会的普遍认可与支持。

不过与高端芯片限制出口不同，美国此次针对云服务的出台的政策，至少从短期来看，观测属性大于监管属性。

一方面，美国把限制的主体范围控制在“美国IaaS提供商”，也就是说排除了没有注册在美国的中国或第三国云服务商和美国云服务商的海外子公司。

另一方面，根据拜登政府第14110号人工智能行政令，设定了一个阈值作为美国云服务商的开关，即如果有一个正在做AI大模型的美国云服务商客户需要非常强大的计算能力，大模型是在一群连接得很紧密、工作得很快的计算机上训练出来的，那么云服务提供商就需要向美国政府报告这些客户的情况。某种意义上讲，这更像是对中国大模型发展情况的长期监测。

至于基于这些发现，美国会做何决策仍然不得而知。正如美国商务部长雷蒙多对外宣称的那样，“我们正在努力获取这些信息。我们如何处理取决于我们发现了什么”。不过可以肯定的是，此次提案是中美两国在人工智能领域角逐的一次延续。

/ 02 / AI时代的大国博弈，从算力开始

为什么美国要限制芯片，现在又要对云服务出手？一个很重要的原因是，对当下AI大模型发展来说，算力实在是太重要了。

在一个大模型构建和迭代过程中，需要经过大量的训练计算工作，算力需求可分为训练与推理两大阶段。与训练阶段相比，推理阶段的算力需求相对更低。到目前为止，算力需求主要集中在训练阶段。

通常来说，大模型训练一次是几乎不可能训练成功的，存在着大量的失败和反复，此外为保证模型迭代的更快，也需要进行大量的并行训练。即便打造出第一版大模型，后续模型的持续迭代的成本无法避免。

不仅如此，随着大模型参数的增加，所需要的算力也迅速增长。根据此前披露的消息，GPT-4的FLOPS约为2.15e25，并利用约25000个A100 GPU进行了90到100天的训练，如果OpenAI的云计算成本按每A100小时约1美元计算，那么在这样的条件下，训练一次GPT-4的成本约为6300万美元。

在算力构成里，GPU 是训练模型与加速推理的关键算力硬件，也是成本的“大头”，能够占到整个服务器成本的55-75%。GPU 的性能，决定了这个新兴行业的步调。但是，受限于摩尔定律的限制，GPU性能提升的速度，已经落后于大模型训练和推理需求的增长。

随着大模型的出现，市场对算力需求的增长井喷。据OpenAI测算，自2012年以来，人工智能模型训练算力需求每3~4个月就翻一番，每年训练AI模型所需算力增长幅度高达10倍。

相比之下，GPU更迭效率仍然延续着摩尔定律。根据摩尔定律，芯片计算性能大约每18-24个月翻一番。从目前看，尽管H100相比A100性能有明显提升，但并没有像模型训练算力需求那样有明显数量级的增长。

如果把大模型定义为AI 2.0时代，至少到目前为主，作为AI 2.0 时代的基础设施，以英伟达为代表的芯片厂商或云服务商成为了这波浪潮的最大“赢家”，并在仍然将在相当一段时间里影响行业格局的走向。这也是为什么美国要堵上云服务“漏洞”的原因。

/ 03 / 危机背后蕴藏的机会

此次提案对中国AI行业发展固然有影响，但也没必要过分夸大。

从过去看，美国云服务厂商在中国市场份额一直较低。IDC 最新发布的《中国公有云服务市场 (2022 下半年) 跟踪》报告显示，AWS 在中国的市场占比仅为 7.9%，微软Azure 则被合并进入到了“其他”厂商的大类当中。

到了去年，受大模型崛起影响，AWS份额有所提升，但提升幅度仍然有限。

根据IDC中国2023年《中国公有云服务市场跟踪》报告的统计数据，亚马逊AWS目前在中国的市场份额为8.6%，相较于2022年下半年提升了0.7个点，而微软Azure在中国的市场份额依然少到几乎可以忽略不计。

从短期看，限制使用国外云服务，对大量没有足够的资金自建AI计算中心的中小型研发与模型管理维护企业可能会产生较大的影响。但长期来看，由于大模型训练可能会涉及到一些敏感数据，使用美国云服务也存在比较大的数据安全和国家安全隐患。即使没有此次法案，放在大国博弈的视角下，也始终不是长久之计。

相反通过此次契机，更有机会加速推动国产芯片以及云服务厂商的发展。据天风证券此前测算，英伟达限令升级后2024年AI国产芯片新增市场空间700亿+。

尽管与市场主流英伟达A100产品仍存在一定差距，但能够明显看到，国内厂商训练芯片产品硬件性能不断取得突破。以燧原云邃T20产品为例，其内存宽带不足A100的1/3，在应对机器学习和深度学习的带宽需求上仍有差距，但其32位单精度浮点性能达到32TFLOPS，高于A100的19.5TFLOPS，且在功耗上更具优势。

不仅如此，大模型企业也纷纷加大了国产AI芯片的采购力度。去年下半年开始，360和百度分别向华为采购了1000个左右和1600个华为昇腾910B AI 芯片，华为昇腾910B对标的是Nvidia A100 芯片。而早在8月，百度内部已经下令其AI系统“文心一言”使用的芯片，改向华为采购昇腾（Ascend）910B系列AI芯片。

不出意外，这样的趋势会在未来加速演绎。种种迹象显示，从“光刻机禁令”到TikTok出海，这是一个对全球化并不友好的时代。如今，这把“火”已经烧到了人工智能，高端芯片和云服务法案大概率只是一个开始。

原文标题 : AI算力限制升级背后的“阳谋”

AI算力限制升级背后的“阳谋”

相关推荐