体育游戏app平台翌日可能容纳数十万个英伟达 AI 芯片-开云体育登录入口kaiyun官网首页

栏目分类

热点资讯

新闻>>你的位置：开云体育登录入口kaiyun官网首页 > 新闻 > 体育游戏app平台翌日可能容纳数十万个英伟达 AI 芯片-开云体育登录入口kaiyun官网首页

体育游戏app平台翌日可能容纳数十万个英伟达 AI 芯片-开云体育登录入口kaiyun官网首页

发布日期：2025-12-03 10:06 点击次数：151

体育游戏app平台翌日可能容纳数十万个英伟达 AI 芯片-开云体育登录入口kaiyun官网首页

图片系 AI 生成

自 OpenAI 发布 ChatGPT 两年来，大模子产业发展的脚步似乎慢了。但是大洋此岸，xAI、Meta、OpenAI 等宽敞科技巨头皆在积极布局 10 万卡乃至更大范围的智算集群，冲刺 AGI，国内相似循着相似的递次。但是，受限于芯片供应等原因，国内构建 10 万卡集群面对着三浩劫题：跨地域部署、多芯混训以及集群踏实性，这些难题包括时间和工程上的多重挑战。

十万卡，AGI 的门槛

7 月 22 日，马斯克晓谕位于好意思国田纳西州孟菲斯市的孟菲斯超等集群启动参预试验。该集群配备了 10 万个英伟达 H100 GPU，被称为 "寰宇上最遒劲的 AI 试验集群"。两个月后，马斯克在 X 平台上晓谕该集群名为 " Colossus（巨东谈主）"，将在翌日几个月内再加多 10 万颗 GPU，其中 5 万颗将是更为先进的英伟达 H200。 Grok 3 大模子正在超算中心中进行试验，试验瞻望在三到四个月内完成，目标是在本年 12 月发布 Grok 3。

另一家科技巨头 Meta 也不示弱。Meta 首席履行官马克 · 扎克伯格在第三季度财报电话会议上默契，Llama 4 模子正在一个由 10 万片 H100 GPU 构成的集群上进行试验，并瞻望在来岁头度推出。为了复古大模子，Meta 瞻望本年度本钱开销将高达 400 亿好意思元，比昨年加多了向上 42%。扎克伯格在财报电话会议中强调，来岁将进一步加大对 AI 基础要领的投资。

而大模子领头羊 OpenAI 与微软的"黄金搭档"却因为设想集群的委用进程产生了不合。此前微软与 OpenAI 互助共建一个代号为 "星际之门" 的巨型数据中心面貌。这个面貌瞻望成本向上 1150 亿好意思元，旨在容纳一台面向 AI 的配备数百万块 GPU 的超等设想机。

据报谈，微软设想到来岁年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。但是面对紧追不舍的敌手，阿尔特曼似乎对微软的速率不景观。完成 66 亿好意思元融资后，OpenAI 启动寻求愈加孤立的数据中心和云处事花样并与甲骨文达成了公约，将在德克萨斯州的一个新数据中心租用处事器。该数据中心被誉为寰宇上最大的数据中心之一，翌日可能容纳数十万个英伟达 AI 芯片。

百度凸起系统架构师、百度智能云 AI 设想部认真东谈主王雁鹏默示，从好意思国科技企业荒诞布局 10 万卡不错看出，Scaling Law 定律现在看仍然有用。公开数据娇傲，GPT-3 的试验数据集包含 3000 亿个 token，而 GPT-4 的试验数据集包含约 13 万亿个 token。模子的捏续升级，意味着数据量的指数级增长，而试验数据量的升级对设想集群也建议了挑战，10 万卡的试验集群恰是为了骄矜模子参数增长所带来的高算力需求。

10 万卡集群难在哪？

10 万卡虽好，但部署如斯大范围的算力集群会面对很大挑战。王雁鹏先容，过程多年的时间蓄积和产业实践，百度的百舸 4.0 已约略罢了 10 万卡集群的高效照管，并通过 HPN 高性能收罗、自动化混训切分战略、自研迫临通讯库等一系列居品时间立异，一定程度上惩处了上述难题。

举例，好意思国老旧的电网就无法跟上大模子的步调。由于集群耗电量强大，好意思国的众巨额据中心皆碰到了电网崩溃。一位微软工程师曾默示，为 GPT-6 搭建 10 万个 H100 试验集群时，总共这个词电网发生了崩溃。据估算，一个 10 万卡集群每天的耗电量达到 300 万度，超过于北京市东城区一天的住户用电量。此外，10 万卡集群需要轻视 10 万普通米，超过于 14 个轨范足球场的面积，淌若念念在单一开垦中部署这样大的集群，将面对选址清苦和规定纵脱等挑战。

出于上述原因，好意思国科技公司的超大集群大多弃取跨地域部署。为了冲突单一数据中心的范围纵脱，谷歌和微软已入部下手将大范围模子试验膨胀至多个数据中心园区。其中，谷歌的 Gemini 1 Ultra 模子已当先罢了巨额据中心试验。微软设想将其在凤凰城的 AI 试验基地膨胀至 10 座开垦，自建 24 个数据中心，在多个超大范围园区互联，实施袒护全好意思的大范围散布式试验。

王雁鹏先容，由于电网配电纵脱、占地空间大等原因，十万卡集群需要跨楼、跨园区，致使跨城部署。而这种跨地域部署例必会加多收罗通讯的复杂性。跨地域通讯需要惩处长距离通讯延长、拥塞适度等时间问题。

国内企业构建 10 万卡集群还面对着一个执行的清苦：芯片。国内企业面对算力供应不踏实的挑战，较难构建单一大范围试验集群。执行情况是，企业里面会出现并吞厂商不同代际芯片，或者不同厂商芯片共存的情况。这些芯片怎么进行混部试验，同期保证混部试验的后果亦然难题。

此外，跟着芯片集成度的握住提高，芯片的故障率也会相应高涨，英伟达 H 系列芯片的故障率比 A 系列高 3-4 倍。而况算力集群范围越大，其故障率就越高。按照 H 系列芯片的故障率水平，十万卡集群每 20 分钟就会出现故障。较高的故障率对踏实性试验保险建议了更高的条目。

王雁鹏先容，包括百度在内的国内厂商正在破解这些难题。在跨地域方面，针对由于传输距离变长所产生的高延长，百舸 4.0 照旧构建了十万卡级别的超大范围 HPN 高性能收罗，通过提供更高效的拓扑结构、更优的多旅途负载平衡战略及通讯战略，约略罢了几十公里的跨地域通讯。同期，在通讯后果上，通过优化的拥塞适度算法、迫临通讯算法战略，将带宽有后果升迁至 95%，罢了了鼓胀无壅塞。终末，通过 10ms 级别超高精度收罗监控，保险了收罗踏实性。

在多芯混训方面，百舸约略将不同场所、不同范围的异构算力进行斡旋照管，构建起多芯资源池。当业务提交责任负载时，可自动进行芯片选型，依据集群剩余的芯片资源，弃取性价比最高的芯片来运行任务，从而最大化地旁边集群的剩余资源。最终，可罢了高达 95% 的万卡多芯搀杂试验效用。

在集群踏实性方面，百舸提供全面的故障会诊技能，不错快速自动侦测到导致试验任务非常的节点故障。同期，百度自研的 BCCL（百度迫临通讯库），约略快速定位故障同期提供自动化的容错能力，重新转移任务到健康节点，链接完成试验，现在照旧将故障复原时辰从小时级镌汰到分钟级。

王雁鹏默示，公有云是企业进行大模子试验的主流花样。在 10 万卡集群出现之前，为骄矜企业大模子的试验需求，云厂商经常选拔处事一个企业，搭建一个集群的花样。但是，这种花样存在彰着短处，即每个集群皆是为特定企业处事，在企业的试验任务不处于岑岭期时，集群中的设想资源可能会处于闲置情景，形成资源的花消。而当 10 万卡集群出现后，云厂商就不错依靠这个大型集群为宽敞企业提供处事，把柄不同企业的需求动态分派设想资源，这样不仅提高了资源旁边率，也镌汰了企业使用云处事的成本，增强了云厂商在市集合的竞争上风。

（本文首发于钛媒体 APP体育游戏app平台，作家 | 张帅，剪辑 | 盖虹达）

上一篇：开yun体育网鉴定不移鼓舞商场、机构、产物全地点轨制型怒放-开云体育登录入口kaiyun官网首页
下一篇：开云体育成为一个传闻般的告捷故事-开云体育登录入口kaiyun官网首页