英伟达收购SchedMD引发AI调度软件中立性争议

张开发
2026/4/11 15:53:24 15 分钟阅读

分享文章

英伟达收购SchedMD引发AI调度软件中立性争议
英伟达近期收购了Slurm工作负载管理器背后的开发公司SchedMD此举在AI行业高管和超算领域专家中引发了广泛担忧。各方担心这家芯片巨头可能利用其新获得的地位通过代码优先级设置或技术路线图决策在竞争对手的芯片面前为自家硬件谋取优势。问题的核心在于英伟达目前掌控了一款同样运行在AMD、英特尔等竞争对手硬件之上的调度软件。路透社援引五位匿名消息人士的说法报道称——其中三位在AI行业任职两位熟悉超算运营——无论是否实际动用掌握工作负载调度软件的厂商对共享计算环境中竞争硬件的运行效率拥有相当大的话语权。接受InfoWorld采访的分析师表示英伟达承诺开源的声明——该公司在宣布收购时表示将继续以开源、厂商中立软件的形式开发和分发Slurm——可能并不足以提供充分保障。TechInsights半导体分析师马尼什·拉瓦特表示Slurm的开源基础提供了代码透明、可分叉和社区治理等保障机制但SchedMD的控制权赋予了英伟达软实力而非硬性锁定。他指出英伟达可能以隐蔽的方式左右技术路线图优先推进有利于自身硬件的GPU感知调度和拓扑优化而且从集成时间线来看CUDA生态系统的支持推进速度已明显快于AMD的ROCm或英特尔的oneAPI等替代方案——他将这种现象称为最优支持路径效应。Slurm最初由劳伦斯利弗莫尔国家实验室开发目前运行在全球约60%的超算系统之上。据路透社报道该软件正被Meta、法国AI初创公司Mistral及Anthropic等主要AI公司用于AI模型训练等工作。各国政府用于气象预报和国家安全研究的超算同样依赖这一软件。英伟达于2025年12月完成对SchedMD的收购并将此次交易定性为强化开源生态、帮助用户在传统超算工作的同时采用更新AI技术的战略举措。美国AI硬件与数据中心咨询机构Fab Economics的首席执行官丹尼什·法鲁基博士表示相关风险确实存在。英伟达可能在未来的软件更新中优先照顾自家硬件、进而拖慢或降低对竞争对手支持力度的担忧是完全有可能成为现实的。他表示作为主要开发者英伟达现在掌控着Slurm的官方开发路线图和代码审查流程这可能影响竞争芯片在新功能开发或持续优化方面的集成速度。他补充说将GPU、网络基础设施如InfiniBand以及控制平面集于一身使英伟达得以构建高度垂直整合的技术栈并由此形成他所称的浅层护城河——即某些高级功能仅在英伟达硬件上可用或性能最优。业界观察人士表示一个具体的检验节点将是英伟达将AMD下一代芯片集成进Slurm代码库的速度与其整合自身即将推出的硬件及网络技术如InfiniBand的速度相比如何。分析师将英伟达2022年收购Bright Computing作为参照案例认为此后该软件在优化方面向英伟达芯片倾斜令竞争硬件的用户处于不利地位。英伟达对此提出异议称Bright Computing支持几乎任何CPU或GPU加速集群。拉瓦特认为这一类比有借鉴价值但并不完全准确。英伟达收购Bright Computing的方式体现出其对垂直整合的偏好将Bright紧密嵌入DGX和AI工厂技术栈而非保持中立的多厂商编排角色。这折射出一种更宏观的战略模式——英伟达寻求掌控全栈AI基础设施体验。但他同时指出Slurm面临的挑战本质上有所不同。Slurm在超算中心和学术界根基深厚且实际上由社区治理迁移成本极高。英伟达或许能施加一定影响但在那些由成熟、中立、社区驱动平台主导的市场中不太可能复制同样程度的紧密整合控制。法鲁基承认Slurm在GNU GPL v2.0许可证下的开源属性提供了一定保护包括在社区认为英伟达的管理存在偏向时有权对项目进行分叉。但他警告称这一选项本身也存在风险。Slurm的开源状态提供了有限度的安全阀但并不能完全抵御厂商中立性的侵蚀。他指出此次收购将全球众多顶尖Slurm开发者纳入英伟达麾下这意味着一个由社区主导的分叉项目将难以维持相同的开发节奏。拉瓦特将当前局面定性为战略依赖风险而非危机建议各机构多元化GPU采购、在多厂商生态中对工作负载进行基准测试并培养内部专业能力以便在必要时修改或切换调度工具。法鲁基则建议企业买家在谈判Slurm支持协议时应争取明确适用于非英伟达硬件的服务水平保障涵盖响应时间、错误修复以及异构集群环境下的功能对等性。在架构层面他建议各机构考虑将AI工作负载容器化使应用与底层调度器解耦从而在必要时更便捷地迁移至Flux或Kubernetes等替代调度方案。QAQ1英伟达收购SchedMD之后Slurm还会保持对其他硬件厂商的中立支持吗A英伟达在收购时承诺继续以开源、厂商中立的方式开发和分发Slurm但分析师认为这一承诺并不足以完全保障中立性。英伟达作为主要开发者掌控着Slurm的官方路线图和代码审查流程可能以隐蔽方式优先推进有利于自身硬件的功能形成所谓最优支持路径效应对AMD和英特尔等竞争对手的硬件支持速度造成实质影响。Q2Slurm是什么为什么它在AI和超算领域如此重要ASlurm是一款开源工作负载管理器最初由劳伦斯利弗莫尔国家实验室开发目前运行在全球约60%的超算系统之上。它负责调度和管理计算资源被Meta、Mistral、Anthropic等主要AI公司用于AI模型训练同时也被各国政府的超算系统用于气象预报和国家安全研究在AI及超算生态中具有极为关键的基础设施地位。Q3如果英伟达对Slurm的管理出现偏向用户有哪些应对手段A用户可采取多种应对措施一是多元化GPU采购避免单一厂商依赖二是在多厂商生态中对工作负载进行基准测试三是将AI工作负载容器化降低与底层调度器的耦合度便于迁移至Flux或Kubernetes等替代方案四是在谈判Slurm支持协议时要求服务水平保障明确覆盖非英伟达硬件五是在必要时启动社区分叉但需注意这一选项因顶尖开发者已被英伟达纳入而存在局限性。

更多文章