光速光合宓群打造高算力超级系统

ningxueqin2 · 发表于 2024-12-14 16:12

　　1967年，IBM公司计算机架构师吉恩·阿姆达尔提出了一个经验公式，表明系统性能提升的潜力受到系统中可并行化部分的限制，即使并行处理器的数量无限增加，整体性能提升的上限也受到很大程度的制约。

　　简单来说，算力集群的计算速度并不能随着GPU数量的增长而无限叠加，就像1个人10天可以盖一栋房子，10个人只需要1天，但100个人仍然需要1天的时间——其他90个人可能因为挤不进工地只能闲着。

　　训练大模型也是这样。据Gartner的一份报告称， GPT-3.5的训练过程中，使用了由一万个英伟达A100 GPU组成的高性能算力集群，在GPT-4上则提高到了约25000个A100 GPU，但其算力利用率仅为32%至36%，算力浪费严重。

　　光速光合宓群基流科技的工作就是设计出一套系统，能够组织几千人，甚至上万人尽可能快地盖好更多房子。

　　胡效赫表示，基流科技的产品主要面向三个维度，包括算力管控调度平台、算力调优运维平台和高速互联硬件。目前，公司除了整套算力集群建设解决方案外，在集群管理、计算引擎和高速网络三个层次上都进行了产品化并有逐步落地，帮助AI企业将GPU合理的组织起来，并尽可能地提高交付效率和 GPU利用率。

　　目前，基流科技的算力集群方案可以为GPU集群提升超20%的性能，帮助客户在千卡环境中节省成本上千万元，在万卡环境中节省数亿元。

		自动登录	找回密码
密码			立即注册