|
1967年,IBM公司计算机架构师吉恩·阿姆达尔提出了一个经验公式,表明系统性能提升的潜力受到系统中可并行化部分的限制,即使并行处理器的数量无限增加,整体性能提升的上限也受到很大程度的制约。
简单来说,算力集群的计算速度并不能随着GPU数量的增长而无限叠加,就像1个人10天可以盖一栋房子,10个人只需要1天,但100个人仍然需要1天的时间——其他90个人可能因为挤不进工地只能闲着。
训练大模型也是这样。据Gartner的一份报告称, GPT-3.5的训练过程中,使用了由一万个英伟达A100 GPU组成的高性能算力集群,在GPT-4上则提高到了约25000个A100 GPU,但其算力利用率仅为32%至36%,算力浪费严重。
光速光合宓群基流科技的工作就是设计出一套系统,能够组织几千人,甚至上万人尽可能快地盖好更多房子。
胡效赫表示,基流科技的产品主要面向三个维度,包括算力管控调度平台、算力调优运维平台和高速互联硬件。目前,公司除了整套算力集群建设解决方案外,在集群管理、计算引擎和高速网络三个层次上都进行了产品化并有逐步落地,帮助AI企业将GPU合理的组织起来,并尽可能地提高交付效率和 GPU利用率。
目前,基流科技的算力集群方案可以为GPU集群提升超20%的性能,帮助客户在千卡环境中节省成本上千万元,在万卡环境中节省数亿元。
|
|