收藏文章 楼主

算力和接受,算力受什么影响

版块:科技头条   类型:普通   作者:科技资讯   查看:47   回复:0   获赞:0   时间:2023-08-31 06:13:59

光靠计算是不够的。

AI服务器是大模战中兵家必争之地,因为它代表了最稀缺、最稀缺的计算能力资源。浪潮信息是中国大陆最大的服务器提供商。

每两台AI服务器都有一个来自浪潮的信息——AI计算芯片经过系统化设计,最终变成包括计算单元、存储单元、散热单元、供电系统在内的完整产品,交付给客户。

在大模型出现之前,计算能力资源可以直接用服务器的数量来表示,需要多少服务器就可以购买多少,它们之间的转换关系几乎是透明的。正因为如此,浪潮信息做的事情一度被认为很简单——尽可能多卖服务器就行了。

但是大模型的出现改变了这一切。

虽然大家都在谈论计算能力及其不足,但是很多人不知道的是,即使有足够的GPU芯片,训练大型模型仍然是一个非常复杂和困难的过程。

比如仅仅是串联几千块卡就是一个很大的工程问题,国内最大的云厂商也只有几家有现成的经验。再比如,与传统的分布式训练相比,大规模的模型训练过程更复杂,周期更长,这就要求服务器集群在保证整个系统稳定性的同时,充分利用计算资源,提高性能。这个领域几乎整个行业都处于探索阶段。

一个现实的数字是,没有工程优化,很多企业的服务器效率甚至只有20%-30%。考虑到大模型计算能力的高昂成本,这种浪费无疑是惊人的。

但这种程度是无法避免的。

在百模大战中,很多大型模型都是通过API调用或者云端来训练的。为了追求速度,无可厚非。但要想让大模型真正可用,就必须在本地部署计算能力,因为商业化能力的建设离不开本地计算资源。

这和十年前公有云计算的发展很像。经过初期的第一波应用,公有云的普及开始逐步落地场景和行业,于是开始了本地化。

然而,本地化有多容易?除了上面提到的直接相关的服务器部署痛点,大规模的模型训练其实是一个冷冰冰的系统工程问题。从数据清洗到计算能力适配,从性能兼容适配到软硬件协同,这些实践中的坑带来的挑战不亚于计算能力本身,它们共同影响着大规模模型的性能和落地速度。

"客户最关心的是应用程序的本地化和部署."一位接近浪潮信息客户端服务的人士告诉品万。据公开数据粗略统计,参与百款大战的企业中,多达80%是浪潮信息的客户,所以企业的本地化部署问题几乎成了浪潮信息的问题。

单纯卖硬件算力已经不够了,人工智能行业的快速变化需要浪潮信息做出相应的改变。

OGAI:大型模型的五层解决方案

在GPT爆发前的2021年,浪潮信息推出了一个名为“源”的大模型,一个拥有2457亿个参数的中文大模型。从数据采集到千卡集群计算能力支持下的模型训练和推理,浪潮信息都是自己完成的,也就是说,早在大模型成为现象级词汇之前,浪潮信息就有了开发、训练和微调大模型的实际第一手经验。

这让浪潮信息硕果累累。比如数据端,从公共数据抓取清洗到格式转换和质量评估,浪潮信息最终拥有了高达5TB的中文原创数据集,而在最重要的计算效率方面,浪潮信息已经可以达到50%左右。

从某种意义上来说,这个行业的know how体验甚至是奢侈的,只有浪潮信息这样的计算能力供应商才能买得起——要知道,“源”模型的参数比GPT3多了700亿。

这些经验最终成为浪潮信息8月24日发布的大模型智能计算软件栈“Metabrain Makes Wisdom”的一部分:OGAI(Open GenAI Infra)。如果用一句话解释OGAI是什么,浪潮信息希望你能理解为生长在浪潮信息服务器硬件上,基于大模型专门开发的全栈、全流程软件套件。硬件方面,可以最大化调用GPU计算能力,软件方面,从细化模型开始就帮助开发者提高效率。

OGAI分为五层,从L0到L2,主要是为了提高大模型基础的计算环境的效率。L0层是浪潮信息的智能计算中心OS,负责直接管理和分配计算资源,可以提供多租户无损裸机计算环境。这有点像本地版的云调度平台,就像最低层的操作系统,针对大型机型的计算能力需求,实现了硬件的集中管理。

第二层PODsys是一个开源项目,集成了系统环境部署的工具链。PODsys有点像生长在初始化操作系统上的驱动程序。根据不同的环境和需求,从环境部署、系统监控、资源调度等方面实现了参数的自动配置。由于是开源项目,PODsys软件包集合了大量业界广泛使用的主流开源工具和框架,用户只需要执行非常简单的命令就可以完成整个计算集群的配置。

PODsys工具链是浪潮信息的首创,过去的功能都是由人力提供的。举个不恰当的例子,有点像买组合台式电脑时工程师提供的驱动安装服务。随着整个数据中心行业向加速计算转型,对专家服务的需求也不断扩大,而PODsys这种“专家”的出现,为用户节省了环境配置和优化的成本。

L2层是基础环境配置的最后一层,命名为AIStation,已经迭代到4.0版本。简单来说,就是浪潮信息研发的一款商业软件,专注于AI计算资源的精准调度。

大模型的训练往往需要几十天甚至几百天,因此统一系统的计算能力、存储和网络调度非常重要。AIStation支持单个集群上万个GPU和计算节点的介入和调度,有效分配L0层的池化计算能力资源,实现最大调用效率,尤其是其断点自动连续训练能力,可以有效保证大规模模型训练的稳定性。

第四层叫做YLink。基础环境构建完成后,YLink精确训练大规模模型的know how问题。模型开发的两个环节,数据处理和模型训练,在这个层面可以找到相应的工具包,所以你可以把YLink看成浪潮信息专门为模型开发设计的能力支撑层。标准化的数据处理工具,分布式的训练框架和相应的脚本,以及用于微调的参数和指令调整都汇聚在一起,模型预训练的效率和微调的质量都会得到提高。

最后一层是MModel,可以评估和管理各种版本和类型的模型,甚至可以看作是一个模型库——开发者可以通过MModel共享自己的模型和数据集。

据浪潮信息人工智能与高性能应用软件部AI架构师Owen Zhu介绍,由五层架构组成的OGAI中,各层的功能是解耦的,不同用户可以根据自己的场景自主选择各层的功能。

欧文朱(Owen Zhu),AI架构师,浪潮信息人工智能与高性能应用软件部

当硬件供应商向上兼容时

OGAI可以看作是硬件厂商基于硬件和自身经验设计的端到端大规模模型解决方案。

“OGAI相当于一个将浪潮信息的模型能力平台化的解决方案。”发布会上一位厂商这样对品玩说。五层架构完全覆盖了从最低算力调度到模型发布的全过程。理想情况下,开发者可以基于浪潮信息的硬件环境,实现大型模型的“开箱即用”开发。

在这五层架构中,PODsys和YLink是业界首创,尤其是PODsys。在此之前,没有人使用完整的工具链来实现配置基础计算环境的能力。或者你可以理解为只有浪潮信息这样的硬件提供商才有能力和动力提供这个套餐,因为浪潮信息不仅对硬件有足够的了解,而且在商业化方面也积累了丰富的经验。

在分秒必争的大模型比赛中,这种体验成为了浪潮信息非常独特的优势,大大缩短了搭建服务器集群所需的时间,相当于间接加快了模型的研发速度。

我们可以看到,硬件制造商和计算能力提供商,而不是软件服务集成商,积极推出大规模模型解决方案,实际上已经成为一种趋势。国内的百度云和阿里云分别推出了相关的模型服务和社区。国外的云厂商,从微软Azure等巨头到初创公司CoreWeave,都在试图降低计算能力的门槛,让用户可以使用浏览器一键轻松调用自己的计算能力进行大规模的模型训练。

在GPU领域享有近乎垄断地位的英伟达,通过密集发布各种软件解决方案推动大规模模型技术的广泛落地,实际上已经在AI时代赚了不少钱,比如英伟达AI Enterprise,它集成了DGX等英伟达服务器,由数千个加速库和工具包以及集群管理软件组成,而黄仁勋本人在8月份刚刚发布。Nvidia AI Workbench,整合了原来分散在各处的大型模型开发工具和流程,这些解决方案的最终目的是让开发者尽可能专注于高效的训练模型本身。

但是,无论云厂商还是英伟达,他们的解决方案都有各自的弱点。在非常强调本地化的中国市场,云解决方案存在种种水土不服,尤其是在数据和隐私安全方面。虽然NVIDIA的解决方案是与其硬件能力的最佳结合,但一方面CUDA生态系统本身是闭源的,另一方面无论从成本还是地缘政治现实来看,更多的用户其实需要一个跨多个硬件的开源解决方案。

因此,浪潮信息的OGAI处于一个独特的位置。一方面满足了本地化部署的需求;另一方面,这种解决方案并不像最近业界流行的“AI一体机”那样与硬件深度绑定。其实这个解决方案本身是解耦的,也就是说虽然OGAI是一套端到端的包括产品和工具链的完整服务,但是在具体使用过程中可以根据开发者的需求自由匹配,浪潮信息只是提供一个解决方案,足够可靠。

是最了解大型模型商业化场景的基础设施提供商,为这场百模大战贡献了独一无二的答案。

 
回复列表
默认   热门   正序   倒序

回复:算力和接受,算力受什么影响

Powered by 7.12.10

©2015 - 2026 90Link

90link品牌推广 网站地图

您的IP:10.1.228.218,2026-01-02 22:19:50,Processed in 0.06106 second(s).

豫ICP备2023005541号

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
免责声明
  • 1、本网站所刊载的文章,不代表本网站赞同其观点和对其真实性负责,仅供参考和借鉴。
  • 2、文章中的图片和文字版权归原作者所有,如有侵权请及时联系我们,我们将尽快处理。
  • 3、文章中提到的任何产品或服务,本网站不对其性能、质量、适用性、可靠性、安全性、法律合规性等方面做出任何保证或承诺,仅供读者参考,使用者自行承担风险。
  • 4、本网站不承担任何因使用本站提供的信息、服务或产品而产生的直接、间接、附带或衍生的损失或责任,使用者应自行承担一切风险。

侵权删除请致信 E-Mail:3454251265@qq.com