做大模型时代的“卖铲人”：腾讯发布超强算力集群国内首发搭载英伟达H100_微动态

您当前的位置：首页 >> 资讯 > >>

来源: 财联社时间：2023-04-15 14:26:08

(资料图片)

国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练，4月14日，腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。　　该集群采用腾讯云星星海自研服务器，国内首发搭载英伟达最新代次H800 GPU，服务器之间采用业界最高的3.2T超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。　　▍开启云上大模型训练模式　　当下，大模型训练如火如荼，且参数量级已进入万亿时代，单体服务器算力有限，随着算力需求的增长，因此需要将大量服务器通过高性能网络相连，打造大规模算力集群。　　集群的算力要求，意味着用于采购硬件的资金投入是指数级增长，这给不少企业带来了巨大的现金流压力。自己采购GPU，面临着成本和供应链问题，且峰谷问题较为明显。　　例如，本地的物理CPU/GPU资源配比是固定绑定在一起的，扩展性比较差。有时CPU跑满、GPU空闲(或相反)。造成效率低下和资源浪费。在云上，这些资源可以池化随取随用，按需按量取用。　　面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题，腾讯认为，云上算力能帮助企业完成随机突发的算力需求。　　▍先进芯片≠先进算力　　目前大热的人工智能大模型，其训练需要海量数据和强大的算力来支撑训练和推理过程，其中数据主要由服务器和光模块存储、运输，算力支撑则依赖各类芯片。　　算力需求陡增，业界普遍认为，高性能芯片的短缺是限制国内大模型行业发展的重要因素。　　但在腾讯看来，用上了先进芯片并不代表就拥有了先进算力，原因在于高性能计算存在“木桶效应”，一旦计算、存储、网络任一环节出现瓶颈，就会导致运算速度严重下降。　　以算力对网络的要求为例：目前，GPU并行是大模型训练的必备技术，不同于传统并行以加快计算速度为目的，大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中，并保持不同GPU卡之间有效的通信，整体配合完成大模型的训练部署。　　即使是目前业界已有的GPU分布式训练方案，也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架，甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年，却只有少数企业可以复现GPT-3。　　换句话而言，先进算力的背后，是先进芯片、先进网络、先进存储等一系列的支撑，缺一不可。　　▍首发搭载英伟达H800　　腾讯新一代HCC集群搭载了英伟达最新代的H800芯片，这是H800在国内首发。不过，腾讯暂未透露采购了多少H800。　　H800是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。　　英伟达芯片参数对比　　网络层面，腾讯自研的星脉网络，为新一代集群带来了3.2T的超高通信带宽。实测结果显示，搭载同样的GPU卡，3.2T星脉网络相较前代网络，能让集群整体算力提升20%，使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。　　存储层面，腾讯云自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级IOPS，充分满足大模型训练的大数据量存储要求。　　在自研芯片方面，腾讯已经量产了用于AI推理加速的紫霄芯片，并已在语音转写、OCR等业务场景使用，用于视频转码的沧海芯片，已经在云游戏、直点播等场景中规模落地。　　(文章来源：财联社)

标签：

为您推荐

动销更快，备受青睐！提神宝能量饮料，市场力持久！

近年来，随着我国居民消费水平的逐渐提高，人们的消费方式也日渐多元化，而功能饮料由于其方便、美味的特点，逐渐被越来越多的消费者所喜爱

来源：时间：2022-09-13
最高时速100公里百度无人驾驶汽车开跑

12月10日上午，一辆红白装饰的宝马汽车从位于北京中关村软件园的百度大厦附近出发，驶入G7京新高速公路，经五环路，抵达奥林匹克森林公园，

来源：时间：2022-08-11
京东在农村市场将测试使用无人机送货

12月10日，前来参加广东电商大会的京东集团CEO刘强东在接受《第一财经日报》记者专访时透露，明年京东在农村市场将测试使用无人机送货，以

来源：时间：2022-08-11
什么是神经介入技术？郭新宾教授举了几个例子

神经介入技术，很多人对此不明白或者不知道，甚至包括一些医务人员也知之甚少。这并不奇怪，因为神经介入是新兴学科，是脑血管病治疗的前沿

来源：时间：2022-08-11
神经外科专家郭新宾：神经介入技术让脑血管病治疗不再是难题

神经介入技术，很多人对此不明白或者不知道，甚至包括一些医务人员也知之甚少。这并不奇怪，因为神经介入是新兴学科，是脑血管病治疗的前沿

来源：时间：2022-08-11