TA的每日心情 | 难过 7 小时前 |
---|
签到天数: 135 天 [LV.7]常住居民III
超级版主
 
- 积分
- 200379
|
NDIAA100和H100GPU为ML模型提供高性能推理。我们希望在现有硬件条件下获得尽可能高的性能,因此我们开始使用H100GPU的一项功能,该功能允许我们将单个物理GPU拆分为两个模型服务例。这些例通常以低20%的成本达到或超过A100GPU的性能。经过筛选和调研rtx5090云服务器租赁很可能会成为带动经济发展的新生力量。深圳市捷智算科技有限公司一家AI算力租赁平台,提供多样化的GPU服务器出租服务,包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁,我们的解决方案支持企业快速扩展数据处理能力,优化成本效益。https://www.gogpu.cn/news/detail/233.html
NDIAH100GPU支持多例GPU(MIG),这让我们可以在FractionalGPU上为模型提供服务。我们可以为每个H100GPU获得两个H100MIG模型,每个模型的计算能力约为完整GPU的一半。将H100GPU分成两Fractional可以让模型推理的硬件选择更加灵活。
与使用A100GPU相比,H100MIG模型服务例在推理方面具有多项势:对于使用TensorRT化的工作负载,其性能与A100GPU相同或更佳,但标价却降低了20%。支持FP8,扩展量化模型的选项。提高跨云提供商和地区的GPU的灵活性和可用性。
本指南详细介绍了MIG的工作原理、FractionalH100GPU提供的规格以及在基于H100MIG的例上提供模型的预期性能。
一、多例GPU的工作原理
MIG是随NDIA的Ampere架构一起推出的,并且也支持Hopper和Blackwell。MIG可以将GPU拆分为多个分数GPU,每个GPU都可以运行单独的模型服务器。
FractionalGPU由GPU的计算和内存的物理切片组装而成:7个计算切片均匀划分芯片上的流式多处理器。8个内存切片均匀划分芯片上的VRAM。
乍一看,7个计算切片似乎有些奇怪。这并不是因为有任何为开销预留的计算,而是因为H100GPU有140个流式多处理器(SM),它们均匀分布在7个切片中,每个切片有20个SM。H100GPU中还有7个NVDEC和JPEG图像解码器;每个切片分配一个。内存更简单:8个内存切片中的每一个都有10GB的VRAM和GPU总内存带宽的八分之一。
H100GPU上有19种不同的配置文件,这意味着您可以将卡分成19种不同的配置,但我们使用单个配置文件将卡分成两个MIG3g40gb例。
3g40gb称表示该例具有个计算切片和40GB的VRAM。我们之所以选择这个特定的配置文件,是因为它在模型服务中非常有用,并且与A100GPU的性能非常接近。
二、H100MIG与A100规格
我们使用的H100GPU的Fractional计算能力是完整H100GPU的七分之,内存是完整H100GPU的一半。但这些规格与A100GPU相比如何
与80GBS外汇A100(比较强大的A100变体-我们使用它进行模型推理)相比,分数H100GPU(也是S外汇)具有更强大的计算能力,但内存带宽更差。
总而言之,与A100GPU相比,H100MIG具有:支持的精度计算量提高了36%支持FP8精度一半的内存,内存带宽降低18%
但性能不仅仅是原始规格。从表面上看,更高的计算能力似乎有助于LLM的预填充(进而缩短首个token的时间),但较低的内存带宽会限制速度,因为LLM推理的大Fractional都受内存限制。但是,我们使用TensorRT提供高性能模型,它利用了H100GPU的架构势,即使在使用H100MIG时也是如此。尽管道内存带宽有限,但对于许多模型来说,H100MIG与A100GPU的性能相同或更好。
、H100MIG与A100性能对比
在使用TensorRT和TensorRT-LLM服务的模型的基准测试中,具有7个SM切片中的3个和40GBVRAM分配的FractionalH100GPU达到或略微超过了A100GPU上的性能。
1、StableDiffusionXL性能对于使用TensorRT化的SDXL的30个步骤,我们发现H100MIG和A100GPU之间的性能几乎相当。
观察到的生成时间差异(小于100毫秒)在此类基准测试的预期运行间差异范围内。我们预计FractionalH100GPU在SDXL工作负载方面具有与A100GPU相当的性能。
2、Mistral7B性能对于在FP16中运行的Mistral7B基准测试,其中有300个输入令牌和1000个输出令牌,批次大小为32,我们观察到H100MIG在吞吐量和延迟方面都比A100GPU略有势。
得益于TensorRT-LLM,H100MIG的延迟比A100GPU低20%,总吞吐量高6%。LLM计算首个输出标记时,预填充时间较长,这是由于输入序列相对较大。使用较短的聊天式输入和输出,预填充以及首个标记的时间将更。
H100GPU还支持FP8,而A100GPU不支持。在FP8中运行较小的LLM(如Mistral7B)可以提供更低的延迟和更高的吞吐量,同时几乎不会造成任何质量损失。使用FP8可以提高H100MIG性能,从而进一步超越A100GPU的功能。
四、何时使用FractionalH100GPU
捷智算上提供由FractionalH100GPU支持的模型服务例,其定价比使用A100GPU的同类例低20%。FractionalH100GPU可以达到或超过A100GPU的机器学习推理性能,为许多工作负载带来显著的性价比提升。
H100MIG例非常适合:化Mistral7B和SDXL等较小模型的高吞吐量部署在FP8中运行模型以获得更的性能,同时不影响输出质量。使用TensorRT或TensorRT-LLM化的模型。通过每次增加或减少一半GPU的容量来现细粒度的自动缩放。
但是,H100MIG例不适合:在需要大量VRAM的大型模型(如Mixtral8x7B)上运行推理构建具有大批量的模型服务器,以一些延迟来换取额外的吞吐量提供未化的模型现,法利用H100的架构特性
在这些情况下,由A100或完整H100GPU支持的例会更合适。
要开始在FractionalH100GPU上提供模型,请在部署模型时选择H100MIG例类型,或者联系我们讨论使用TensorRT化模型,以充分利用H100MIG进行模型服务。
|
|