你的位置:色播五月 > 91 丝袜 > 2222fn 英伟达发布Llama-3.1-Nemotron-51B AI 模子
2222fn 英伟达发布Llama-3.1-Nemotron-51B AI 模子
发布日期:2024-09-27 05:54    点击次数:173

2222fn 英伟达发布Llama-3.1-Nemotron-51B AI 模子

IT之家 9 月 25 日音书2222fn,英伟达 9 月 23 日发布博文,晓示推出 Llama-3.1-Nemotron-51B AI 模子,源自 Meta 公司的 Llama-3.1-70B,不外编削使用神经架构搜索(NAS)设施,确立了一个高度准确和高效的模子。

Llama-3.1-Nemotron-51B 简介

Llama-3.1-Nemotron-51B AI 模子基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模子,共有 510 亿参数。

该 AI 模子主要采用了神经架构搜索(NAS)工夫微调,均衡性能和效果,在高责任负荷下,只需要一派 H100 GPU 即可伊始,大大镌汰了内存消耗、计较复杂性以及与伊始此类大型模子有关的资本。

英伟达合计这种神志在保握了出色的精度前提下,权臣镌汰了内存占用、内存带宽和 FLOPs,并讲明不错在创建另一个更小、更快的变体来加以试验。

Llama-3.1-Nemotron-51B 性能

比拟较 Meta 的 Llama-3.1-70B 模子,Llama-3.1-Nemotron-51B 在保握了实在调换的精度情况下,推理速率提升了 2.2 倍。

准确率能效

MT BenchMMLUText generation (128/1024)Summarization/ RAG (2048/128)Llama-3.1- Nemotron-51B- Instruct8.9980.2d72653Llama 3.1-70B- Instruct8.9381.66)75339Llama 3.1-70B- Instruct (single GPU)——1274301Llama 3-70B8.9480.17)75339效果和性能方面的冲破

开发 LLM 经由中濒临的主要挑战之一是何如均衡精度与计较效果。好多大鸿沟模子齐能提供起初进的已矣,但却需要消费大齐的硬件和动力资源,这已矣了它们的适用性。

英伟达的新模子在这两个相互竞争的身分之间得回了诡秘的均衡2222fn。

Llama-3.1-Nemotron-51B 收场了令东谈主印象深入的精度与效果量度,减少了内存带宽,镌汰了每秒浮点运算次数 (FLOP),并减少了总体内存占用,同期不影响模子践诺推理、追思和说话生成等复杂任务的智商。

改良责任量不停,提升资本效益

Llama-3.1-Nemotron-51B 的一个超越秉性是大概在单个 GPU 上不停更大的责任负载。该型号允许开发东谈主员在更具资本效益的环境中部署高性能 LLMs,在一个 H100 诱骗上伊始已往需要多个 GPU 才智完成的任务。

Llama-3.1-Nemotron-51B 模子还减少了内存占用,在推理经由中不错在单个 GPU 上伊始 4 倍以上的责任负载,从而带来了一系列新的机遇。

架构优化:见效的重要

Llama-3.1-Nemotron-51B 的见效主要归功于一种新颖的结构优化设施。传统上,LLMs 是使用调换的块构建的,这些块在悉数这个词模子中重叠出现。

这固然简化了构建经由,但也带来了效果低下的问题,相配是在内存和计较资本方面。

英伟达通过采用 NAS 工夫来优化推理模子,从而贬责了这些问题。该团队采用了分块蒸馏经由,即磨砺更小、更高效的学生模子(student model),以效法更大的沉静模子(teacher model)的功能。

通过完善这些学生模子并评估其性能,英伟达开发出了 Llama-3.1 版块,在大幅镌汰资源需求的同期,还能提供相通的准确度。

Puzzle 算法和学问蒸馏

Llama-3.1-Nemotron-51B 有别于其他模子的另一个重要组件,即是 Puzzle 算法。

淫咪咪

该算法对模子中的每个潜在区块进行评分,并服气哪些成就能在速率和精度之间得回最好均衡。

跑分 Llama-3.1 70B-instructLlama-3.1-Nemotron-51B- Instruct 准确率winogrande85.08