博亚boya(中国) 更好的硬件何如将零值造成AI加速引擎：稀少计较让AI更轻量、更高效

发布日期：2026-05-09 11:15 来源：未知作者：admin 浏览次数：

在AI模子边界，限制至关进攻。

尽管部分AI众人劝诫称，捏续扩大大言语模子的限制正在际遇性能收益递减的瓶颈，各大公司仍在遏抑推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子限制的扩大，其智商也在增强，但随之而来的是更高的能耗需乞降更长的运行时候，进而加重了碳排放问题。为了缓解这些问题，业界运行转向限制较小、智商相对有限的模子，并尽可能遴荐低精度数值来暗意模子参数。

可是，还有另一条旅途，有望在保留超大模子高性能的同期，镌汰运行时候、降顽劣耗。这一步调的中枢，等于充分把握大型AI模子里面大批存在的零值。

关于好多模子而言，大多数参数——包括权重和激活值——本色上皆是零，或者非常接近于零，全皆不错在不失掉精度的前提下将其视为零惩处。这种特点被称为稀少性。稀少性为爽朗计较资源提供了宽广契机：与其阔绰时候和能量对零进行加法或乘法运算，不如平直跳过这些计较；与其在内存中存储大批零值，不如只保存非零参数。

缺憾的是，刻下主流硬件（如多核CPU和GPU）并不成自然充分把握稀少性。要着实发扬稀少性的上风，扣问东谈主员和工程师需要从头念念考并重构通盘设计架构，涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的扣问团队中，咱们斥地出了（据咱们所知）首款未必高效惩处千般稀少和传统使命负载的硬件芯片。在不同使命负载下，能耗爽朗幅度相反显耀，但平均而言，咱们的芯片能耗仅为CPU的七十分之一，计较速率平均普及至CPU的八倍。为杀青这一方针，咱们从底层运行，对硬件、固件和软件进行了全面的针对稀少性的工程设计。咱们但愿这只是硬件与模子协同发展的起始，最终杀青更高能效的AI。

数组与稀少暗意

神经网罗过头输入数据以数字数组的姿色暗意，这些数组不错是一维（向量）、二维（矩阵）或更高维度（张量）。稀少向量、矩阵或张量中大多数元素为零。稀少进度因情况而异，但当零值占比极度50%时，就不错从特意针对稀少性的计较步调中获益。与之相对的是"密集"对象——即零值数目相干于元素总额较少的情况。

稀少性不错自然存在，也不错通过东谈主工模式引入。举例，酬酢网罗图自然等于稀少的。设计一个图，其中每个节点代表一个东谈主，每条边代表一段友谊关系。由于大多数东谈主彼此并不领略，暗意所有这个词可能伙同关系的矩阵中绝大多数元素皆是零。其他AI应用场景，如图学习和推选模子，相通存在自然的稀少性。

世俗情况下，一个4×4的矩阵无论包含若干个零值，在内存中皆会占用16个存储空间。若矩阵是稀少的，即大批元素为零，则不错更高效地用"纤维树"结构暗意：领先是包含非零元素地方行坐标的"纤维"，伙同至包含非零元素列坐标的纤维，最终调处到对应的非零值自己。在计较机内存中存储纤维树时，每条纤维的端点（即"段"）会与坐标和数值一同保存。

除自然存在的稀少性外，还不错通过多种模式在AI模子中主动引入稀少性。两年前，Cerebras的扣问团队讲明，不错将大言语模子中多达70%至80%的参数诞生为零，而不失掉任何精度。Cerebras在Meta开源的Llama 7B模子上考证了这一论断，议论念念路相通适用于ChatGPT、Claude等其他大言语模子。

稀少计较的上风

稀少计较的高效性源于两个基本特点：压缩零值的智商，以及零的特殊数学性质。稀少计较算法和专用硬件皆充分把握了这两个中枢念念路。

领先，稀少数据不错被压缩，从而以"稀少数据类型"的姿色更爽朗内存地进行存储。压缩还能在惩处大批数据时责怪数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例：传统模式会将其齐备存储，占用16个内存空间；而压缩为稀少数据类型后，只需保留非零元素，仅占用3个存储空间，相较于底本的16个大幅爽朗。跟着稀少进度和矩阵限制的增大，这种爽朗效果将更加显耀。

除本色数据值外，压缩数据还需要存储元数据，即非零元素的行诸君置信息。这世俗以"纤维树"的模式抒发：列出包含非零元素的行标签，并与对应的列标签不息，进而调处到存储在这些位置的数值。

在内存层面，情况更加复杂：每个非零值的行列标签，以及璀璨标签数目的"段"信息，皆需要一并存储，以便领会别离元数据和本色数据。

在密集、未压缩的矩阵数据类型中，不错逐个或并行走访数值，且其位置可通过简单公式平直计较。但在稀少压缩数据中，走访数值需要先查找行索引坐标，再"转折"查找列索引坐标，最终智力定位到方针值。由于稀少数据的位置具有随即性，这些转折查找操作可能极为随即，导致计较历程依赖于数据自己，并需要动态分派内存走访。

其次，零的两个数学特点使软件和硬件不错大批跳过计较：任何数乘以零等于零，因此无需本色实施乘法；任何数加零等于其自己，因此加法也不错平直跳过。

在矩阵-向量乘法这一AI最常见的运算中，除触及两个非零元素的计较以外，其余计较均可跳过。往日述4×4矩阵与一个四元素向量的乘法为例：在密集计较中，需要16次乘法和16次加法；而在稀少计较中，只需惩处向量中的非零元素，博亚boya(中国)通过转折查找定位矩阵中对应的非零元素，仅对这部分进行乘加运算——在示例中，只需实施两次乘法，而非16次。

现存硬件的局限

缺憾的是，当代硬件并不擅长加速稀少计较。以矩阵-向量乘法为例，在单核CPU中，向量中的每个元素需逐个相乘后写入内存，效用低下。因此，本色使用中时常借助守旧向量运算的CPU或GPU，将所有这个词元素并行惩处，大幅普及速率。但当矩阵和向量皆极为稀少时，向量化CPU和GPU的大部分算力皆阔绰在了与零的乘法运算上，产生大批无效计较。

新一代GPU未必对一种特定类型的稀少性——结构化稀少性——进行一定进度的硬件加速。结构化稀少性假定每四个相邻参数中有两个为零。可是，部分模子更相宜非结构化稀少性——即允许放荡参数（权重或激活值）为零并被压缩，无论其位置何如。GPU不错通过软件模式（如cuSparse库）守旧非结构化稀少计较，但这种守旧时常十分有限，GPU硬件把握率偏低，大批算力破钞在额外支拨上。

在通过软件进行稀少计较时，当代CPU有时比GPU更具上风，因为CPU具备更好的生动性。但CPU在稀少计较中常受限于转折查找操作带来的性能瓶颈。CPU世俗会左证预期需求对数据进行"预取"，但关于随即稀少数据，这一机制时常失效，导致CPU不得不阔绰时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中守旧"指针数组"走访模式，加速了转折查找速率。尽管预取时间的翻新使苹果CPU在稀少计较方面更具竞争力，但CPU架构仍存在专用稀少计较架构所不具备的根人道支拨，因为CPU需要兼顾通用计较需求。

其他公司也在斥地加速稀少机器学习的硬件，包括Cerebras的晶圆级引擎（Wafer Scale Engine）和Meta的历练与推理加速器（MTIA）。Cerebras的晶圆级引擎过头配套稀少编程框架，在大言语模子上杀青了高达70%的稀少度，效用超卓。但其硬件和软件决策仅守旧权重稀少性，不守旧对好多应用至关进攻的激活值稀少性。MTIA第二版声称在稀少计较性能上较初版普及七倍，但当今公开知道的稀少性守旧信息仅限于矩阵乘法，尚未秘密向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要计较时候，但为其他运算提供稀少性守旧相通至关进攻。为幸免在稀少与密集数据类型之间世俗切换，所有这个词操作皆应原生守旧稀少惩处。

Onyx：从底层守旧稀少计较的硬件加速器

针对上述各类折中决策的不及，斯坦福大学团队研发了一款硬件加速器——Onyx，未必从底层充分把握稀少性，无论是结构化还詈骂结构化稀少性均可守旧。Onyx是首款可编程加速器，同期守旧稀少和密集计较，未必对两种模式下的关键操作进行加速。

CPU、粗粒度可重构阵列（CGRA）和现场可编程门阵列（FPGA）代表了效用与生动性之间的不同量度。CPU的每个逻辑单位针对特定功能高效设计；FPGA的每个比特均可树立，极具生动性但效用较低；CGRA则旨在兼顾FPGA的生动性与CPU的效用。

CGRA由针对特定应用边界优化的可树立内存和计较单位组成，环节员不错在高头绪上对其里面进行从头树立，使其比FPGA更高效，同期比CPU更生动。

Onyx基于CGRA架构构建，由生动可编程的惩处单位（PE）模块和内存（MEM）模块组成。内存模块崇拜存储压缩矩阵和其他数据姿色，惩处单位模块则平直对压缩矩阵进走运算，摈斥所有这个词无须要的无效计较。

Onyx的编译器崇拜将软件教导调养为CGRA树立。领先，输入抒发式（如稀少向量乘法）被蜕变为抽象内存节点和计较节点组成的图；编译器将这些抽象节点映射到CGRA的内存模块和惩处单位上，并计算数据传输旅途；最毕生成树立CGRA所需的教导集。

由于Onyx具备可编程性，工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们遴荐"能量蔓延积"（EDP，即能耗与计较时候的乘积）来评估硬件的效用普及，该打算玄虚响应了速率与能耗之间的量度关系。

Onyx的能量蔓延积最高可达使用专用稀少库的CPU（12核Intel至强惩处器）的565倍。此外，Onyx还可树立为加速旧例密集计较应用，访佛GPU或TPU的使命模式：当计较为稀少类型时，Onyx切换至稀少计较模式；当计较为密集类型时，则切换至并行加速模式。这一架构为在归拢芯片上同期加速稀少与密集计较迈出了进攻一步。

相通值得热心的是，Onyx开启了算法层面的新念念路。稀少加速硬件不仅能普及AI的性能效用和动力效用，还将激发扣问东谈主员和工程师探索具有打破性后劲的新式算法。

将来猜想

咱们的团队已在Onyx基础上入部下手斥地下一代芯片。除矩阵乘法外，机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器过头编译器添加对齐备计较类型的守旧。由于稀少机器学习模子可能同期包含稀少层和密集层，咱们也在扣问何如更高效地将密集与稀少加速架构集成于归拢芯片，以杀青不同数据类型之间的快速调养。此外，咱们还在探索通过更有用地拆分稀少数据来打破内存放胆，从而在多个稀少加速芯片上协同运行计较任务。

与此同期，咱们正在研发未必预测稀少加速器性能的系统，以援救更优硬件的设计使命。从永久来看，咱们但愿不雅察高度稀少性是否会在更多模子类型中获取普及，以及稀少加速器是否会在更大限制上获取应用。

为非结构化稀少性构建硬件、充分把握零值的后劲，只是是个运行。有了这么的硬件，AI扣问东谈主员和工程师将有契机探索以全新、富足创意的模式把握稀少性的模子与算法。咱们敬佩，这是交代AI遏抑增长的运行时候、资本和环境影响的关键扣问方针。

Q&A

Q1：什么是稀少计较？它对AI有什么趣味？

A：稀少计较是一种把握AI模子中大批参数为零这一特点来跳过无效运算、压缩存储的计较模式。由于模子中70%以上的参数可能为零或接近零，稀少计较不错平直跳过与零议论的乘法和加法，从而显耀降顽劣耗、加速运算速率，在不阵一火模子精度的前提下普及举座效用。

Q2：现存的GPU和CPU为什么不成很好地守旧稀少计较？

A：GPU主要守旧一种叫作念"结构化稀少性"的特定模式，对更生动的非结构化稀少性守旧有限，导致大批算力被阔绰在无效的零值运算上。CPU诚然更生动，但在稀少计较中常受限于随即内存走访导致的预取失败问题，相通存在效用瓶颈。两者皆穷乏从底层针对稀少计较特意设计的架构守旧。

Q3：Onyx芯片比较正常CPU能普及若干性能？

A：Onyx在能量蔓延积（速率与能耗的综总打算）上，最高可达12核Intel至强CPU的565倍。平均而言，Onyx的能耗仅为CPU的七十分之一博亚boya(中国)，计较速率则平均普及至CPU的八倍。Onyx同期守旧稀少和密集计较，未必左证任务类型自动切换计较模式，是当今已知首款兼顾两种计较模式的可编程加速器。

大发官方网站手机app

上一篇：上一篇：博亚体育中瓷电子：光模块陶瓷外壳及基板订单富饶产能哄骗率保管高位

下一篇：下一篇：博亚boya(中国) OpenAI 硬件崇拜东谈主的闭门共享，向咱们揭示了为什么硬件「至极」仍是智高东谈主机

博亚体育中国官网在线入口

博亚体育app

博亚boya(中国) 更好的硬件何如将零值造成AI加速引擎：稀少计较让AI更轻量、更高效