感知使用第二代芯片在邊緣運(yùn)行變壓器



Perception的Ergo 2芯片現(xiàn)在為變壓器提供硬件支持。
從Xperi分離出來(lái)的AI芯片初創(chuàng)公司Perception發(fā)布了第二款芯片,該芯片為變壓器提供了硬件支持,包括邊緣的大型語(yǔ)言模型(LLM)。該公司在 CES 2023 上通過(guò) RoBERTa(一個(gè)具有 1.1 億個(gè)參數(shù)的變壓器網(wǎng)絡(luò))在其 Ergo 2 芯片上展示了句子完成。
爾格 2 采用與 原版爾格,但提供大約 4× 的性能。這種性能提升轉(zhuǎn)化為具有超過(guò) 1 億個(gè)參數(shù)的變壓器的邊緣推理、更高幀速率的視頻處理或一次推理多個(gè)大型神經(jīng)網(wǎng)絡(luò)。例如,YoloV5-S 推理在爾格 2 上最多可以每秒運(yùn)行 115 個(gè)推理;YoloV5-S 以每秒 30 張圖像的速度進(jìn)行推理僅需 75 mW。典型應(yīng)用的功耗低于 100 mW,或最高可達(dá) 200 mW。

爾格2的性能與爾格相比。爾格將繼續(xù)可用,因?yàn)樾酒m合略有不同的功率配置文件(來(lái)源:感知)
Perception的神經(jīng)網(wǎng)絡(luò)加速方法利用了專有的模型壓縮技術(shù),結(jié)合神經(jīng)網(wǎng)絡(luò)的不同數(shù)學(xué)表示,以及兩者的硬件加速。
“我們技術(shù)的核心是認(rèn)真壓縮的原則方法,”Perception首席執(zhí)行官Steve Teig告訴EE Times?!斑@意味著有一個(gè)數(shù)學(xué)上嚴(yán)格的策略來(lái)辨別計(jì)算的意義,并在以新的方式表示神經(jīng)網(wǎng)絡(luò)的同時(shí)保留這種意義。

史蒂夫·泰格(來(lái)源:感知)
Teig說(shuō),使用Perception今天使用的壓縮方案,通常可以對(duì)模型進(jìn)行50-100×壓縮。
“我們認(rèn)為學(xué)習(xí)和壓縮實(shí)際上是一回事,”他說(shuō)?!斑@兩項(xiàng)任務(wù)都在數(shù)據(jù)中找到結(jié)構(gòu)并加以利用。您可以壓縮可壓縮數(shù)據(jù)的唯一原因是因?yàn)樗墙Y(jié)構(gòu)化的——隨機(jī)數(shù)據(jù)是不可壓縮的......如果你可以利用這種結(jié)構(gòu),你就可以使用更少的內(nèi)存位。
Perception正在使用信息論來(lái)找到這種結(jié)構(gòu) - 特別是對(duì)于激活 - 因?yàn)樗羌せ疃皇菣?quán)重主導(dǎo)當(dāng)今大多數(shù)神經(jīng)網(wǎng)絡(luò)的內(nèi)存足跡。感知壓縮激活,以最大程度地減少存儲(chǔ)激活所需的內(nèi)存。如果直接計(jì)算壓縮激活不方便,則可以在需要時(shí)解壓縮它們,根據(jù)神經(jīng)網(wǎng)絡(luò)的不同,這可能會(huì)更進(jìn)一步。同時(shí),釋放了大部分內(nèi)存。
Teig說(shuō),激活可以被壓縮以將其大小減小10倍,而量化可能是“微不足道”的2-4倍×但沒有相應(yīng)的精度損失。但是,壓縮和量化是互補(bǔ)的。
Perception使用的其他壓縮技術(shù)包括在空間和時(shí)間上重新排序推理計(jì)算的部分。對(duì)于推理,計(jì)算中的所有依賴項(xiàng)在編譯時(shí)都是已知的,這意味著推理可以分為子問(wèn)題。然后根據(jù)需要重新排列這些子問(wèn)題。
“這使我們能夠運(yùn)行比你想象的更大的模型,因?yàn)槲覀冇凶銐虻鸟R力,基本上我們可以用空間換取時(shí)間......擁有和我們一樣快的芯片意味著我們可以通過(guò)按順序進(jìn)行一些計(jì)算來(lái)節(jié)省空間,并讓它們看起來(lái)并行,“Teig在 此前接受EE Times采訪.
轉(zhuǎn)換壓縮
對(duì)于爾格2,Perception找到了一種壓縮變壓器模型的方法,并為這些壓縮模型增加了硬件支持。
Perception的優(yōu)勢(shì)有多少取決于對(duì)工作負(fù)載的操縱,有多少取決于硬件加速?
“兩者兼而有之,但大多數(shù)肯定是軟件或數(shù)學(xué),”泰格說(shuō)?!斑@是我們的數(shù)學(xué)方法,在哪里找到壓縮是第一位的。第二是軟件視角,第三是芯片和硬件上神經(jīng)網(wǎng)絡(luò)的表示,以加速[該表示]。
感知的壓縮工具流程由三部分組成——宏、微觀和編譯。宏發(fā)現(xiàn)大規(guī)模壓縮機(jī)會(huì)并利用它們,微觀使用不同的壓縮技術(shù)尋找進(jìn)一步的小規(guī)模機(jī)會(huì),編譯階段管理內(nèi)存并優(yōu)化功耗。爾格2的性能依賴于這三者。
在SDK級(jí)別,Perception的軟件堆棧重新訓(xùn)練Pytorch模型,使其與Ergo或Ergo 2兼容。還有一個(gè)用于芯片CPU上后處理任務(wù)的C庫(kù),以及一個(gè)由大約20個(gè)模型組成的模型庫(kù),客戶可以構(gòu)建。
爾格2還具有架構(gòu)變化 - 這包括新的統(tǒng)一內(nèi)存空間(原始爾格為神經(jīng)網(wǎng)絡(luò)和片上CPU提供單獨(dú)的內(nèi)存空間)以及對(duì)變壓器的硬件支持。Teig拒絕透露新的內(nèi)存空間有多大,但指出統(tǒng)一的內(nèi)存空間意味著子系統(tǒng)可以更有效地共享內(nèi)存。例如,在圖像推理過(guò)程中,整個(gè)內(nèi)存可能首先用作幀緩沖區(qū)。當(dāng)神經(jīng)網(wǎng)絡(luò)消化圖像時(shí),它可以根據(jù)需要逐漸接管內(nèi)存,然后 CPU 使用相同的內(nèi)存進(jìn)行后處理。

與原始的爾格相比,Perception的Ergo 2將適合略有不同的邊緣應(yīng)用。(來(lái)源:感知)
爾格 2 還可以接受更高分辨率的視頻 — MIPI 接口因客戶需求而加快,將 Ergo 2 上可接受的最高分辨率從 4K 增加到 1200 萬(wàn)或 1600 萬(wàn)像素?cái)?shù)據(jù)。這也擴(kuò)大了芯片的吸引力,包括需要更高分辨率視頻的筆記本電腦、平板電腦、無(wú)人機(jī)和企業(yè)應(yīng)用程序。
Percieve的原始Ergo仍將可用于需要最嚴(yán)格功率預(yù)算的應(yīng)用,而Ergo 2將支持那些需要更多性能但具有更多功率的應(yīng)用。
“電池供電的相機(jī)具有兩年的電池壽命可能想要使用爾格,但超分辨率到4K可能需要爾格2,”Teig說(shuō)。
相比之下,Perception的數(shù)據(jù)具有爾格的功率效率,每瓦每秒2727張ResNet-50圖像,而爾格2可以達(dá)到2465張。這比競(jìng)爭(zhēng)邊緣芯片高出一個(gè)數(shù)量級(jí)。
未來(lái)變壓器
在Teig看來(lái),越大越好,這與目前變壓器越來(lái)越大的趨勢(shì)相反。
“從數(shù)學(xué)的角度來(lái)看,你試圖捕獲的概念的信息理論復(fù)雜性應(yīng)該決定你的網(wǎng)絡(luò)有多大,”他說(shuō)?!拔覀兛梢詮臄?shù)學(xué)上證明,像GPT這樣捕捉英語(yǔ)語(yǔ)法豐富的語(yǔ)言模型,仍然應(yīng)該以數(shù)百萬(wàn),而不是數(shù)十億,當(dāng)然也不是數(shù)萬(wàn)億個(gè)參數(shù)來(lái)衡量。
有了這些知識(shí),Perception將繼續(xù)致力于變壓器的壓縮,使邊緣網(wǎng)絡(luò)越來(lái)越大。
“壓縮是要采取的。唯一的問(wèn)題是,作為一個(gè)社區(qū),而不僅僅是Perception,我們是否足夠聰明,能夠弄清楚如何提取模型的潛在含義,這就是我們?cè)谙蚣夹g(shù)展示更大的[變壓器]模型時(shí)所觀察到的,“他說(shuō)。“它正在尋找壓縮它們的方法,遠(yuǎn)遠(yuǎn)超過(guò)以前的模型,因?yàn)榛A(chǔ)概念的復(fù)雜性并沒有增加太多,只有用于表示它們的模型增長(zhǎng)了很多。
但是,是什么讓變壓器比任何其他類型的神經(jīng)網(wǎng)絡(luò)更具可壓縮性呢?
“如果你唯一愿意使用的詞是矩陣乘法和ReLU,想想說(shuō)任何有趣的東西需要多少個(gè)詞,”他說(shuō)?!叭绻愕恼Z(yǔ)言中唯一的單詞是那些,你將不得不談?wù)摵荛L(zhǎng)時(shí)間來(lái)描述一個(gè)復(fù)雜的概念,一旦你從那些是唯一允許使用的單詞的信念中退后一步,你就可以做得更好。
Teig補(bǔ)充說(shuō),雖然50-100×的壓縮率今天對(duì)爾格2來(lái)說(shuō)沒有問(wèn)題,但他預(yù)計(jì)未來(lái)1000的壓縮系數(shù)將觸手可及,“甚至可能是10,000×,”他說(shuō)。
本文最初發(fā)表于 電子電氣時(shí)報(bào).
莎莉·沃德-福克斯頓 為EETimes Europe雜志涵蓋 EETimes.com 和歐洲工業(yè)各個(gè)方面的AI技術(shù)和相關(guān)問(wèn)題。Sally 花了超過(guò) 15 年的時(shí)間在英國(guó)倫敦撰寫有關(guān)電子行業(yè)的文章。她為電子設(shè)計(jì),ECN,電子規(guī)范符:設(shè)計(jì),電子組件等撰寫文章。她擁有劍橋大學(xué)電氣和電子工程碩士學(xué)位。
責(zé)任編輯:David
【免責(zé)聲明】
1、本文內(nèi)容、數(shù)據(jù)、圖表等來(lái)源于網(wǎng)絡(luò)引用或其他公開資料,版權(quán)歸屬原作者、原發(fā)表出處。若版權(quán)所有方對(duì)本文的引用持有異議,請(qǐng)聯(lián)系拍明芯城(marketing@iczoom.com),本方將及時(shí)處理。
2、本文的引用僅供讀者交流學(xué)習(xí)使用,不涉及商業(yè)目的。
3、本文內(nèi)容僅代表作者觀點(diǎn),拍明芯城不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨(dú)立判斷做出的,請(qǐng)讀者明確相關(guān)結(jié)果。
4、如需轉(zhuǎn)載本方擁有版權(quán)的文章,請(qǐng)聯(lián)系拍明芯城(marketing@iczoom.com)注明“轉(zhuǎn)載原因”。未經(jīng)允許私自轉(zhuǎn)載拍明芯城將保留追究其法律責(zé)任的權(quán)利。
拍明芯城擁有對(duì)此聲明的最終解釋權(quán)。