快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動語音識別服務(wù)


原標(biāo)題:快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動語音識別服務(wù)
快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動語音識別服務(wù)(ASR)的過程,是一個技術(shù)創(chuàng)新的典范,顯著提升了用戶體驗(yàn)和系統(tǒng)性能。以下是詳細(xì)的介紹:
一、背景與需求
快手作為全球用戶利用短視頻或直播形式記錄和分享日常生活的領(lǐng)先內(nèi)容社區(qū)和社交平臺,每天產(chǎn)生上千萬條原創(chuàng)新鮮視頻,并擁有龐大的用戶基礎(chǔ)。ASR作為快手APP、直播、風(fēng)控、游戲等眾多業(yè)務(wù)的核心功能,對于提升用戶體驗(yàn)至關(guān)重要。尤其是在直播和短視頻應(yīng)用領(lǐng)域,快手希望優(yōu)化ASR服務(wù),滿足不斷增長的客戶需求。
二、優(yōu)化目標(biāo)與挑戰(zhàn)
快手ASR服務(wù)優(yōu)化的主要目標(biāo)是減少時延、提高并發(fā)路數(shù),并降低系統(tǒng)成本。在快手之前的基于CPU框架的處理流程中,特征提取等前處理模塊、TDNN+LSTM聲學(xué)模型、包含語言模型的解碼器部分等各個模塊的運(yùn)行時間占比較大,導(dǎo)致整體處理效率低下。此外,快手還面臨著硬件使用率低、SRAM容量不足等問題,難以滿足高精度和高并發(fā)的需求。
三、Alveo優(yōu)化方案
為了解決上述問題,快手異構(gòu)計算中心決定采用賽靈思的Alveo U50LV加速器卡來優(yōu)化ASR服務(wù)。Alveo U50LV基于高性能UltraScale+架構(gòu),具備低功耗、高帶寬、大SRAM內(nèi)存等優(yōu)勢,非常適合用于優(yōu)化TDNN+LSTM聲學(xué)模型。
快手團(tuán)隊(duì)從算法、系統(tǒng)、軟件和硬件等多個關(guān)鍵層面對ASR系統(tǒng)進(jìn)行了創(chuàng)新優(yōu)化:
算法層面:采用圖融合、圖優(yōu)化、圖同構(gòu)、圖分割等技術(shù),以及不重訓(xùn)的高精度量化技術(shù),有效壓縮了模型,提高了計算效率。
系統(tǒng)層面:自研通用推理框架及適合FPGA的通用Host調(diào)度框架,支持多模型、模型可擴(kuò)展、自動化部署,增強(qiáng)了系統(tǒng)的易用性。
軟件層面:設(shè)計Batch機(jī)制,基于OpenCL的任務(wù)調(diào)度及負(fù)載均衡策略,實(shí)現(xiàn)了任務(wù)級的數(shù)據(jù)傳輸、kernel計算等高效并行處理。
硬件層面:自定義基于超長指令字的指令集架構(gòu),設(shè)計編譯器,并基于Vitis HLS高層次綜合優(yōu)化技術(shù),快速完成了高效的FPGA底層設(shè)計。
四、優(yōu)化成效
通過采用Alveo U50LV加速器卡及相關(guān)設(shè)計工具,快手實(shí)現(xiàn)了針對TDNN+LSTM聲學(xué)模型的全定點(diǎn)推理硬件加速方案,全面優(yōu)化了ASR服務(wù):
減輕CPU負(fù)載:將單臺服務(wù)器業(yè)務(wù)處理能力提升7.5倍。
降低時延:高峰期平均延時減小37.67%。
提高并發(fā)路數(shù):并發(fā)路數(shù)提升7.5倍。
降低成本:系統(tǒng)總成本降至0.29,相當(dāng)于總成本銳減71%。
縮短開發(fā)周期:設(shè)計周期從3個月減少到6周。
五、應(yīng)用與影響
優(yōu)化后的ASR服務(wù)已經(jīng)在快手直播及短視頻應(yīng)用平臺廣泛部署,為全球數(shù)億用戶帶來了前所未有的語音識別體驗(yàn)。這一成功案例不僅展示了快手技術(shù)團(tuán)隊(duì)強(qiáng)大的實(shí)力,也為國內(nèi)大規(guī)模直播及短視頻自動語音識別場景提供了新的解決方案和參考。
總之,快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動語音識別服務(wù)的過程是一個技術(shù)創(chuàng)新的典范,通過算法、系統(tǒng)、軟件和硬件等多方面的優(yōu)化,實(shí)現(xiàn)了性能的大幅提升和成本的顯著降低,為用戶帶來了更好的體驗(yàn)。
責(zé)任編輯:
【免責(zé)聲明】
1、本文內(nèi)容、數(shù)據(jù)、圖表等來源于網(wǎng)絡(luò)引用或其他公開資料,版權(quán)歸屬原作者、原發(fā)表出處。若版權(quán)所有方對本文的引用持有異議,請聯(lián)系拍明芯城(marketing@iczoom.com),本方將及時處理。
2、本文的引用僅供讀者交流學(xué)習(xí)使用,不涉及商業(yè)目的。
3、本文內(nèi)容僅代表作者觀點(diǎn),拍明芯城不對內(nèi)容的準(zhǔn)確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨(dú)立判斷做出的,請讀者明確相關(guān)結(jié)果。
4、如需轉(zhuǎn)載本方擁有版權(quán)的文章,請聯(lián)系拍明芯城(marketing@iczoom.com)注明“轉(zhuǎn)載原因”。未經(jīng)允許私自轉(zhuǎn)載拍明芯城將保留追究其法律責(zé)任的權(quán)利。
拍明芯城擁有對此聲明的最終解釋權(quán)。