上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技與高校共同發(fā)布通用視覺技術(shù)體系“書生”


原標(biāo)題:上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技與高校共同發(fā)布通用視覺技術(shù)體系“書生”
上海人工智能實(shí)驗(yàn)室聯(lián)合商湯科技與高校共同發(fā)布的通用視覺技術(shù)體系“書生”(INTERN),是人工智能領(lǐng)域的一項(xiàng)重要成果。以下是對(duì)該技術(shù)體系的詳細(xì)介紹:
一、發(fā)布背景與目的
發(fā)布時(shí)間:該體系于2024年(具體日期可能為11月17日,但請注意此信息可能隨時(shí)間有所更新)正式發(fā)布。
聯(lián)合發(fā)布方:上海人工智能實(shí)驗(yàn)室、商湯科技SenseTime、香港中文大學(xué)、上海交通大學(xué)。
目的:旨在系統(tǒng)化解決當(dāng)下人工智能視覺領(lǐng)域中存在的任務(wù)通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。
二、技術(shù)特點(diǎn)與優(yōu)勢
任務(wù)通用性:
一個(gè)“書生”基模型即可全面覆蓋分類、目標(biāo)檢測、語義分割、深度估計(jì)四大視覺核心任務(wù)。
在ImageNet等26個(gè)最具代表性的下游場景中,書生模型展現(xiàn)了極強(qiáng)的通用性,顯著提升了這些視覺場景中長尾小樣本設(shè)定下的性能。
數(shù)據(jù)效率:
相較于當(dāng)前最強(qiáng)開源模型(如OpenAI發(fā)布的CLIP),“書生”在數(shù)據(jù)使用效率上取得大幅提升。例如,在同樣的下游場景數(shù)據(jù)中,“書生”的平均錯(cuò)誤率顯著降低。
僅需1/10的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)的準(zhǔn)確度。在特定任務(wù)上,如花卉種類識(shí)別,每一類只需兩個(gè)訓(xùn)練樣本,就能實(shí)現(xiàn)極高的準(zhǔn)確率。
技術(shù)創(chuàng)新:
“書生”技術(shù)體系由七大模塊組成,包括通用視覺數(shù)據(jù)系統(tǒng)、通用視覺網(wǎng)絡(luò)結(jié)構(gòu)、通用視覺評(píng)測基準(zhǔn)三個(gè)基礎(chǔ)設(shè)施模塊,以及區(qū)分上下游的四個(gè)訓(xùn)練階段模塊。
采用階梯式學(xué)習(xí)模式,通過前三個(gè)階段的“基礎(chǔ)能力”、“專家能力”和“通用能力”培養(yǎng),最終實(shí)現(xiàn)“遷移能力”,使模型能夠靈活應(yīng)用于各種特定領(lǐng)域的不同任務(wù)。
三、應(yīng)用前景與意義
降低數(shù)據(jù)依賴:在自動(dòng)駕駛、智能制造、智慧城市等長尾場景中,數(shù)據(jù)獲取通常困難且昂貴?!皶蓖ㄓ靡曈X技術(shù)體系的推出,有助于降低對(duì)大量數(shù)據(jù)的依賴,促進(jìn)這些領(lǐng)域的快速發(fā)展。
推動(dòng)AI規(guī)?;涞?/span>:通過提升模型的通用泛化能力和數(shù)據(jù)效率,“書生”將助力AI技術(shù)更廣泛地應(yīng)用于各種實(shí)際場景中,推動(dòng)AI技術(shù)的規(guī)?;涞亍?/span>
產(chǎn)學(xué)研合作:“書生”的發(fā)布體現(xiàn)了產(chǎn)學(xué)研合作在通用視覺領(lǐng)域的全新探索,為走向通用人工智能邁出了堅(jiān)實(shí)的一步。
四、開源與生態(tài)構(gòu)建
基于“書生”的通用視覺開源平臺(tái)OpenGVLab計(jì)劃在明年年初正式開源,向?qū)W術(shù)界和產(chǎn)業(yè)界公開預(yù)訓(xùn)練模型及其使用范式、數(shù)據(jù)系統(tǒng)和評(píng)測基準(zhǔn)等。
OpenGVLab將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的OpenMMLab、OpenDILab一道,共同構(gòu)筑開源體系OpenXLab,助力通用人工智能的基礎(chǔ)研究和生態(tài)構(gòu)建。
綜上所述,“書生”通用視覺技術(shù)體系是人工智能視覺領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新成果,其任務(wù)通用性、數(shù)據(jù)效率和技術(shù)創(chuàng)新性均處于行業(yè)領(lǐng)先地位。未來,“書生”有望在多個(gè)領(lǐng)域發(fā)揮重要作用,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。
責(zé)任編輯:David
【免責(zé)聲明】
1、本文內(nèi)容、數(shù)據(jù)、圖表等來源于網(wǎng)絡(luò)引用或其他公開資料,版權(quán)歸屬原作者、原發(fā)表出處。若版權(quán)所有方對(duì)本文的引用持有異議,請聯(lián)系拍明芯城(marketing@iczoom.com),本方將及時(shí)處理。
2、本文的引用僅供讀者交流學(xué)習(xí)使用,不涉及商業(yè)目的。
3、本文內(nèi)容僅代表作者觀點(diǎn),拍明芯城不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨(dú)立判斷做出的,請讀者明確相關(guān)結(jié)果。
4、如需轉(zhuǎn)載本方擁有版權(quán)的文章,請聯(lián)系拍明芯城(marketing@iczoom.com)注明“轉(zhuǎn)載原因”。未經(jīng)允許私自轉(zhuǎn)載拍明芯城將保留追究其法律責(zé)任的權(quán)利。
拍明芯城擁有對(duì)此聲明的最終解釋權(quán)。