學(xué)者開源物理傳熱啟發(fā)的視覺表征模型vHeat
近日,鵬城實(shí)驗(yàn)室網(wǎng)絡(luò)智能研究部視覺智能研究所與中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院共同合作,分別在GitHub和OpenI啟智社區(qū)開源了物理傳熱啟發(fā)的高效視覺表征模型vHeat。
vHeat與ViT核心算子計(jì)算復(fù)雜度對(duì)比。研究團(tuán)隊(duì)供圖
研究團(tuán)隊(duì)認(rèn)為,CNN和ViT的卷積算子與自注意力算子都是特征內(nèi)部的像素傳播過程,分別是一種信息傳遞的形式,從而聯(lián)想到物理領(lǐng)域的熱傳導(dǎo),因此提出了基于熱傳導(dǎo)的視覺表征模型vHeat。vHeat將圖片特征塊視為熱源,通過預(yù)測(cè)熱擴(kuò)散率,以物理學(xué)熱傳導(dǎo)原理來提取圖像特征。
相比基于Attention機(jī)制的視覺模型,vHeat同時(shí)兼顧了低計(jì)算復(fù)雜度、全局感受野、物理可解釋性等特性,計(jì)算復(fù)雜度降低為1.5次方。
HCO與HCO Layer示意圖。研究團(tuán)隊(duì)供圖
研究團(tuán)隊(duì)根據(jù)熱傳導(dǎo)方程,將視覺語(yǔ)義的空間傳播和物理熱傳導(dǎo)建立聯(lián)系,根據(jù)傅里葉變換求得通解,并依據(jù)通解進(jìn)行離散化和通道維度擴(kuò)展,提出了一種1.5次方計(jì)算復(fù)雜度的視覺熱傳導(dǎo)算子(Heat Conduction Operator,HCO)。
此外,團(tuán)隊(duì)認(rèn)為不同圖像內(nèi)容對(duì)應(yīng)不同的熱擴(kuò)散率,提出了頻率值編碼(Frequency Value Embeddings,F(xiàn)VEs)來表示頻率信息,并采用FVEs來預(yù)測(cè)熱擴(kuò)散率,使得HCO可進(jìn)行非均勻、自適應(yīng)的傳導(dǎo)。
用FVEs預(yù)測(cè)熱擴(kuò)散率,形成非均勻、自適應(yīng)的傳導(dǎo)。研究團(tuán)隊(duì)供圖
實(shí)驗(yàn)證明,vHeat在各種視覺任務(wù)中表現(xiàn)優(yōu)秀。例如vHeat-T在ImageNet-1K上分類準(zhǔn)確率達(dá)到82.2%,比Swin-T高0.9%,比Vim-S高1.7%。除性能優(yōu)勢(shì)之外,vHeat還擁有高推理速度、低GPU顯存占用和低FLOPs等優(yōu)點(diǎn)。在輸入圖像分辨率較高時(shí),相比于Swin,base規(guī)模的vHeat模型達(dá)到3倍吞吐量,同時(shí)GPU顯存占用為其1/4倍,F(xiàn)LOPs為其3/4倍。
vHeat這一創(chuàng)新性研究成果為視覺模型的發(fā)展提供了新的方向和思路。未來,研究團(tuán)隊(duì)將繼續(xù)推進(jìn)新型視覺模型研究,為模型在各行業(yè)、多領(lǐng)域的人工智能發(fā)展和應(yīng)用貢獻(xiàn)力量。
?
作者:朱漢斌
本文只是新聞分享,讓更多的科研工作者了解相關(guān)內(nèi)容,不包含網(wǎng)站及個(gè)人看法,如有侵權(quán)請(qǐng)聯(lián)系刪除。
關(guān)鍵詞
上一篇
我國(guó)科研團(tuán)隊(duì)首次對(duì)新奇自旋相互作...
下一篇
已經(jīng)到最后一篇啦
科技查新
更快速:最快當(dāng)天出報(bào)告
更權(quán)威:官方授權(quán),報(bào)告驗(yàn)真
更高效:客服一對(duì)一跟進(jìn)
更安心:不通過全額退款