貴大新聞網(wǎng)訊(計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院)近日,我校計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院(貴州保密學(xué)院)張永軍團(tuán)隊(duì)在模式識(shí)別領(lǐng)域國(guó)際頂級(jí)期刊Pattern Recognition(中科院一區(qū)TOP期刊,模式識(shí)別與人工智能領(lǐng)域頂級(jí)期刊之一)上發(fā)表題為“Leveraging negative correlation for Full-Range Self-Attention in Vision Transformers”的學(xué)術(shù)論文,展現(xiàn)了團(tuán)隊(duì)在模式識(shí)別和圖像處理領(lǐng)域的深厚學(xué)術(shù)積累與前沿創(chuàng)新能力。論文第一作者為2021級(jí)碩士研究生龍偉,通訊作者為張永軍老師,貴州商學(xué)院為共同單位。
自注意力機(jī)制在圖像分類、目標(biāo)檢測(cè)和圖像分割等計(jì)算機(jī)視覺(jué)任務(wù)中具有重要作用,但現(xiàn)有方法在特征提取上仍存在一定局限性,主要表現(xiàn)為只能捕捉圖像中的正相關(guān)特征,忽略了特征之間的負(fù)相關(guān)性。這使得基于自注意力機(jī)制的深度學(xué)習(xí)模型在高維語(yǔ)義信息提取和特征區(qū)分上存在明顯不足,特別是在處理復(fù)雜對(duì)象特征時(shí)無(wú)法有效進(jìn)行精準(zhǔn)識(shí)別。此外,自注意力機(jī)制在反向傳播過(guò)程中容易出現(xiàn)梯度消失問(wèn)題,從而影響模型優(yōu)化,現(xiàn)有方法仍然存在注意力權(quán)重分布過(guò)于均勻?qū)е绿卣鲄^(qū)分度降低,不利于特征識(shí)別和提取。
針對(duì)這一難題,張永軍團(tuán)隊(duì)創(chuàng)新性地提出了全范圍自注意力(FSA)方法,通過(guò)引入負(fù)相關(guān)特征,有效擴(kuò)展了原有自注意力的相關(guān)性表示范圍。此方法能夠使模型能夠同時(shí)捕捉正向和負(fù)向的相關(guān)性特征,從而更精準(zhǔn)地區(qū)分相關(guān)和無(wú)關(guān)的圖像特征。此外,該研究還創(chuàng)新性地設(shè)計(jì)了雙向注意力權(quán)重選擇(BAWS)策略,幫助模型在識(shí)別和聚焦最相關(guān)的特征的同時(shí)排除掉與任務(wù)無(wú)關(guān)的負(fù)相關(guān)性特征。此外,還通過(guò)引入注意力重分配連接(ARC),使得模型能夠動(dòng)態(tài)調(diào)整注意力強(qiáng)度,優(yōu)化特征聚合,避免梯度消失問(wèn)題的發(fā)生。該方法能夠在不增加額外的計(jì)算開(kāi)銷和參數(shù)量的情況下,顯著提升模型的特征提取能力和語(yǔ)義理解能力。
實(shí)驗(yàn)結(jié)果表明,提出的全范圍自注意力在多個(gè)計(jì)算機(jī)視覺(jué)重要任務(wù)和先進(jìn)模型中顯著提升了性能。在ImageNet-1K分類中,全范圍自注意力在不增加計(jì)算成本的情況下,大幅提高了多種Vision Transformer模型的準(zhǔn)確性。在COCO目標(biāo)檢測(cè)和實(shí)例分割中,由全范圍自注意力改進(jìn)過(guò)后的方法檢測(cè)性能明顯優(yōu)于原始的模型。在ADE20K語(yǔ)義分割任務(wù)中,引入全范圍自注意力后的方法在mIoU指標(biāo)上提升了1.6%至2.4%。與現(xiàn)有注意力機(jī)制相比,全范圍自注意力的核心突破在于成功挖掘了長(zhǎng)期被忽視的負(fù)相關(guān)性特征交互機(jī)制,在保持相同參數(shù)量和計(jì)算復(fù)雜度的基礎(chǔ)上,顯著提升了多個(gè)先進(jìn)的Vision Transformer模型在多個(gè)計(jì)算機(jī)視覺(jué)基礎(chǔ)任務(wù)中的性能。
編輯:張蟬
責(zé)編:李旭鋒
編審:丁龍