貴大新聞網(wǎng)訊(計算機科學(xué)與技術(shù)學(xué)院)近日,我校計算機科學(xué)與技術(shù)學(xué)院(貴州保密學(xué)院)張永軍團(tuán)隊在模式識別領(lǐng)域國際頂級期刊Pattern Recognition(中科院一區(qū)TOP期刊,模式識別與人工智能領(lǐng)域頂級期刊之一)上發(fā)表題為“Leveraging negative correlation for Full-Range Self-Attention in Vision Transformers”的學(xué)術(shù)論文,展現(xiàn)了團(tuán)隊在模式識別和圖像處理領(lǐng)域的深厚學(xué)術(shù)積累與前沿創(chuàng)新能力。論文第一作者為2021級碩士研究生龍偉,通訊作者為張永軍老師,貴州商學(xué)院為共同單位。
自注意力機制在圖像分類、目標(biāo)檢測和圖像分割等計算機視覺任務(wù)中具有重要作用,但現(xiàn)有方法在特征提取上仍存在一定局限性,主要表現(xiàn)為只能捕捉圖像中的正相關(guān)特征,忽略了特征之間的負(fù)相關(guān)性。這使得基于自注意力機制的深度學(xué)習(xí)模型在高維語義信息提取和特征區(qū)分上存在明顯不足,特別是在處理復(fù)雜對象特征時無法有效進(jìn)行精準(zhǔn)識別。此外,自注意力機制在反向傳播過程中容易出現(xiàn)梯度消失問題,從而影響模型優(yōu)化,現(xiàn)有方法仍然存在注意力權(quán)重分布過于均勻?qū)е绿卣鲄^(qū)分度降低,不利于特征識別和提取。
針對這一難題,張永軍團(tuán)隊創(chuàng)新性地提出了全范圍自注意力(FSA)方法,通過引入負(fù)相關(guān)特征,有效擴展了原有自注意力的相關(guān)性表示范圍。此方法能夠使模型能夠同時捕捉正向和負(fù)向的相關(guān)性特征,從而更精準(zhǔn)地區(qū)分相關(guān)和無關(guān)的圖像特征。此外,該研究還創(chuàng)新性地設(shè)計了雙向注意力權(quán)重選擇(BAWS)策略,幫助模型在識別和聚焦最相關(guān)的特征的同時排除掉與任務(wù)無關(guān)的負(fù)相關(guān)性特征。此外,還通過引入注意力重分配連接(ARC),使得模型能夠動態(tài)調(diào)整注意力強度,優(yōu)化特征聚合,避免梯度消失問題的發(fā)生。該方法能夠在不增加額外的計算開銷和參數(shù)量的情況下,顯著提升模型的特征提取能力和語義理解能力。
實驗結(jié)果表明,提出的全范圍自注意力在多個計算機視覺重要任務(wù)和先進(jìn)模型中顯著提升了性能。在ImageNet-1K分類中,全范圍自注意力在不增加計算成本的情況下,大幅提高了多種Vision Transformer模型的準(zhǔn)確性。在COCO目標(biāo)檢測和實例分割中,由全范圍自注意力改進(jìn)過后的方法檢測性能明顯優(yōu)于原始的模型。在ADE20K語義分割任務(wù)中,引入全范圍自注意力后的方法在mIoU指標(biāo)上提升了1.6%至2.4%。與現(xiàn)有注意力機制相比,全范圍自注意力的核心突破在于成功挖掘了長期被忽視的負(fù)相關(guān)性特征交互機制,在保持相同參數(shù)量和計算復(fù)雜度的基礎(chǔ)上,顯著提升了多個先進(jìn)的Vision Transformer模型在多個計算機視覺基礎(chǔ)任務(wù)中的性能。
編輯:張蟬
責(zé)編:李旭鋒
編審:丁龍