科研成果
您當(dāng)前所在位置是: 首頁 >> 科學(xué)研究 >> 科研成果 >> 正文
【牢記囑托 見行見效】我院多項(xiàng)最新研究成果被計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR 2025錄用

國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR2025)即將于2025年6月11日至15日在美國(guó)田納西州納什維爾召開,該會(huì)議是由電氣電子工程師學(xué)會(huì)(IEEE)舉辦的計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議,屬于中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國(guó)際學(xué)術(shù)會(huì)議,在Google Scholar指標(biāo)榜單中位列全球?qū)W術(shù)出版物第二,僅次于Nature。本年度召開的CVPR 2025共收到13008篇有效投稿,其中2878篇被接收,錄取率為22.1%。

在近期公布的CVPR 2025的錄取結(jié)果中,天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院師生有多項(xiàng)最新研究成果入選,相關(guān)簡(jiǎn)要介紹如下:

1.Customized Condition Controllable Generation for Video Soundtrack[1]

該論文由我院亓帆副教授以及所指導(dǎo)的2023級(jí)碩士研究生馬錕生撰寫。該研究針對(duì)視頻配樂生成領(lǐng)域中音樂和音效問題展開深入研究,提出了一種創(chuàng)新的頻譜散度掩碼注意力和引導(dǎo)噪聲優(yōu)化的視頻配樂擴(kuò)散模型框架。該框架融合對(duì)比視覺-聲音-音樂預(yù)訓(xùn)練、頻譜散度掩碼注意力機(jī)制以及評(píng)分引導(dǎo)噪聲迭代優(yōu)化三大核心模塊,有效地將音樂和音效這兩種生成條件的模態(tài)信息映射到統(tǒng)一的特征空間。通過這一機(jī)制,模型在保持音效與音樂獨(dú)特特性的同時(shí),顯著增強(qiáng)了對(duì)復(fù)雜音頻動(dòng)態(tài)的捕捉能力。此外,即便在視頻配樂優(yōu)化條件與視頻信息未經(jīng)復(fù)雜學(xué)習(xí)訓(xùn)練的情況下,該方法仍能為音樂創(chuàng)作者提供高度可定制的控制能力,使配樂生成過程更加靈活高效。



2.Language Guided Concept Bottleneck Models for Interpretable Continual Learning[2]

該論文由我院余璐副教授以及所指導(dǎo)的2023級(jí)碩士研究生韓昊宇撰寫。持續(xù)學(xué)習(xí)(Continual Learning)的目標(biāo)是使學(xué)習(xí)系統(tǒng)能夠不斷獲取新知識(shí),同時(shí)不遺忘先前學(xué)習(xí)的信息。持續(xù)面臨的挑戰(zhàn)在于緩解災(zāi)難性遺忘(catastrophic forgetting)的同時(shí)保持跨任務(wù)的可解釋性。現(xiàn)有的大多數(shù)持續(xù)方法主要側(cè)重于保留已學(xué)知識(shí)以提高模型性能。然而,隨著新信息的引入,學(xué)習(xí)過程的可解釋性對(duì)于理解不斷演化的決策機(jī)制至關(guān)重要,但這一方向卻鮮少被探索。本研究提出了一種新穎框架,通過整合語言引導(dǎo)的概念瓶頸模型(Concept Bottleneck Models, CBMs)來同時(shí)應(yīng)對(duì)這兩大挑戰(zhàn)。我們的方法利用概念瓶頸層(Concept Bottleneck Layer),與CLIP模型對(duì)齊語義一致性,從而學(xué)習(xí)人類可理解、且能跨任務(wù)泛化的概念。通過聚焦于可解釋的概念,該方法不僅增強(qiáng)了模型隨時(shí)間推移保留知識(shí)的能力,還提供了透明的決策洞察。我們?cè)诙鄠€(gè)數(shù)據(jù)集上驗(yàn)證了方法的有效性,其中在ImageNet子集上的最終平均準(zhǔn)確率超越現(xiàn)有最優(yōu)方法達(dá)3.06%。此外,我們通過概念可視化展示模型預(yù)測(cè)依據(jù),進(jìn)一步推動(dòng)了可解釋持續(xù)學(xué)習(xí)的理解。



3.SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures[3]

該論文由我院石凡教授和程徐教授所指導(dǎo)的2023級(jí)碩士研究生劉輝撰寫,通訊作者為賈晨博士后。該研究提出了一種面向邊緣設(shè)備優(yōu)化的輕量化結(jié)構(gòu)感知視覺Mamba網(wǎng)絡(luò)SCSegamba,通過動(dòng)態(tài)特征建模機(jī)制與極簡(jiǎn)高效的設(shè)計(jì)實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的高精度裂縫分割。其核心創(chuàng)新在于首先基于低秩分解與動(dòng)態(tài)門控機(jī)制設(shè)計(jì)了輕量級(jí)門控瓶頸卷積,相比于標(biāo)準(zhǔn)卷積,低秩分解使得網(wǎng)絡(luò)的參數(shù)規(guī)模和GFLOPs分別降低了64.60%和71.63%,在大幅減少計(jì)算需求的同時(shí)保持了裂縫形態(tài)特征提取能力;結(jié)構(gòu)感知狀態(tài)空間模塊利用創(chuàng)新性的多路徑結(jié)構(gòu)感知掃描策略感知裂縫像素之間的拓?fù)浣Y(jié)構(gòu)鄰接關(guān)系,提高了特征圖的語義連續(xù)性,相比于傳統(tǒng)的平行掃描策略,在F1和mIoU上分別提高了1.19%和0.84%;此外,輕量級(jí)的多尺度特征分割頭能夠以極低的0.01M參數(shù)規(guī)模和0.42GFLOPs的計(jì)算需求生成有效抑制背景噪聲的高質(zhì)量分割圖。該網(wǎng)絡(luò)模型總體僅具有2.80M參數(shù)規(guī)模與18.16GFLOPs,特別是與基于輕量Transformer的方法相比,參數(shù)規(guī)模減少了52.54%。在包含低對(duì)比度、多光照條件和復(fù)雜背景噪聲等挑戰(zhàn)性場(chǎng)景的結(jié)構(gòu)裂縫檢測(cè)數(shù)據(jù)集上,該網(wǎng)絡(luò)的F1分?jǐn)?shù)和mIoU指標(biāo)分別達(dá)到了0.8390和0.8479,與次好的方法相比分別提高了2.22%和1.74%,展現(xiàn)出最優(yōu)性能表現(xiàn),為邊緣計(jì)算設(shè)備上的實(shí)時(shí)結(jié)構(gòu)裂縫檢測(cè)提供了可行的輕量化解決方案。



天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院始終堅(jiān)持以國(guó)家戰(zhàn)略需求為導(dǎo)向,以智能技術(shù)創(chuàng)新為驅(qū)動(dòng),持續(xù)深耕人工智能和計(jì)算機(jī)視覺等前沿領(lǐng)域。此次多項(xiàng)成果入選CVPR 2025,標(biāo)志著我院在人工智能、計(jì)算機(jī)視覺及交叉領(lǐng)域的研究取得了新的突破。面向未來,我們將進(jìn)一步聚焦國(guó)家人工智能與數(shù)字經(jīng)濟(jì)戰(zhàn)略需求,探索跨學(xué)科融合創(chuàng)新。學(xué)院亦將持續(xù)優(yōu)化人才培養(yǎng)體系,依托高水平科研項(xiàng)目,培育兼具國(guó)際視野與工程實(shí)踐能力的復(fù)合型人才,為全球科技發(fā)展貢獻(xiàn)中國(guó)智慧。



[1]Fan Qi,Kunsheng Ma,Changsheng Xu.Customized Condition Controllable Generation for Video Soundtrack.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

[2]Lu Yu,Haoyu Han,Zhe Tao,Hantao Yao,Changsheng Xu.Language Guided Concept Bottleneck Models for Interpretable Continual Learning.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

[3]Hui Liu,ChenJia,FanShi,XuCheng,ShengyongChen.SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

下一條:我院高贊教授在行人重識(shí)別方向最新成果被TPAMI錄用發(fā)表

關(guān)閉

六枝特区| 宁陕县| 大安市| 青海省| 额济纳旗| 冷水江市| 封开县| 罗城| 禹城市| 双流县| 司法| 遂平县| 桂东县| 冀州市| 汉源县| 谢通门县| 哈巴河县| 东辽县| 南漳县| 金昌市| 石城县| 饶阳县| 乌兰察布市| 宜都市| 广汉市| 丰都县| 城口县| 兴城市| 扎囊县| 乳源| 舟曲县| 清苑县| 同仁县| 潮安县| 石楼县| 定襄县| 云南省| 乌鲁木齐县| 澎湖县| 如皋市| 琼海市|