中文字幕乱码免费看电影,蜜桃网999

科研成果

您當(dāng)前所在位置是: 首頁 >> 科學(xué)研究 >> 科研成果 >> 正文

【牢記囑托見行見效】我院多項(xiàng)最新研究成果被計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR 2025錄用

國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議（CVPR2025）即將于2025年6月11日至15日在美國(guó)田納西州納什維爾召開，該會(huì)議是由電氣電子工程師學(xué)會(huì)（IEEE）舉辦的計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議，屬于中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）推薦的A類國(guó)際學(xué)術(shù)會(huì)議，在Google Scholar指標(biāo)榜單中位列全球?qū)W術(shù)出版物第二，僅次于Nature。本年度召開的CVPR 2025共收到13008篇有效投稿，其中2878篇被接收，錄取率為22.1%。

在近期公布的CVPR 2025的錄取結(jié)果中，天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院師生有多項(xiàng)最新研究成果入選，相關(guān)簡(jiǎn)要介紹如下：

1.Customized Condition Controllable Generation for Video Soundtrack^[1]

該論文由我院亓帆副教授以及所指導(dǎo)的2023級(jí)碩士研究生馬錕生撰寫。該研究針對(duì)視頻配樂生成領(lǐng)域中音樂和音效問題展開深入研究，提出了一種創(chuàng)新的頻譜散度掩碼注意力和引導(dǎo)噪聲優(yōu)化的視頻配樂擴(kuò)散模型框架。該框架融合對(duì)比視覺-聲音-音樂預(yù)訓(xùn)練、頻譜散度掩碼注意力機(jī)制以及評(píng)分引導(dǎo)噪聲迭代優(yōu)化三大核心模塊，有效地將音樂和音效這兩種生成條件的模態(tài)信息映射到統(tǒng)一的特征空間。通過這一機(jī)制，模型在保持音效與音樂獨(dú)特特性的同時(shí)，顯著增強(qiáng)了對(duì)復(fù)雜音頻動(dòng)態(tài)的捕捉能力。此外，即便在視頻配樂優(yōu)化條件與視頻信息未經(jīng)復(fù)雜學(xué)習(xí)訓(xùn)練的情況下，該方法仍能為音樂創(chuàng)作者提供高度可定制的控制能力，使配樂生成過程更加靈活高效。

2.Language Guided Concept Bottleneck Models for Interpretable Continual Learning^[2]

該論文由我院余璐副教授以及所指導(dǎo)的2023級(jí)碩士研究生韓昊宇撰寫。持續(xù)學(xué)習(xí)（Continual Learning）的目標(biāo)是使學(xué)習(xí)系統(tǒng)能夠不斷獲取新知識(shí)，同時(shí)不遺忘先前學(xué)習(xí)的信息。持續(xù)面臨的挑戰(zhàn)在于緩解災(zāi)難性遺忘（catastrophic forgetting）的同時(shí)保持跨任務(wù)的可解釋性。現(xiàn)有的大多數(shù)持續(xù)方法主要側(cè)重于保留已學(xué)知識(shí)以提高模型性能。然而，隨著新信息的引入，學(xué)習(xí)過程的可解釋性對(duì)于理解不斷演化的決策機(jī)制至關(guān)重要，但這一方向卻鮮少被探索。本研究提出了一種新穎框架，通過整合語言引導(dǎo)的概念瓶頸模型（Concept Bottleneck Models, CBMs）來同時(shí)應(yīng)對(duì)這兩大挑戰(zhàn)。我們的方法利用概念瓶頸層（Concept Bottleneck Layer），與CLIP模型對(duì)齊語義一致性，從而學(xué)習(xí)人類可理解、且能跨任務(wù)泛化的概念。通過聚焦于可解釋的概念，該方法不僅增強(qiáng)了模型隨時(shí)間推移保留知識(shí)的能力，還提供了透明的決策洞察。我們?cè)诙鄠€(gè)數(shù)據(jù)集上驗(yàn)證了方法的有效性，其中在ImageNet子集上的最終平均準(zhǔn)確率超越現(xiàn)有最優(yōu)方法達(dá)3.06%。此外，我們通過概念可視化展示模型預(yù)測(cè)依據(jù)，進(jìn)一步推動(dòng)了可解釋持續(xù)學(xué)習(xí)的理解。

3.SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures^[3]

該論文由我院石凡教授和程徐教授所指導(dǎo)的2023級(jí)碩士研究生劉輝撰寫，通訊作者為賈晨博士后。該研究提出了一種面向邊緣設(shè)備優(yōu)化的輕量化結(jié)構(gòu)感知視覺Mamba網(wǎng)絡(luò)SCSegamba，通過動(dòng)態(tài)特征建模機(jī)制與極簡(jiǎn)高效的設(shè)計(jì)實(shí)現(xiàn)了復(fù)雜場(chǎng)景下的高精度裂縫分割。其核心創(chuàng)新在于首先基于低秩分解與動(dòng)態(tài)門控機(jī)制設(shè)計(jì)了輕量級(jí)門控瓶頸卷積，相比于標(biāo)準(zhǔn)卷積，低秩分解使得網(wǎng)絡(luò)的參數(shù)規(guī)模和GFLOPs分別降低了64.60%和71.63%，在大幅減少計(jì)算需求的同時(shí)保持了裂縫形態(tài)特征提取能力；結(jié)構(gòu)感知狀態(tài)空間模塊利用創(chuàng)新性的多路徑結(jié)構(gòu)感知掃描策略感知裂縫像素之間的拓?fù)浣Y(jié)構(gòu)鄰接關(guān)系，提高了特征圖的語義連續(xù)性，相比于傳統(tǒng)的平行掃描策略，在F1和mIoU上分別提高了1.19%和0.84%；此外，輕量級(jí)的多尺度特征分割頭能夠以極低的0.01M參數(shù)規(guī)模和0.42GFLOPs的計(jì)算需求生成有效抑制背景噪聲的高質(zhì)量分割圖。該網(wǎng)絡(luò)模型總體僅具有2.80M參數(shù)規(guī)模與18.16GFLOPs，特別是與基于輕量Transformer的方法相比，參數(shù)規(guī)模減少了52.54%。在包含低對(duì)比度、多光照條件和復(fù)雜背景噪聲等挑戰(zhàn)性場(chǎng)景的結(jié)構(gòu)裂縫檢測(cè)數(shù)據(jù)集上，該網(wǎng)絡(luò)的F1分?jǐn)?shù)和mIoU指標(biāo)分別達(dá)到了0.8390和0.8479，與次好的方法相比分別提高了2.22%和1.74%，展現(xiàn)出最優(yōu)性能表現(xiàn)，為邊緣計(jì)算設(shè)備上的實(shí)時(shí)結(jié)構(gòu)裂縫檢測(cè)提供了可行的輕量化解決方案。

天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院始終堅(jiān)持以國(guó)家戰(zhàn)略需求為導(dǎo)向，以智能技術(shù)創(chuàng)新為驅(qū)動(dòng)，持續(xù)深耕人工智能和計(jì)算機(jī)視覺等前沿領(lǐng)域。此次多項(xiàng)成果入選CVPR 2025，標(biāo)志著我院在人工智能、計(jì)算機(jī)視覺及交叉領(lǐng)域的研究取得了新的突破。面向未來，我們將進(jìn)一步聚焦國(guó)家人工智能與數(shù)字經(jīng)濟(jì)戰(zhàn)略需求，探索跨學(xué)科融合創(chuàng)新。學(xué)院亦將持續(xù)優(yōu)化人才培養(yǎng)體系，依托高水平科研項(xiàng)目，培育兼具國(guó)際視野與工程實(shí)踐能力的復(fù)合型人才，為全球科技發(fā)展貢獻(xiàn)中國(guó)智慧。

[1]Fan Qi,Kunsheng Ma,Changsheng Xu.Customized Condition Controllable Generation for Video Soundtrack.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

[2]Lu Yu,Haoyu Han,Zhe Tao,Hantao Yao,Changsheng Xu.Language Guided Concept Bottleneck Models for Interpretable Continual Learning.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

[3]Hui Liu,ChenJia,FanShi,XuCheng,ShengyongChen.SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures.In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 2025.

下一條：我院高贊教授在行人重識(shí)別方向最新成果被TPAMI錄用發(fā)表

【關(guān)閉】

地點(diǎn)：天津市西青區(qū)賓水西道391號(hào) 8號(hào)樓

學(xué)院辦公室：8號(hào)樓209A； Email: yjs (at) tjut.edu.cn

電話：60216865；傳真：60216906