<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網(wǎng)

      掃一掃關(guān)注

      當(dāng)前位置: 首頁(yè) » 企資快訊 » 匯總 » 正文

      自監(jiān)督學(xué)習(xí)兼顧語(yǔ)義對(duì)齊與空間分辨能力?清華_商

      放大字體  縮小字體 發(fā)布日期:2022-06-22 17:52:26    作者:百里敬欣    瀏覽次數(shù):19
      導(dǎo)讀

      機(jī)器之心專欄機(jī)器之心感謝部對(duì)于感謝提出得全新自監(jiān)督學(xué)習(xí)方法 Siamese Image Modeling 中,網(wǎng)絡(luò)從同一圖像得遮蓋視圖預(yù)測(cè)另一個(gè)增強(qiáng)視圖得密集特征,使其兼顧 Instance Discrimination 方法得語(yǔ)義對(duì)齊能力和 Masked

      機(jī)器之心專欄

      機(jī)器之心感謝部

      對(duì)于感謝提出得全新自監(jiān)督學(xué)習(xí)方法 Siamese Image Modeling 中,網(wǎng)絡(luò)從同一圖像得遮蓋視圖預(yù)測(cè)另一個(gè)增強(qiáng)視圖得密集特征,使其兼顧 Instance Discrimination 方法得語(yǔ)義對(duì)齊能力和 Masked Image Modeling 方法得空間分辨能力。

      論文鏈接:arxiv.org/abs/2206.01204

      自監(jiān)督學(xué)習(xí)長(zhǎng)久以來(lái)都是視覺(jué)領(lǐng)域努力追求得目標(biāo),它能夠幫助我們利用大量得無(wú)標(biāo)注數(shù)據(jù),并且推動(dòng)了很多下游任務(wù)得進(jìn)步。

      為了有效地以自監(jiān)督得方式訓(xùn)練網(wǎng)絡(luò),研究者們提出了各式各樣得 “代理任務(wù)”(pretext task)來(lái)生成監(jiān)督信號(hào),其中最為典型得有兩類框架:Instance Discrimination()與 Masked Image Modeling(MIM)。

      方法希望拉近相同圖像得不同增強(qiáng)視圖,同時(shí)避免特征坍塌(包括 MoCo、BYOL、Barlow Twins 等方法)。這種方法學(xué)習(xí)到得特征往往具有很強(qiáng)得線性可分性,所以 方法在線性分類任務(wù)上表現(xiàn)出色,但是近期得一些研究表明它在下游得檢測(cè)任務(wù)上并不優(yōu)于監(jiān)督學(xué)習(xí)。另一方面,MIM 方法通過(guò)一張遮蓋圖像來(lái)重建原始圖像(包括 BEiT、MAE 等方法),它通常在檢測(cè)任務(wù)上表現(xiàn)優(yōu)異,但是不能做好線性分類任務(wù),而且在少樣本場(chǎng)景下表現(xiàn)一般。

      為了解決這些矛盾,來(lái)自清華和商湯得研究者們提出:這種差異是因?yàn)閮煞N方法各自忽略了特征所需要得語(yǔ)義對(duì)齊和空間分辨能力。具體來(lái)說(shuō):

    • 語(yǔ)義對(duì)齊能力要求語(yǔ)義相似得圖像能被映射到鄰近得特征表示,這可以通過(guò)對(duì)比相同圖像得不同增強(qiáng)視圖來(lái)達(dá)到;
    • 空間分辨能力要求特征能夠建模圖像內(nèi)部得空間結(jié)構(gòu),而通過(guò)遮蓋圖像去預(yù)測(cè)密集特征表示能夠幫助達(dá)成這點(diǎn),因?yàn)檫@種做法建模了圖像內(nèi)部得條件分布。

      基于這些思考,研究者提出了 Siamese Image Modeling(SIM),該方法通過(guò)一張遮蓋得增強(qiáng)視圖來(lái)預(yù)測(cè)相同圖像得另一張?jiān)鰪?qiáng)視圖得密集特征表示。

      為了達(dá)到這個(gè)目標(biāo),SIM 采用了孿生網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含 online 和 target 兩個(gè)分支。online 分支首先將第壹張遮蓋視圖映射到特征空間,然后基于第壹張圖得特征和第壹、二張圖得相對(duì)位置坐標(biāo)來(lái)預(yù)測(cè)第二張圖得特征;Target 分支則負(fù)責(zé)將第二張圖映射到特征空間來(lái)獲得目標(biāo)特征。

      通過(guò)這種方式,SIM 能夠分別在線性分類任務(wù)上和 方法持平,以及在檢測(cè)任務(wù)上和 MIM 方法持平,研究者進(jìn)一步發(fā)現(xiàn)即便沒(méi)有全局得損失函數(shù),SIM 也能給出很好得線性分類表現(xiàn)。

      方法

      數(shù)據(jù)增強(qiáng)

      數(shù)據(jù)增強(qiáng)策略對(duì)于特征得學(xué)習(xí)有著非常重要得作用: 方法已經(jīng)揭示了更強(qiáng)得空間和顏色增強(qiáng)對(duì)于提升線性分類效果顯著;MIM 方法則采用了遮擋增強(qiáng)來(lái)幫助模型學(xué)習(xí)圖像得局部結(jié)構(gòu)。因此,SIM 保留了 方法中得強(qiáng)數(shù)據(jù)增強(qiáng)策略,同時(shí)對(duì)輸入給 online 分支得視圖采用遮擋增強(qiáng)策略。

      預(yù)測(cè)目標(biāo)

      SIM 被設(shè)計(jì)成去預(yù)測(cè)相同圖像得不同增強(qiáng)視圖得密集特征,這里將介紹預(yù)測(cè)和目標(biāo)分別是如何計(jì)算得。

      online 分支負(fù)責(zé)做出預(yù)測(cè)。它首先將第壹張遮擋視圖 x_a 映射成特征 y_a∈R^(N_v×D),之后利用解碼器 g (?) 基于特征 y_a,掩碼詞符 m 和他們得位置編碼來(lái)做出預(yù)測(cè)

      其中,p_a 是第壹張視圖 x_a 得位置編碼,p_b^((u,v) ) 對(duì)應(yīng)第二張視圖 x_b 在 (u,v) 處得圖塊得位置編碼,它們會(huì)在下文介紹。

      Target 分支負(fù)責(zé)給出目標(biāo)。它得編碼器是 online 分支編碼器得滑動(dòng)平均,并且接收第二張視圖得所有圖塊并編碼為目標(biāo)特征 z_b∈R^(N×D)。

      最后介紹解碼器所需得位置編碼是如何計(jì)算得。所有得圖塊都是以第壹張視圖 x_a 得左上角作為原點(diǎn)來(lái)計(jì)算得。具體來(lái)說(shuō),假設(shè)兩張視圖在原圖中得位置信息分別為 (i_1,j_1,h_1,w_1) 和 (i_2,j_2,h_2,w_2 )(分別代表左上角橫縱坐標(biāo)與高度寬度),第壹張視圖得相對(duì)位置為:

      第二張視圖得相對(duì)位置為:

      對(duì)于第二張圖,尺度變化也被進(jìn)一步加入位置信息中:

      最后,這些信息輸入到 sincos 位置編碼函數(shù)中得到如下位置編碼:

      損失函數(shù)

      SIM 采用 UniGrad 作為損失函數(shù):

      UniGrad 被采用主要出于兩個(gè)原因:(1)這種對(duì)比函數(shù)是 方法得統(tǒng)一形式;(2)它對(duì)內(nèi)存更加友好:注意到通常使用得 InfonCE 損失函數(shù)需要 O (|N|) 得內(nèi)存來(lái)計(jì)算相似度,這對(duì)于有大量負(fù)樣本得密集層次損失函數(shù)是不現(xiàn)實(shí)得;而通過(guò)先計(jì)算負(fù)樣本之間得相關(guān)矩陣,UniGrad 只需要 O (D^2) 得內(nèi)存消耗。

      SIM 嘗試將 UniGrad 施加在全局層次和密集層次,全局損失函數(shù)用全局平均得特征作為整張圖得特征:

      而密集損失函數(shù)將每個(gè)圖塊作為單獨(dú)得樣本,并且為了減少與全局損失函數(shù)得沖突,每個(gè)圖塊得特征減去了全局平均特征:

      最后得總體得損失函數(shù)為:

      研究者發(fā)現(xiàn)在短輪數(shù)下,(α_1=1,α_2=4) 給出蕞好得性能取舍。有趣得是,當(dāng)訓(xùn)練輪數(shù)足夠長(zhǎng)時(shí),只使用密集損失函數(shù) (α_1=0,α_2=1) 也能給出很好得線性分類性能。

      實(shí)驗(yàn)

      主要結(jié)果

      研究者在多種評(píng)估指標(biāo)下對(duì)比了 SIM 和其它方法得性能,包括線性分類、ImageNet 全數(shù)據(jù)微調(diào)、ImageNet 1% 數(shù)據(jù)微調(diào)、COCO 上得物體檢測(cè)與實(shí)例分割。

      線性分類方面,SIM 可以做到和 MoCo-v3 相當(dāng)?shù)盟剑瑫r(shí)大幅超過(guò) MAE(400ep 大約 11 個(gè)點(diǎn),1600ep 大約 8 個(gè)點(diǎn));同時(shí),即便不使用全局損失函數(shù),SIM 也能給出不錯(cuò)得線性分類結(jié)果;

      檢測(cè)與分割任務(wù)上,SIM 超過(guò)了 MoCo-v3 大約 2 個(gè)點(diǎn),也能在使用更短輪數(shù)得條件下達(dá)到與 MAE 相當(dāng)?shù)盟剑?00ep v.s. 1600ep);

      微調(diào)任務(wù)上,SIM 在全數(shù)據(jù)微調(diào)時(shí)可以達(dá)到和之前方法相當(dāng)?shù)盟剑?dāng)只有 1% 數(shù)據(jù)可用時(shí),SIM 能夠超過(guò) MoCo-v3 2 個(gè)點(diǎn),MAE 14 個(gè)點(diǎn)。

      消融實(shí)驗(yàn)

      預(yù)測(cè)像素還是特征。表中(ab)和(de)說(shuō)明,在使用相同視圖作為輸入和目標(biāo)時(shí),預(yù)測(cè)像素性能更好;而使用不同視圖時(shí),預(yù)測(cè)特征性能更好;

      不同視圖。表中(ae)和(cf)說(shuō)明,使用不同視圖能夠提升線性分類大概 7-13 個(gè)點(diǎn);

      顏色增強(qiáng)。表中(ac)和(ef)說(shuō)明,對(duì)于不同視圖,顏色增強(qiáng)可以提升線性分類 3.5 個(gè)點(diǎn),不過(guò)對(duì)于相同視圖則沒(méi)有這種提升效果。研究者猜測(cè)相同視圖會(huì)將預(yù)測(cè)目標(biāo)所采用得顏色增強(qiáng)泄露給模型,從而破壞了對(duì)顏色不變性得建模;

      對(duì) projector 與 decoder 使用 BN 還是 LN。研究者嘗試將 projector 和 decoder 中得歸一化層從 LN 換成 BN,表中(fg)說(shuō)明這種替換對(duì)線性分類與檢測(cè)任務(wù)都有一些提升;

      全局損失函數(shù)。表中(gh)說(shuō)明,全局損失函數(shù)有利于線性分類性能得提升,但是并不是必要得;

      密集損失函數(shù)。表中(hi)說(shuō)明密集損失函數(shù)能夠在物體檢測(cè)任務(wù)上提升 2.3 個(gè)點(diǎn),在實(shí)例分割任務(wù)上提升 1.6 個(gè)點(diǎn),這說(shuō)明密集損失函數(shù)對(duì)下游密集預(yù)測(cè)任務(wù)是有幫助得。

    •  
      (文/百里敬欣)
      免責(zé)聲明
      本文僅代表作發(fā)布者:百里敬欣個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
       

      Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

      粵ICP備16078936號(hào)

      微信

      關(guān)注
      微信

      微信二維碼

      WAP二維碼

      客服

      聯(lián)系
      客服

      聯(lián)系客服:

      在線QQ: 303377504

      客服電話: 020-82301567

      E_mail郵箱: weilaitui@qq.com

      微信公眾號(hào): weishitui

      客服001 客服002 客服003

      工作時(shí)間:

      周一至周五: 09:00 - 18:00

      反饋

      用戶
      反饋

      午夜久久久久久网站,99久久www免费,欧美日本日韩aⅴ在线视频,东京干手机福利视频
        <strike id="ca4is"><em id="ca4is"></em></strike>
      • <sup id="ca4is"></sup>
        • <s id="ca4is"><em id="ca4is"></em></s>
          <option id="ca4is"><cite id="ca4is"></cite></option>
        • 主站蜘蛛池模板: a级毛片免费在线观看| 一区二区三区在线| 爱情岛论坛首页永久入口| 国产精品国三级国产av| 久久亚洲sm情趣捆绑调教| 男女无遮挡高清性视频直播| 国产福利一区二区三区在线视频 | 国产精选之刘婷野战| 成全视频在线观看免费高清动漫视频下载| 亚洲精品免费在线观看| 鲁大师成人一区二区三区| 女人张开腿男人捅| 久热综合在线亚洲精品| 男生的肌肌插入女生的肌肌| 国产欧美在线一区二区三区| 一级做a爰片久久毛片下载| 欧美aaaaaabbbbb| 再深点灬用力灬太大了| 九九影院理论片在线观看一级| 小蝌蚪影院在线观看| 云上的日子在线| 男人的j插女人的p| 国产在线一区二区三区av| 亚洲欧美日韩专区| 色一情一乱一伦一视频免费看| 国产高清一级毛片在线人| 中文字幕日韩在线| 美女毛片一区二区三区四区| 国产精品漂亮美女在线观看| 中国老人倣爱视频| 极品丝袜系列列表| 人妻中文字幕无码专区| 菠萝蜜视频在线观看入口| 国产精品福利自产拍在线观看| 三上悠亚在线电影| 日韩资源在线观看| 亚洲综合一区二区| 美女叉开腿让男人捅| 国产成人黄色小说| 97在线观看中心| 性一交一乱一伧老太|