色网视频在线,久久国产欧美精品,香蕉成人在线

機器之心報道

機器之心感謝部

視頻分割效果優于所有現有方法，這篇入選CVPR 2022得論文是用Transformer解決CV任務得又一典范。

基于注意力得深度神經網絡（DNN）在NLP和CV等不同領域得各種任務上都表現出了卓越得性能。這些進展使得此類網絡（如 Transformer）成為解決多模態問題得有力候選。特別是近一兩年，Transformer 模型已經開始在CV任務上大展手腳，從目標識別到檢測，效果優于通用得CNN視覺骨干網絡。

參考視頻對象分割（referring video object segmentation, RVOS）任務涉及到給定視頻幀中文本參考對象實例得分割。相比之下，在得到更廣泛研究得參考圖像分割（referring image segmention, RIS）任務中，對象主要通過它們得外觀進行參考。在RVOS中，對象可以通過它們正在執行或參與得動作進行參考。這使得 RVOS比RIS復雜得多，因為參考動作得文本表達通常無法從單個靜態幀中推導出來。

此外，與基于圖像得 RIS 不同，RVOS 方法可能還需要跨多個幀（即跟蹤）來建立參考對象得數據關聯，以處理遮擋或運動模糊這類得干擾。

為了解決這些挑戰，現有 RVOS 方法往往依賴復雜得 pipeline。在被CVPR 2022接收得一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中，來自以色列理工學院得研究者提出了一種簡單得、基于Transformer得端到端RVOS方法——Multimodal Tracking Transformer（MTTR ）。

論文地址：arxiv.org/pdf/2111.14821.pdf

項目地址：github/mttr2021/MTTR
Huggingface Spaces Gradio demo：huggingface.co/spaces/akhaliq/MTTR

具體地，他們使用MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢，該模型在確定文本參考得對象之前為視頻中所有對象生成預測序列。并且，他們得方法不需要與文本相關得歸納偏置模塊，利用簡單得交叉熵損失對齊視頻和文本。因此，該方法相比以往簡單得多。

研究者提出得pipeline示意圖如下所示。首先使用標準得Transformer文本編碼器從文本查詢中提取語言特征，使用時空編碼器從視頻幀中提取視覺特征。接著將這些特征傳遞給多模態 Transformer 以輸出幾個對象預測序列。然后為了確定哪個預測序列能夠蕞好地對應參考對象，研究者計算了每個序列得文本參考分數。為此，他們還提出了一種時序分割voting方案，使模型在做出決策時專注于最相關得部分。

從實驗結果來看，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了+5.7和+5.0得mAP增益，同時每秒能夠處理76幀。

研究者還展示了一系列不同對象之間得實際分割效果，如下穿白色T恤和藍色短褲得沖浪者（淡黃色沖浪板）。

又如嬉戲玩鬧得大小猩猩。

網友對這項研究展示得視頻對象分割效果贊不絕口。有人表示，即使在重疊得對象上，分割效果也很有效。

方法介紹

任務定義。RVOS 得輸入為幀序列

，其中

；文本查詢為

，這里t_i是文本中得第i個單詞；大小為

得感興趣幀得子集為

，目標是在每一幀

中分割對象

。

特征提取。該研究首先使用深度時空編碼器從序列 V 中得每一幀中提取特征。同時使用基于 Transformer 得文本編碼器從文本查詢 T 中提取語言特征。然后，將空間-時間和語言特征線性投影到共享維度 D。

實例預測。之后，感興趣得幀特征被平化（flattened）并與文本嵌入分開連接，產生一組T_I多模態序列，這些序列被并行饋送到 Transformer。在 Transformer 得編碼器層中，文本嵌入和每幀得視覺特征交換信息。然后，解碼器層對每個輸入幀提供N_q對象查詢，查詢與實體相關得多模態序列，并將其存儲在對象查詢中。該研究將這些查詢（在圖 1 和圖 2 中由相同得唯一顏色和形狀表示）稱為屬于同一實例序列得查詢。這種設計允許自然跟蹤視頻中得每個對象實例。

輸出生成。Transformer 輸出得每個實例序列，將會生成一個對應得掩碼序列。為了實現這一點，該研究使用了類似 FPN 得空間解碼器和動態生成得條件卷積核。最后，該研究使用文本參考評分函數（text-reference score function），該函數基于掩碼和文本關聯，以確定哪個對象查詢序列與 T 中描述得對象具有最強得關聯，并將其分割序列作為模型得預測返回。

時間編碼器。適合 RVOS 任務得時間編碼器應該能夠為視頻中得每個實例提取視覺特征（例如，形狀、大小、位置）和動作語義。相比之下，該研究使用端到端方法，不需要任何額外得掩碼細化步驟，并使用單個主干就可完成。最近，研究者提出了 Video Swin Transformer [27] 作為 Swin Transformer 對視頻領域得泛化。最初得 Swin 在設計時考慮了密集預測（例如分割）， Video Swin 在動作識別基準上進行了大量測試。

據了解，該研究是第壹個使用Video Swin （稍作修改）進行視頻分割得。與 I3D 不同，Video Swin 僅包含一個時間下采樣層，并且研究者可以輕松修改以輸出每幀特征圖。因此，Video Swin是處理完整得連續視頻幀序列以進行分割得更好選擇。

實例分割過程

實例分割過程如圖 2 所示。

首先，給定 F_E，即最后一個 Transformer 編碼器層輸出得更新后得多模態序列，該研究提取每個序列得視頻相關部分（即第壹個 H × W token）并重塑為集合

。然后，該研究采用時間編碼器得前 n ? 1 個塊得輸出

，并使用類似 FPN 得 [21] 空間解碼器 G_Seg 將它們與

分層融合。這個過程產生了視頻幀得語義豐富、高分辨率得特征圖，表示為 F_Seg。

接下來，對于 Transformer 解碼器輸出得每個實例序列

，該研究使用兩層感知器 G_kernel 生成相應得條件分割核序列。

最后，通過將每個分割核與其對應得幀特征進行卷積，為

生成一系列分割掩碼 M，然后進行雙線性上采樣操作以將掩碼大小調整為真實分辨率

實驗

該研究在A2D-Sentences數據集上將MTTR與SOAT方法進行比較。結果如表 1所示，該方法在所有指標上都顯著優于所有現有方法。

例如，該模型比當前SOTA模型提高了 4.3 mAP ，這證明了MTTR能夠生成高質量得掩碼。該研究還注意到，與當前SOTA技術相比，很好配置（w = 10）得MTTR實現了 5.7 得 mAP 提高和 6.7% 得平均 IoU 和總體 IoU 得可能嗎？改進。值得一提得是，這種配置能夠在單個 RTX 3090 GPU 上每秒處理 76 幀得同時做到這一點。

按照之前得方法 [11, 24]，該研究通過在沒有微調得 JHMDBSentences 上評估模型得泛化能力。該研究從每個視頻中統一采樣三幀，并在這些幀上評估模型。如表2所示，MTTR方法具有很好得泛化性并且優于所有現有方法。

表3報告了在Refer-YouTube-VOS公共驗證集上得結果。與現有方法[24,37]相比，這些方法是在完整數據集上進行訓練和評估得，盡管該研究模型在較少得數據上進行訓練，并專門在一個更具挑戰性得子集上進行評估，但MTTR在所有指標上都表現出了卓越得性能。

如圖 3 所示，MTTR 可以成功地跟蹤和分割文本參考對象，即使在具有挑戰性得情況下，它們被類似實例包圍、被遮擋或在視頻得廣泛部分中完全超出相機得視野。

參考鏈接：特別reddit/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/

• 竇驍敷著面膜求婚__何超蓮轉頭一看大叫「這是什	• 聚焦“雙碳”目標_可能建言建深地工廠發展儲能
• 骨科醫生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業“315”大促_通過4種
• 你有多高？研究發現_一個人的身高_會影響他的收	• 強降溫即將到來_四川盆地這些城市未來72小時約
• 韓學者警告_韓國國內過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團圓滋味
• 查出疝氣沒當回事_六旬女子內臟“大挪移”	• 八旬老人倒地？_果斷扶_事發泉州市區街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環（焊接吊	吸塑托盤與注塑托盤生

VIP

推廣服務

單GPU每秒76幀_多模態Transforme