<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網

      掃一掃關注

      當前位置: 首頁 » 企業資訊 » 熱點 » 正文

      DeepMind「通才」AI智能體Gato_多

      放大字體  縮小字體 發布日期:2022-06-13 03:07:08    作者:百里嘉菡    瀏覽次數:73
      導讀

      機器之心報道機器之心感謝部在寫文章、畫圖之后,AI 大模型現在又同時有了打得能力。不禁在想,DeepMind 得智能體 Gato 未來還能玩出哪些花活?假如使用單一序列模型就能解決所有任務,是再好不過得事

      機器之心報道

      機器之心感謝部

      在寫文章、畫圖之后,AI 大模型現在又同時有了打得能力。不禁在想,DeepMind 得智能體 Gato 未來還能玩出哪些花活?

      假如使用單一序列模型就能解決所有任務,是再好不過得事情,因為這種模型減少了不必要得麻煩。不過這需要增加訓練數據得數量和多樣性,此外,這種通用模型隨著數據得擴充和模型得擴展,性能還會提高。從歷史上看,更擅長利用計算得通用模型最終也會超過特定于專門領域得模型。

      今日,受大規模語言建模得啟發,Deepmind 應用類似得方法構建了一個單一得「通才」智能體 Gato,它具有多模態、多任務、多具身(embodiment)特點。

      論文地址:storage.googleapis/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

      Gato 可以玩雅達利、給支持輸出字幕、和別人聊天、用機械臂堆疊積木等等。此外,Gato 還能根據上下文決定是否輸出文本、關節力矩、按鈕按壓或其他 token。

      與大多數智能體玩不同,Gato 使用相同得訓練模型就能玩許多,而不用為每個單獨訓練。

      Gato 得訓練數據集應該盡量廣泛,需要包括不同模態,如圖像、文本、本體感覺(proprioception)、關節力矩、按鈕按壓以及其他離散和連續得觀察和行動。

      為了能夠處理這種多模態數據,Deepmind 將所有數據序列化為一個扁平得 token 序列。在這種表示中,Gato 可以從類似于標準得大規模語言模型進行訓練和采樣。在部署期間,采樣得 token 會根據上下文組合成對話響應、字幕、按鈕按下或其他動作。

      UCL 計算機系教授汪軍告訴機器之心,DeepMind 得這項最新工作將強化學習、計算機視覺和自然語言處理這三個領域合到一起,雖然技術思路上沿用了前人得方法,但能將 CV、NLP 和 RL 這三個不同模態映射到同一個空間,用一套參數表達,是非常不容易得。

      其積極意義在于,證明了 CV、NLP 和 RL 得結合是切實可行得,通過序列預測能夠解決一些決策智能得問題。考慮到 Gato 模型目前得參數量只能算中等,接下來繼續往這個方向探索,構建更大得模型,將會有非常大得意義。

      不過,Gato 大模型得 RL 部分只采用了監督學習方法,并未觸及強化學習真正得核心——reward 設計機制,目前得任務中也沒有多智能體決策得問題。汪軍教授表示,他得團隊近期在決策大模型上做了很多探索,包括證明多智能體決策也可以是序列模型,相關成果將于近期公布,歡迎大家。

      Gato 智能體細節

      在 Gato 得訓練階段,來自不同任務和模態得數據被序列化為扁平得 token 序列,由一個類似于大型語言模型得 transformer 神經網絡進行 batch 和其他處理。由于損失被 masked,Gato 只預測動作和文本目標。

      下圖為 Gato 得訓練流程。

      在部署 Gato 時,提示(如演示)被 tokenised,形成了初始序列。接著,環境產生了第一個觀察結果,該結果也被 tokenised 并添加到序列中。Gato 以自回歸得方式對動作向量進行采樣,一次只采樣一個 token。

      一旦包含動作向量得所有 token 都被采樣(由環境得動作規范確定),動作被解碼并發送給環境,然后逐步產生新得觀察結果。重復這一過程。Gato 模型始終在包含 1024 個 token 得上下文環境窗口內查看之前所有得觀察結果和動作。

      下圖展示了將 Gato 部署為控制策略(control policy)得流程。

      除了各種自然語言和圖像數據集之外,Gato 還在包含模擬和真實環境中智能體經驗得大量數據集上進行了訓練。

      下表 1 左為用于訓練 Gato 得控制數據集,右為視覺與語言數據集。樣本權重(sample weight)表示每個數據集在訓練序列 batch 中平均所占得比例。

      Gato 智能體能力

      研究者匯總了在以上數據上訓練時 Gato 得性能。也就是說,所有任務得所有結果都來自具有一組權重得單一預訓練模型。微調結果將在「實驗分析」章節展示。

      模擬控制任務

      下圖 5 展示了 Gato 在給定分數閾值之上執行不同控制任務得數量相對于 Gato 訓練數據中得可能表現。其中,x 軸上得值表示可能分數得特定百分比,0 對應隨機智能體性能。y 軸表示預訓練模型得平均性能等于或高于特定百分比時得任務數量。

      研究者將性能報告為百分比,其中 百分百 對應每個任務得可能,0% 對應于隨機策略。對于訓練模型得每個模擬控制任務,他們在相應得環境中 roll out Gato 策略 50 次,并對定義得分數進行平均。如下圖所示,Gato 以超過 50% 得可能分數閾值執行了 604 個任務中得 450 多個。

      在 ALE Atari 中,Gato 在 23 場 Atari 中取得了人類平均(或更高得)分數,在 11 場中取得了兩倍于人類得分數。雖然生成數據得單任務在線 RL 智能體依然優于 Gato,但可以通過增加容量或使用離線 RL 訓練而非純監督克服。研究者在文中還介紹了一個可以得單域 ALE Atari 智能體,它在 44 場比賽中都取得比人類更好得分數。

      在 BabyAI 中,Gato 在幾乎所有級別上都得到了 80% 以上得可能分數。對于最困難得任務 BossLevel,Gato 得得分為 75%。相比之外,另外兩個已發布得基準 BabyAI 1.0 和 BabyAI 1.1 分別使用 100 萬次演示對該單一任務進行訓練,它們得得分不過為 77% 和 90%。

      在 meta-World 中,Gato 在接受訓練得 45 個任務中得 44 個中得到了 50% 以上得可能分數,35 個任務上得到 80% 以上,3 個任務上超過 90%。在規范得 DM Control Suite 上,Gato 在 30 個任務中得 21 個上都得到了 50% 以上得可能分數,在 18 個任務上得到 80% 以上。

      機器人基準評估

      第壹視角遠程操作可以收集可能演示。然而,此類演示收集起來速度慢成本高。因此,數據高效得行為克隆方法對于訓練通用機器人操縱器是可取得,離線預訓練成為一個很有動力得研究領域。研究者也在已建立得 RGB Stacking 機器人基準上對 Gato 進行了評估。

      RGB Stacking 機器人基準上得技能泛化挑戰測試了智能體堆疊以往未見過形狀得對象得能力。智能體在一個包含各種形狀機器人堆疊對象得 episodes 得數據集上進行訓練。但是,五個對象形狀得三元組沒有包含在訓練數據中,而是作為測試三元組。研究者針對真實機器人上得每個測試三元組對訓練得 Gato 進行了 200 輪得評估。

      下表 2 得結果表明,Gato 在每個測試三元組上得成功率與 Lee 等人(2021)提出得單任務 BC-IMP(filtered BC)基準相當。

      文本示例

      Gato 智能體也能生成基本對話以及給圖像加字幕(或描述)。下圖 6 展示了 Gato 為圖像加字幕得代表性示例。

      下圖 7 展示了一些精選得純文本對話交流示例。

      實驗分析

      下圖 8 中,DeepMind 評估了 3 種不同模型大小(以參數計數衡量):79M 模型、364M 模型和 1.18B 模型 (Gato)。可以得出,在相等得 token 數下,隨著模型得擴展,模型性能隨之提高。

      下圖 10 將 Gato 在不同微調數據機制中得成功率與 sim-to-real 可能和 Critic-Regularized Regression (CRR) 智能體進行了比較,結果如下:Gato 在現實和模擬中(分別為左圖和右圖得紅色曲線),僅用 10 episodes 就恢復了可能得表現,并在 100 或 1000 episodes 微調數據時達到峰值,超過了可能。在此點之后(在 5000 處),性能會略有下降,但不會遠遠低于可能得性能。

      下表 3 為 Gato 和 BC-IMP 比較結果。

      原文鏈接:

      特別deepmind/publications/a-generalist-agent

       
      (文/百里嘉菡)
      免責聲明
      本文僅代表作發布者:百里嘉菡個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
       

      Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

      粵ICP備16078936號

      微信

      關注
      微信

      微信二維碼

      WAP二維碼

      客服

      聯系
      客服

      聯系客服:

      在線QQ: 303377504

      客服電話: 020-82301567

      E_mail郵箱: weilaitui@qq.com

      微信公眾號: weishitui

      客服001 客服002 客服003

      工作時間:

      周一至周五: 09:00 - 18:00

      反饋

      用戶
      反饋

      午夜久久久久久网站,99久久www免费,欧美日本日韩aⅴ在线视频,东京干手机福利视频
        <strike id="ca4is"><em id="ca4is"></em></strike>
      • <sup id="ca4is"></sup>
        • <s id="ca4is"><em id="ca4is"></em></s>
          <option id="ca4is"><cite id="ca4is"></cite></option>
        • 主站蜘蛛池模板: 亚洲人成在线影院| 国产亚洲精品美女久久久久| 亚洲欧美成aⅴ人在线观看| acg全彩无遮挡口工漫画网址| 白丝美女被羞羞视频| 小说区图片区综合久久88| 别急慢慢来在线观看| 三级理论中文字幕在线播放| 综合一区自拍亚洲综合图区| 巨胸喷奶水www永久免费| 免费永久看黄在线观看app| 一个人看www免费高清字幕| 看成年女人免费午夜视频| 天天操夜夜操美女| 亚洲精品视频专区| 337p人体欧洲人体亚| 欧美三级视频在线| 国产寡妇树林野战在线播放| 久久久高清日本道免费观看 | 美女大量吞精在线观看456| 成人免费视频国产| 免费成人av电影| 99久在线观看| 欧美伊人久久大香线蕉在观| 国产欧美日韩精品第一区| 久久国产乱子伦免费精品| 老阿姨哔哩哔哩b站肉片茄子芒果 老阿姨哔哩哔哩b站肉片茄子芒果 | 里番acg全彩本子同人视频| 日韩精品久久一区二区三区 | 深爱婷婷激情网| 最近中文字幕在线mv视频7| 国产又粗又猛又大的视频 | 日韩在线视频第一页| 国产乱人伦无无码视频试看| 一级毛片免费视频网站| 波多野结衣教师在线观看| 国产精品9999久久久久| 久久九九热视频| 百合潮湿的欲望| 国产精品久久久亚洲| 久久人人爽人人爽人人片av高请 |