<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網(wǎng)

      掃一掃關(guān)注

      當(dāng)前位置: 首頁(yè) » 企業(yè)資訊 » 熱點(diǎn) » 正文

      DeepMind「通才」AI智能體Gato_多

      放大字體  縮小字體 發(fā)布日期:2022-06-13 03:07:08    作者:百里嘉菡    瀏覽次數(shù):89
      導(dǎo)讀

      機(jī)器之心報(bào)道機(jī)器之心感謝部在寫(xiě)文章、畫(huà)圖之后,AI 大模型現(xiàn)在又同時(shí)有了打得能力。不禁在想,DeepMind 得智能體 Gato 未來(lái)還能玩出哪些花活?假如使用單一序列模型就能解決所有任務(wù),是再好不過(guò)得事

      機(jī)器之心報(bào)道

      機(jī)器之心感謝部

      在寫(xiě)文章、畫(huà)圖之后,AI 大模型現(xiàn)在又同時(shí)有了打得能力。不禁在想,DeepMind 得智能體 Gato 未來(lái)還能玩出哪些花活?

      假如使用單一序列模型就能解決所有任務(wù),是再好不過(guò)得事情,因?yàn)檫@種模型減少了不必要得麻煩。不過(guò)這需要增加訓(xùn)練數(shù)據(jù)得數(shù)量和多樣性,此外,這種通用模型隨著數(shù)據(jù)得擴(kuò)充和模型得擴(kuò)展,性能還會(huì)提高。從歷史上看,更擅長(zhǎng)利用計(jì)算得通用模型最終也會(huì)超過(guò)特定于專門(mén)領(lǐng)域得模型。

      今日,受大規(guī)模語(yǔ)言建模得啟發(fā),Deepmind 應(yīng)用類(lèi)似得方法構(gòu)建了一個(gè)單一得「通才」智能體 Gato,它具有多模態(tài)、多任務(wù)、多具身(embodiment)特點(diǎn)。

      論文地址:storage.googleapis/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

      Gato 可以玩雅達(dá)利、給支持輸出字幕、和別人聊天、用機(jī)械臂堆疊積木等等。此外,Gato 還能根據(jù)上下文決定是否輸出文本、關(guān)節(jié)力矩、按鈕按壓或其他 token。

      與大多數(shù)智能體玩不同,Gato 使用相同得訓(xùn)練模型就能玩許多,而不用為每個(gè)單獨(dú)訓(xùn)練。

      Gato 得訓(xùn)練數(shù)據(jù)集應(yīng)該盡量廣泛,需要包括不同模態(tài),如圖像、文本、本體感覺(jué)(proprioception)、關(guān)節(jié)力矩、按鈕按壓以及其他離散和連續(xù)得觀察和行動(dòng)。

      為了能夠處理這種多模態(tài)數(shù)據(jù),Deepmind 將所有數(shù)據(jù)序列化為一個(gè)扁平得 token 序列。在這種表示中,Gato 可以從類(lèi)似于標(biāo)準(zhǔn)得大規(guī)模語(yǔ)言模型進(jìn)行訓(xùn)練和采樣。在部署期間,采樣得 token 會(huì)根據(jù)上下文組合成對(duì)話響應(yīng)、字幕、按鈕按下或其他動(dòng)作。

      UCL 計(jì)算機(jī)系教授汪軍告訴機(jī)器之心,DeepMind 得這項(xiàng)最新工作將強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理這三個(gè)領(lǐng)域合到一起,雖然技術(shù)思路上沿用了前人得方法,但能將 CV、NLP 和 RL 這三個(gè)不同模態(tài)映射到同一個(gè)空間,用一套參數(shù)表達(dá),是非常不容易得。

      其積極意義在于,證明了 CV、NLP 和 RL 得結(jié)合是切實(shí)可行得,通過(guò)序列預(yù)測(cè)能夠解決一些決策智能得問(wèn)題。考慮到 Gato 模型目前得參數(shù)量只能算中等,接下來(lái)繼續(xù)往這個(gè)方向探索,構(gòu)建更大得模型,將會(huì)有非常大得意義。

      不過(guò),Gato 大模型得 RL 部分只采用了監(jiān)督學(xué)習(xí)方法,并未觸及強(qiáng)化學(xué)習(xí)真正得核心——reward 設(shè)計(jì)機(jī)制,目前得任務(wù)中也沒(méi)有多智能體決策得問(wèn)題。汪軍教授表示,他得團(tuán)隊(duì)近期在決策大模型上做了很多探索,包括證明多智能體決策也可以是序列模型,相關(guān)成果將于近期公布,歡迎大家。

      Gato 智能體細(xì)節(jié)

      在 Gato 得訓(xùn)練階段,來(lái)自不同任務(wù)和模態(tài)得數(shù)據(jù)被序列化為扁平得 token 序列,由一個(gè)類(lèi)似于大型語(yǔ)言模型得 transformer 神經(jīng)網(wǎng)絡(luò)進(jìn)行 batch 和其他處理。由于損失被 masked,Gato 只預(yù)測(cè)動(dòng)作和文本目標(biāo)。

      下圖為 Gato 得訓(xùn)練流程。

      在部署 Gato 時(shí),提示(如演示)被 tokenised,形成了初始序列。接著,環(huán)境產(chǎn)生了第一個(gè)觀察結(jié)果,該結(jié)果也被 tokenised 并添加到序列中。Gato 以自回歸得方式對(duì)動(dòng)作向量進(jìn)行采樣,一次只采樣一個(gè) token。

      一旦包含動(dòng)作向量得所有 token 都被采樣(由環(huán)境得動(dòng)作規(guī)范確定),動(dòng)作被解碼并發(fā)送給環(huán)境,然后逐步產(chǎn)生新得觀察結(jié)果。重復(fù)這一過(guò)程。Gato 模型始終在包含 1024 個(gè) token 得上下文環(huán)境窗口內(nèi)查看之前所有得觀察結(jié)果和動(dòng)作。

      下圖展示了將 Gato 部署為控制策略(control policy)得流程。

      除了各種自然語(yǔ)言和圖像數(shù)據(jù)集之外,Gato 還在包含模擬和真實(shí)環(huán)境中智能體經(jīng)驗(yàn)得大量數(shù)據(jù)集上進(jìn)行了訓(xùn)練。

      下表 1 左為用于訓(xùn)練 Gato 得控制數(shù)據(jù)集,右為視覺(jué)與語(yǔ)言數(shù)據(jù)集。樣本權(quán)重(sample weight)表示每個(gè)數(shù)據(jù)集在訓(xùn)練序列 batch 中平均所占得比例。

      Gato 智能體能力

      研究者匯總了在以上數(shù)據(jù)上訓(xùn)練時(shí) Gato 得性能。也就是說(shuō),所有任務(wù)得所有結(jié)果都來(lái)自具有一組權(quán)重得單一預(yù)訓(xùn)練模型。微調(diào)結(jié)果將在「實(shí)驗(yàn)分析」章節(jié)展示。

      模擬控制任務(wù)

      下圖 5 展示了 Gato 在給定分?jǐn)?shù)閾值之上執(zhí)行不同控制任務(wù)得數(shù)量相對(duì)于 Gato 訓(xùn)練數(shù)據(jù)中得可能表現(xiàn)。其中,x 軸上得值表示可能分?jǐn)?shù)得特定百分比,0 對(duì)應(yīng)隨機(jī)智能體性能。y 軸表示預(yù)訓(xùn)練模型得平均性能等于或高于特定百分比時(shí)得任務(wù)數(shù)量。

      研究者將性能報(bào)告為百分比,其中 百分百 對(duì)應(yīng)每個(gè)任務(wù)得可能,0% 對(duì)應(yīng)于隨機(jī)策略。對(duì)于訓(xùn)練模型得每個(gè)模擬控制任務(wù),他們?cè)谙鄳?yīng)得環(huán)境中 roll out Gato 策略 50 次,并對(duì)定義得分?jǐn)?shù)進(jìn)行平均。如下圖所示,Gato 以超過(guò) 50% 得可能分?jǐn)?shù)閾值執(zhí)行了 604 個(gè)任務(wù)中得 450 多個(gè)。

      在 ALE Atari 中,Gato 在 23 場(chǎng) Atari 中取得了人類(lèi)平均(或更高得)分?jǐn)?shù),在 11 場(chǎng)中取得了兩倍于人類(lèi)得分?jǐn)?shù)。雖然生成數(shù)據(jù)得單任務(wù)在線 RL 智能體依然優(yōu)于 Gato,但可以通過(guò)增加容量或使用離線 RL 訓(xùn)練而非純監(jiān)督克服。研究者在文中還介紹了一個(gè)可以得單域 ALE Atari 智能體,它在 44 場(chǎng)比賽中都取得比人類(lèi)更好得分?jǐn)?shù)。

      在 BabyAI 中,Gato 在幾乎所有級(jí)別上都得到了 80% 以上得可能分?jǐn)?shù)。對(duì)于最困難得任務(wù) BossLevel,Gato 得得分為 75%。相比之外,另外兩個(gè)已發(fā)布得基準(zhǔn) BabyAI 1.0 和 BabyAI 1.1 分別使用 100 萬(wàn)次演示對(duì)該單一任務(wù)進(jìn)行訓(xùn)練,它們得得分不過(guò)為 77% 和 90%。

      在 meta-World 中,Gato 在接受訓(xùn)練得 45 個(gè)任務(wù)中得 44 個(gè)中得到了 50% 以上得可能分?jǐn)?shù),35 個(gè)任務(wù)上得到 80% 以上,3 個(gè)任務(wù)上超過(guò) 90%。在規(guī)范得 DM Control Suite 上,Gato 在 30 個(gè)任務(wù)中得 21 個(gè)上都得到了 50% 以上得可能分?jǐn)?shù),在 18 個(gè)任務(wù)上得到 80% 以上。

      機(jī)器人基準(zhǔn)評(píng)估

      第壹視角遠(yuǎn)程操作可以收集可能演示。然而,此類(lèi)演示收集起來(lái)速度慢成本高。因此,數(shù)據(jù)高效得行為克隆方法對(duì)于訓(xùn)練通用機(jī)器人操縱器是可取得,離線預(yù)訓(xùn)練成為一個(gè)很有動(dòng)力得研究領(lǐng)域。研究者也在已建立得 RGB Stacking 機(jī)器人基準(zhǔn)上對(duì) Gato 進(jìn)行了評(píng)估。

      RGB Stacking 機(jī)器人基準(zhǔn)上得技能泛化挑戰(zhàn)測(cè)試了智能體堆疊以往未見(jiàn)過(guò)形狀得對(duì)象得能力。智能體在一個(gè)包含各種形狀機(jī)器人堆疊對(duì)象得 episodes 得數(shù)據(jù)集上進(jìn)行訓(xùn)練。但是,五個(gè)對(duì)象形狀得三元組沒(méi)有包含在訓(xùn)練數(shù)據(jù)中,而是作為測(cè)試三元組。研究者針對(duì)真實(shí)機(jī)器人上得每個(gè)測(cè)試三元組對(duì)訓(xùn)練得 Gato 進(jìn)行了 200 輪得評(píng)估。

      下表 2 得結(jié)果表明,Gato 在每個(gè)測(cè)試三元組上得成功率與 Lee 等人(2021)提出得單任務(wù) BC-IMP(filtered BC)基準(zhǔn)相當(dāng)。

      文本示例

      Gato 智能體也能生成基本對(duì)話以及給圖像加字幕(或描述)。下圖 6 展示了 Gato 為圖像加字幕得代表性示例。

      下圖 7 展示了一些精選得純文本對(duì)話交流示例。

      實(shí)驗(yàn)分析

      下圖 8 中,DeepMind 評(píng)估了 3 種不同模型大小(以參數(shù)計(jì)數(shù)衡量):79M 模型、364M 模型和 1.18B 模型 (Gato)。可以得出,在相等得 token 數(shù)下,隨著模型得擴(kuò)展,模型性能隨之提高。

      下圖 10 將 Gato 在不同微調(diào)數(shù)據(jù)機(jī)制中得成功率與 sim-to-real 可能和 Critic-Regularized Regression (CRR) 智能體進(jìn)行了比較,結(jié)果如下:Gato 在現(xiàn)實(shí)和模擬中(分別為左圖和右圖得紅色曲線),僅用 10 episodes 就恢復(fù)了可能得表現(xiàn),并在 100 或 1000 episodes 微調(diào)數(shù)據(jù)時(shí)達(dá)到峰值,超過(guò)了可能。在此點(diǎn)之后(在 5000 處),性能會(huì)略有下降,但不會(huì)遠(yuǎn)遠(yuǎn)低于可能得性能。

      下表 3 為 Gato 和 BC-IMP 比較結(jié)果。

      原文鏈接:

      特別deepmind/publications/a-generalist-agent

       
      (文/百里嘉菡)
      免責(zé)聲明
      本文僅代表作發(fā)布者:百里嘉菡個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
       

      Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

      粵ICP備16078936號(hào)

      微信

      關(guān)注
      微信

      微信二維碼

      WAP二維碼

      客服

      聯(lián)系
      客服

      聯(lián)系客服:

      在線QQ: 303377504

      客服電話: 020-82301567

      E_mail郵箱: weilaitui@qq.com

      微信公眾號(hào): weishitui

      客服001 客服002 客服003

      工作時(shí)間:

      周一至周五: 09:00 - 18:00

      反饋

      用戶
      反饋

      午夜久久久久久网站,99久久www免费,欧美日本日韩aⅴ在线视频,东京干手机福利视频
        <strike id="ca4is"><em id="ca4is"></em></strike>
      • <sup id="ca4is"></sup>
        • <s id="ca4is"><em id="ca4is"></em></s>
          <option id="ca4is"><cite id="ca4is"></cite></option>
        • 主站蜘蛛池模板: 狠狠色伊人亚洲综合网站色| 999国产精品| 色天天综合色天天碰| 日本工口里番h彩色无遮挡全彩| 国产成人无码AⅤ片在线观看 | 亚洲深深色噜噜狠狠爱网站| 99香蕉国产精品偷在线观看| 狠狠色综合一区二区| 女人与公拘交酡过程高清视频| 免费又黄又爽的视频| bbbbbbbbb欧美bbb| 热99re久久精品香蕉| 图片区小说区欧洲区| 亚洲日韩精品欧美一区二区| 2019国产精品| 最近中文字幕的在线mv视频| 国产成人18黄网站麻豆| 久久久精品一区二区三区| 老子影院理论片在线观看| 很黄很色裸乳视频网站| 免费在线一级毛片| 97精品免费视频| 欧美XXXXXBBBB| 国产午夜影视大全免费观看| 中文版邻居的夫妇交换电影| 精品国产男人的天堂久久| 大香伊蕉在人线国产最新75| 亚洲欧美日韩精品久久奇米色影视 | 亚洲中文字幕不卡无码| 成人免费视频69| 日本午夜小视频| 又大又湿又紧又爽a视频| a级国产精品片在线观看| 欧美成人午夜免费完成| 国产探花视频在线观看| 久久久久久影视| 破了亲妺妺的处免费视频国产| 国模吧双双大尺度炮交gogo| 亚洲av无码一区二区三区性色 | 夜夜高潮天天爽欧美| 亚洲制服丝袜在线播放|