国产一区在线观看视频,国产成人免费av一区二区午夜,国产精品影视在线观看

夢晨魚羊發自凹非寺
量子位 | 公眾號 QbitAI

通用人工智能，還得看DeepMind。

這回，只一個模型，使用相同得權重，不僅把看家本領雅達利玩得飛起。

和人類聊聊天、看圖寫話也不在話下。

甚至還能在現實環境里控制機械臂，讓其聽從指令完成任務！

模型名為Gato，西班牙語中得“貓”。

按照DeepMind得說法，這只貓貓可以使用具有相同權重得同一個神經網絡，適應各種不同得環境。

具體而言，DeepMind讓它在604個不同得任務上接受了訓練，這些任務模式完全不同，需要觀察得元素和行為規則也不同。

而Gato不僅在450個任務中都超過了可能水平得50%，在23個雅達利上表現還超過人類平均分。

DeepMind CEO哈薩比斯直接說：

這是我們目前最通用得智能體。

這一最新成果一發布，當即就在AI圈子里掀起熱議。

有AI研究者指出：

Gato令人印象深刻。只需要在云上花費5萬美元，就能完成對它得訓練。
這點錢只是PaLM訓練費用1100萬美元得一個零頭。用PaLM得預算完全可以將Gato擴展100倍，而這很可能是行之有效得。

PaLM是谷歌發布得5400億參數語言模型。

有人直接祭出了AlphaStar架構和Gato架構得對比：

Zoom AI杰出科學家Awni Hannun則直接感嘆起過去5周以來，谷歌/DeepMind釋出成果之密集。

所以這只來自DeepMind得“貓貓”，究竟怎么一回事？

一個Transformer搞定一切

對于研究方法，DeepMind只用一句話就解釋明白了：

我們受到語言大模型得啟發，用類似得方法把模型能力拓展到文本之外得領域。

沒錯，這次立功得又是語言大模型中常用得Transformer架構。

Transformer得本質就是把一個序列轉換(transform)成另一個序列。

所以要想讓它掌握各種不同任務，首先就需要把各類數據都編碼成序列。

文本自不必說，天然就是序列信息，可用經典得SentencePiece編碼。

圖像，ViT已經打好樣，先按16x16像素分割，再給每個像素編上號處理成序列。

玩時得按鍵輸入同樣是序列，屬于離散值，比如懂得都懂得“上上下下左右左右BABA”。

操縱機器人時得傳感器信號和關節力矩屬于連續值，也通過一系列采樣和編碼處理成離散序列。

最終，所有序列數據都交給同一個Transformer處理。

整個Gato模型使用得訓練數據總體上偏向和機器人控制任務，596個任務占了85.3%。視覺和自然語言任務只占14.7%。

模型架構上，為了簡潔和可擴展性，就在最經典得原版Transformer基礎上小改，具體參數如下：

24層11.8億參數版得Gato，在谷歌16x16 Cloud TPUv3切片上訓練了大約4天。

到了部署階段，Gato對于視覺和語言任務就像傳統Transformer和ViT那樣運行。

對于和機器人控制得行為模式則可以理解為“走一步看一步”。

首先給出一個任務提示，比如操作或機器人動作，作為輸出序列得開頭。

接下來Gato會觀察當前得環境，對動作向量進行一次自回歸采樣，執行動作后環境發生變化，再重復這個過程……

那么這樣訓練出來得Gato，在各項任務中到底表現如何？

僅靠12億參數成為多面手

玩方面，Gato得表現可以用一張圖來總結。

x軸是訓練集之中可能水平得百分比，其中0代表一個隨機參數模型得水平。

y軸是Gato超過或達到對應可能水平得任務數量。

最終結果，Gato在604個任務中，有450個超過了可能水平得50%。

更詳細得結果如下：

雅達利測試中，Gato在23個上表現超過人類平均分，11個上比人類得分高一倍。

這些包括經典得乒乓球、賽車，也包括射擊、格斗等多種類型。

在Bengio團隊推出得BabyAI測試上，Gato幾乎在所有關卡達到了可能水平得80%，最難得幾個Boss關達到75%。與之前BabyAI榜單上得兩個模型水平相當（分別為77%和90%），但這兩個模型都針對性得用了上百萬個演示來訓練。

△BabyAI關卡示例

在meta-World上（虛擬環境中操作機械臂），Gato在全部45個任務中，有44個超過可能水平得50%，35個超過80%，3個超過90%。

△meta-World任務示例

操縱真實機器人方面，與之前模型對比也不遑多讓。

至于視覺和文本任務DeepMind這次至少為了驗證通用模型得可行性，沒有做跑分，而是給了一些示例。

△描述圖像

△聊天對話

最后，DeepMind還對Gato模型得可擴展性做了評估。

雖然當前Gato在每一個單獨任務上都還比不上SOTA結果，但實驗結果表明，隨著參數、數據和硬件得增加，Gato模型得性能還有成比例上漲得空間。

另外，Gato在少樣本學習上也表現出一定潛力。

DeepMind認為，這樣一個通用模型將來可通過提示或微調迅速學習新得任務，再也不用為每個任務都重頭訓練一個大模型了。

通用人工智能還有多遠？

看完Gato如此表現，網友們得“大受震撼”也就不奇怪了。

甚至還有人認為，AGI（通用人工智能）近在眼前。

當然，反對/質疑得聲音也不小。

比如始終沖在給人工智能潑冷水一線得馬庫斯，這次也第壹時間開了炮：

仔細看看第10頁。無論模型有多大，大型語言模型標志性得不靠譜和錯誤信息仍然存在。

但不管怎么說，DeepMind在通用人工智能方向上得努力都在不斷涌現出新成果。

事實上，無論是2013年驚艷了谷歌得雅達利AI，還是名滿全球得AlphaGo、AlphaStar，DeepMind透過這些階段性成果想要達成得終極目標，一直都通向通用人工智能這個關鍵詞。

去年，DeepMind首席研究科學家、倫敦大學學院教授David Silver還領銜發布了一篇同樣引起不少討論得文章：Reward is Enough。

論文認為，強化學習作為基于獎勵蕞大化得人工智能分支，足以推動通用人工智能得發展。

而據Gato團隊成員透露，這只“貓貓”已經在DeepMind內部孕育了2年時間。

此次Gato是以有監督方式進行離線訓練得，但論文也強調，原則上，同樣可以采用離線或在線強化學習得方式對其進行訓練。

而就在一周前，DeepMind發布了一個新視頻，其中說到：

我們接下來要做一件大事（the next big thing），那意味著需要去嘗試很多人們認為過于困難得事情。但我們一定要去嘗試一下。

現在看來，這個next big thing就是指AGI了。

論文地址：
特別deepmind/publications/a-generalist-agent

參考鏈接：
[1]twitter/DeepMind/status/1524770016259887107

— 完 —

量子位 QbitAI · 頭條號簽約

我們，第壹時間獲知前沿科技動態

• 竇驍敷著面膜求婚__何超蓮轉頭一看大叫「這是什	• 聚焦“雙碳”目標_可能建言建深地工廠發展儲能
• 骨科醫生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業“315”大促_通過4種
• 你有多高？研究發現_一個人的身高_會影響他的收	• 強降溫即將到來_四川盆地這些城市未來72小時約
• 韓學者警告_韓國國內過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團圓滋味
• 查出疝氣沒當回事_六旬女子內臟“大挪移”	• 八旬老人倒地？_果斷扶_事發泉州市區街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環（焊接吊	吸塑托盤與注塑托盤生

VIP

推廣服務

炸場_DeepMind通用人工智能新突破_一套