国产又黄又爽又猛的免费视频播放-国产在播放一区-国产在线99-国产在线播放成人免费-伊人网视频-伊人网视频在线

您的位置:首頁(yè)>熱點(diǎn) >
  • 谷歌的RT-2,是不是機(jī)器人的GPT-3時(shí)刻?

    2023-08-08 14:25:40 來(lái)源: 虎嗅網(wǎng)

7月29日,《紐約時(shí)報(bào)》的記者在谷歌實(shí)驗(yàn)室,率先看到了谷歌最新推出的 RT-2 模型驅(qū)動(dòng)的機(jī)器人。

一個(gè)單臂機(jī)器人站在一張桌子前。桌子上坐著三個(gè)塑料雕像:獅子、鯨魚和恐龍。工程師給機(jī)器人發(fā)出指令:“撿起滅絕的動(dòng)物。”機(jī)器人呼呼地響了一會(huì)兒,然后手臂伸出,爪子張開(kāi)落下。它抓住了恐龍。

這是一道智能的閃光。


(資料圖片僅供參考)

《紐約時(shí)報(bào)》描述道,“直到上周,這一演示還是不可能的。機(jī)器人無(wú)法可靠地操縱它們以前從未見(jiàn)過(guò)的物體,它們當(dāng)然也無(wú)法實(shí)現(xiàn)從‘滅絕的動(dòng)物’到‘塑料恐龍’的邏輯飛躍。”

雖然仍然存在于展示之中,且谷歌并不打算立即進(jìn)行更大規(guī)模的發(fā)布或者對(duì)其進(jìn)行商業(yè)化,但這一展示已經(jīng)足以展現(xiàn)大模型為機(jī)器人能夠帶來(lái)的機(jī)遇的一角。

在大模型時(shí)代到來(lái)之前,人們訓(xùn)練機(jī)器人,通常針對(duì)每個(gè)任務(wù)進(jìn)行優(yōu)化,比如抓取某種玩具,需要足量的數(shù)據(jù),機(jī)器人才能準(zhǔn)確地從各個(gè)角度、各個(gè)光線下識(shí)別這種玩具,抓取成功。而讓機(jī)器人意識(shí)到自己有抓取玩具的任務(wù),也需要對(duì)機(jī)器人進(jìn)行編程才能解決。

而大模型的智能和泛化能力,讓人們看到了解決這些問(wèn)題,走向通用機(jī)器人的一道曙光。

將Transformer,運(yùn)用到機(jī)器人中

谷歌新的 RT-2 模型,全稱為Robotic Transformer 2,運(yùn)用Transformer 架構(gòu)作為其模型的基座。

2018 年被提出的Transformer架構(gòu),是目前火遍全球的大語(yǔ)言模型(LLM)的最底層的基座,但事實(shí)上,作為一種架構(gòu),Transformer不止可以應(yīng)用于大語(yǔ)言模型當(dāng)中,也可以用于訓(xùn)練其他類型的數(shù)據(jù)。早在今年 3 月份,谷歌就發(fā)布了PaLM-E,是當(dāng)時(shí)世界上最大視覺(jué)語(yǔ)言模型(VLM)。

大語(yǔ)言模型中,語(yǔ)言被編碼為向量,人們?yōu)槟P吞峁┐罅康恼Z(yǔ)料,使其能夠預(yù)測(cè)出人類通常下一句會(huì)說(shuō)什么,借此生成語(yǔ)言回答。

而在視覺(jué)語(yǔ)言模型中,模型可以將圖像信息編碼為與語(yǔ)言類似的向量,讓模型既能“理解”文字,又能用相同方式“理解”圖像。而研究員們?yōu)橐曈X(jué)語(yǔ)言模型提供大量的語(yǔ)料和圖像,使其能夠執(zhí)行視覺(jué)問(wèn)答、為圖像添加字幕和物品識(shí)別等任務(wù)。

無(wú)論是圖像還是語(yǔ)言,都是相對(duì)容易大量獲取的數(shù)據(jù)。因此,模型很容易取得令人驚艷的成果。

而想使用Transformer架構(gòu)來(lái)生成機(jī)器人行為,卻有一個(gè)很大的難點(diǎn)?!吧婕暗綑C(jī)器人動(dòng)作的數(shù)據(jù)非常昂貴?!鼻迦A大學(xué)交叉信息研究院助理教授許華哲教授告訴極客公園,“視覺(jué)和語(yǔ)言數(shù)據(jù)都來(lái)自于人類,是被動(dòng)數(shù)據(jù),而機(jī)器人的動(dòng)作數(shù)據(jù),全部是來(lái)自于機(jī)器人的主動(dòng)數(shù)據(jù)。

比如我想研究機(jī)器人倒咖啡的動(dòng)作,不管是寫代碼讓機(jī)器人執(zhí)行,還是利用其他的方式讓機(jī)器人執(zhí)行,都是需要機(jī)器人實(shí)際執(zhí)行一遍這個(gè)操作才能得到這個(gè)數(shù)據(jù)。因此,機(jī)器人的數(shù)據(jù)與語(yǔ)言和圖片的規(guī)模和量級(jí)是完全不一樣的?!?/p>

在谷歌研究的第一代機(jī)器人Transformer模型 RT-1 中,谷歌第一次開(kāi)啟了這樣的挑戰(zhàn),嘗試建立一個(gè)視覺(jué)語(yǔ)言動(dòng)作模型。

為了建立這樣的模型,谷歌使用了13個(gè)機(jī)器人,在一個(gè)搭建的廚房環(huán)境中耗時(shí) 17 個(gè)月收集到了機(jī)器人在 700 多個(gè)任務(wù)上的主動(dòng)數(shù)據(jù)組建的數(shù)據(jù)集。

數(shù)據(jù)集同時(shí)記錄了三個(gè)維度:

視覺(jué)——機(jī)器人在執(zhí)行任務(wù)操作時(shí)的攝像頭數(shù)據(jù);

語(yǔ)言——用自然語(yǔ)言描述的任務(wù)文字;

和機(jī)器人動(dòng)作——機(jī)器手進(jìn)行任務(wù)時(shí)在 xyz 軸和偏轉(zhuǎn)數(shù)據(jù)等。

雖然當(dāng)時(shí)得到了較好的實(shí)驗(yàn)效果,但可想而知,想要進(jìn)一步增加數(shù)據(jù)集內(nèi)數(shù)據(jù)的數(shù)量,將是一件非常難的事情。

圖片來(lái)源:谷歌 AI 介紹視頻

而 RT-2 的創(chuàng)新之處在于,RT-2 使用前面所述的視覺(jué)語(yǔ)言模型(VLM)PaLM-E 和另一個(gè)視覺(jué)語(yǔ)言模型 PaLI-X 作為其底座——單純的視覺(jué)語(yǔ)言模型可以通過(guò)網(wǎng)絡(luò)級(jí)的數(shù)據(jù)訓(xùn)練出來(lái),因?yàn)閿?shù)據(jù)量足夠大,能夠得到足夠好的效果,而在微調(diào)(fine-tuning)階段,再將機(jī)器人的動(dòng)作數(shù)據(jù)加入進(jìn)去一起微調(diào)(co-finetuning)

這樣,機(jī)器人相當(dāng)于首先已經(jīng)擁有了一個(gè)在海量數(shù)據(jù)上學(xué)習(xí)過(guò)了的常識(shí)系統(tǒng)——雖然還不會(huì)抓取香蕉,但是已經(jīng)能夠認(rèn)識(shí)香蕉了,甚至也知道了香蕉是一種水果,猴子會(huì)比較喜歡吃。

而在微調(diào)階段,通過(guò)再加入機(jī)器人在真實(shí)世界中看到香蕉后是如何抓取香蕉的知識(shí),機(jī)器人就不但擁有了在各種光線和角度下識(shí)別香蕉的能力,也擁有了能夠抓取香蕉的能力。

在這種方式下,用Transformer架構(gòu)訓(xùn)練機(jī)器人所需的數(shù)據(jù)顯著降低了。

RT-2 在微調(diào)階段直接使用了RT-1訓(xùn)練階段使用的視覺(jué)/語(yǔ)言/機(jī)器人動(dòng)作數(shù)據(jù)集。谷歌給出的數(shù)據(jù)顯示,在抓取訓(xùn)練數(shù)據(jù)中原來(lái)出現(xiàn)過(guò)的物品時(shí),RT-2的表現(xiàn)與RT-1同樣好。而因?yàn)橛辛恕皳碛谐WR(shí)的大腦”,在抓取之前沒(méi)有見(jiàn)過(guò)的物品時(shí),成功率從RT-1的 32% 提升到了 62%。

“這就是大模型的妙處?!痹S華哲講道,“你沒(méi)有辦法把它拆解成因?yàn)樗R(shí)別到了兩個(gè)物體是材質(zhì)相似,還是因?yàn)榇笮∠嘟€是因?yàn)閯e的什么原因抓取的成功率提升了。它學(xué)到的東西足夠多了之后,就會(huì)涌現(xiàn)出一些能力。”

使用自然語(yǔ)言,與機(jī)器人交互的未來(lái)

學(xué)術(shù)上,RT-2 展現(xiàn)的很強(qiáng)的泛化性有可能解決機(jī)器人訓(xùn)練數(shù)據(jù)不足的難題。而在此之外,RT-2 給人的直觀震撼還是來(lái)自于它所展現(xiàn)的智能的一面。

在實(shí)驗(yàn)中,研究員希望它能夠拿起一個(gè)“能夠用作錘子的東西”,機(jī)器人在一堆物品中拿起了石頭,而在被要求拿起一個(gè)提供給疲憊的人的飲料時(shí),機(jī)器人在一堆物品中選擇了紅牛。

這樣的技巧來(lái)自在進(jìn)行大模型訓(xùn)練時(shí),研究員引入“思維鏈”(chain of thought)的能力。而這樣的多段語(yǔ)義推理在傳統(tǒng)的機(jī)器人模仿學(xué)習(xí)研究中是非常難以做到的。

不過(guò),利用自然語(yǔ)言與機(jī)器人交互,并不是 RT-2 的創(chuàng)見(jiàn)。

在過(guò)去的機(jī)器人研究中,研究者始終需要將任務(wù)要求轉(zhuǎn)換為代碼而讓機(jī)器人能夠理解,同時(shí)一旦出現(xiàn)問(wèn)題,也需要編寫代碼來(lái)糾正機(jī)器人的行為,整個(gè)過(guò)程需要多次交互,效率較低。而既然我們已經(jīng)有了非常智能的對(duì)話機(jī)器人了,下面比較自然的一步,自然是讓機(jī)器人與人類用自然語(yǔ)言交互。

“我們大約兩年前開(kāi)始研究這些語(yǔ)言模型,然后我們意識(shí)到它們蘊(yùn)藏著豐富的知識(shí)?!惫雀柩芯靠茖W(xué)家卡羅爾·豪斯曼(Karol Hausman)表示,“所以我們開(kāi)始將它們連接到機(jī)器人?!?/p>

不過(guò),讓大模型作為機(jī)器人的頭腦,也有著自己的難題。其中最重要的一個(gè)問(wèn)題之一,就是 grounding 問(wèn)題,即如何使大模型通常比較天馬行空的回應(yīng),轉(zhuǎn)化成驅(qū)動(dòng)機(jī)器人行動(dòng)的指令。

2022 年,谷歌推出 Say-can 模型。模型正如其名,采用兩種考量來(lái)幫助機(jī)器人行動(dòng)。一種考量是 say,模型通過(guò)與谷歌的大語(yǔ)言模型 PaLM 模型結(jié)合,可以通過(guò)自然語(yǔ)言和人類交互,把獲得的任務(wù)進(jìn)行分解,找到最適合當(dāng)前行動(dòng);另一種考量是 can,模型通過(guò)一個(gè)算法,計(jì)算出當(dāng)前機(jī)器人能夠成功執(zhí)行這一任務(wù)的概率。機(jī)器人根據(jù)這兩重考量下,進(jìn)行動(dòng)作。

比如對(duì)機(jī)器人講“我的牛奶撒了,你能不能幫我?”機(jī)器人會(huì)首先通過(guò)語(yǔ)言模型進(jìn)行任務(wù)規(guī)劃,這時(shí)可能最合理的方式是找到一個(gè)清潔工,其次是找一塊海綿自己擦。然后機(jī)器人會(huì)通過(guò)算法計(jì)算出作為機(jī)器人,它能夠成功找到清潔工的概率很低,而找到海綿自己擦的概率很高。在兩重考慮后,機(jī)器人就會(huì)選擇尋找海綿擦牛奶的行動(dòng)。

圖片來(lái)源:Saycan 介紹視頻

雖然在這樣雙層模型架構(gòu)中,機(jī)器人能夠成功做出的動(dòng)作已經(jīng)是預(yù)先設(shè)計(jì)好的,大語(yǔ)言模型只是能夠幫助機(jī)器人選擇合適的任務(wù)規(guī)劃。在這樣的模型中,機(jī)器人已經(jīng)展現(xiàn)出了極強(qiáng)的智能感。

不過(guò),雖然從外在看起來(lái)效果是類似的,RT-2 采取的是另一種道路。通過(guò)訓(xùn)練時(shí)模型就同時(shí)學(xué)習(xí)視覺(jué)、語(yǔ)言、機(jī)器人行為這三種數(shù)據(jù),RT-2 的模型并不是先進(jìn)行任務(wù)分解,再進(jìn)行任務(wù)操作,而是自然語(yǔ)言輸入后,通過(guò)模型的運(yùn)算,直接產(chǎn)生動(dòng)作的輸出。

“雙層結(jié)構(gòu)類似于我想去做一件事情,腦袋里先想好第一步干這個(gè),第二步干那個(gè),然后再挨個(gè)執(zhí)行這些策略。”許華哲教授表示,“而端到端的結(jié)構(gòu)類似于我也沒(méi)有特別仔細(xì)想第一步、第二步是什么,就把這個(gè)事情給干了?!焙笳叩囊粋€(gè)例子可以類比于我們每天在手機(jī)上打字聊天,我們打字聊天時(shí)一般不會(huì)認(rèn)真思考肌肉具體要如何去動(dòng)作,而是想到了要打的字,就直接打出來(lái)了。

“兩種不同的路線或者不同的方法,都還沒(méi)有證明自己是唯一正確的方式?!痹S華哲表示。但由于 RT-2 的優(yōu)秀表現(xiàn),一個(gè)模型能夠接管輸入輸出的技術(shù)方向,似乎值得探索。

“由于這一變化(RT-2 的優(yōu)秀表現(xiàn)),我們不得不重新考慮我們的整個(gè)研究規(guī)劃了,”谷歌 DeepMind 機(jī)器人技術(shù)主管文森特·范霍克(Vincent Vanhoucke)表示?!爸八龅暮芏嗍虑槎纪耆兂蔁o(wú)用功了?!?/p>

RT-2 是機(jī)器人的 GPT3 時(shí)刻嗎?

谷歌的 RT-2 機(jī)器人并不完美。在《紐約時(shí)報(bào)》記者目睹的實(shí)際演示中,它錯(cuò)誤地識(shí)別了一罐檸檬味蘇打水的味道(說(shuō)成“橘子味”)。還有一次被問(wèn)到桌子上有什么水果時(shí),機(jī)器人回答成“白色”(實(shí)際是香蕉)。谷歌發(fā)言人解釋說(shuō),該機(jī)器人使用了緩存的答案來(lái)回答之前測(cè)試者的問(wèn)題,因?yàn)樗?Wi-Fi 曾短暫中斷過(guò)。

除此之外,利用大模型訓(xùn)練機(jī)器人,不可避免地要面對(duì)成本問(wèn)題。目前谷歌的機(jī)器人在進(jìn)行推理和判斷的時(shí)候,需要將數(shù)據(jù)傳到云端,由多塊 TPU 一起進(jìn)行計(jì)算,再將結(jié)果發(fā)回機(jī)器人,由機(jī)器人執(zhí)行操作。這樣的計(jì)算可想而知十分昂貴。

谷歌 DeepMind 機(jī)器人技術(shù)主管文森特·范霍克(Vincent Vanhoucke)認(rèn)為,新的研究開(kāi)啟了機(jī)器人能夠在有人的環(huán)境中使用的大門——研究者認(rèn)為,內(nèi)置了語(yǔ)言模型的機(jī)器人可以進(jìn)入倉(cāng)庫(kù)、用于醫(yī)療行業(yè),甚至成為家庭助理,幫助折疊衣物、從洗碗機(jī)中取出物品、在房子周圍收拾東西。

“如果你開(kāi)一個(gè)工廠,需要使用機(jī)器人,成功率一定是要求很高的。你不會(huì)希望說(shuō)買了機(jī)器人后,還需要很多人去維護(hù)這個(gè)機(jī)器人,完善機(jī)器人做得不夠好的事情。那這樣成本太高了。”許華哲教授表示,“家居場(chǎng)景下的機(jī)器人可能是另一個(gè)情形,因?yàn)橐苍S家居場(chǎng)景下的一些任務(wù)的成功率要求沒(méi)有那么高。比如疊衣服,疊的沒(méi)有那么好,可能在你眼中這個(gè)任務(wù)失敗了,但對(duì)你的影響也不會(huì)非常大?!?/p>

人工智能三巨頭之一的楊立昆(Yaan Lecun)有一個(gè)強(qiáng)調(diào)過(guò)許多次的著名論斷:人工智能還不夠聰明。任何一個(gè)孩子都能很快學(xué)會(huì)收拾桌子,把碗放進(jìn)洗碗機(jī),而機(jī)器人卻做不到。

目前的機(jī)器人研究或許確實(shí)如此,但正如不完美的 GPT-3 讓業(yè)界看到了大模型發(fā)展的方向一樣,或許今天不完美的 RT-2 也將開(kāi)啟機(jī)器人進(jìn)入家庭成為我們的助手的未來(lái)時(shí)代。

本文來(lái)自微信公眾號(hào):極客公園 (ID:geekpark),作者:Li Yuan,編輯:鄭玄

關(guān)鍵詞:

免責(zé)聲明:本網(wǎng)站所有信息,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。

相關(guān)閱讀
主站蜘蛛池模板: 日本一区二区三区在线观看视频 | 欧美一级在线 | 日本亚洲国产 | 中文字幕亚洲精品日韩精品 | 黄色一级片在线免费观看 | 男女性接交无遮挡免费看视频 | 亚洲国产高清一区二区三区 | 国产日韩不卡免费精品视频 | a免费在线观看视频 | 国产人成亚洲第一网站在线播放 | 免费国产h视频在线观看 | 一区二区亚洲视频 | 日日摸夜夜添夜夜添人人爽 | 欧美久久xxxxxx影院 | 日韩免费视频播放 | 日韩高清不卡 | 污视频在线看网站 | 欧美成视频 | 毛片在线免费播放 | 在线播放毛片 | a亚洲视频| 日韩中文字幕久久精品 | 成人国产一区二区三区 | 午夜黄色一级片 | 最近2019中文字幕大全7 | 国产精品久久人人做人人爽 | 欧美日韩国产在线播放 | 天天草夜夜骑 | 中国一级特黄真人毛片免 | 五月激情在线 | 欧美性猛交ⅹxxx乱大交禽 | 男女视频免费在线观看 | 午夜视频在线观看完整高清在线 | 日韩高清中文字幕 | 野花影视视频在线观看免费 | 狠狠干欧美 | 国产精品久久久久久免费播放 | 亚洲精品福利在线 | 高清一级毛片一本到免费观看 | 国产精品亚洲专区在线观看 | 一级成人a做片免费 |