您的位置  影視資訊  電影

      無需調(diào)控而勝任不同任務(wù) 這種AI更接近人類思考方式

      • 來源:互聯(lián)網(wǎng)
      • |
      • 2019-12-04
      • |
      • 0 條評論
      • |
      • |
      • T小字 T大字

        紐約大學(xué)心理學(xué)與認(rèn)知科學(xué)教授馬庫斯最近和人工智能企業(yè)“深層思維”(DeepMind)杠上了。繼前不久在推特(Twitter)上質(zhì)疑美國通用人工智能研究組織OpenAI的解魔方機械手之后,近日他又對“深層思維”新推出的《星際爭霸2》智能體“阿爾法星”(AlphaStar)進(jìn)化版提出六大質(zhì)疑。此次,他的質(zhì)疑點并不是游戲表現(xiàn)本身,而是指向了更高的層面:未來通用智能研究的意義。

        近年最酷成果都來自深度強化學(xué)習(xí)

        此次OpenAI推出的解魔方機器手,并不是像以往一樣使用專業(yè)算法來解決某一個特定任務(wù)(如果換一個任務(wù),還需要重新編程),而是通過某種學(xué)習(xí)方法,對機器人進(jìn)行訓(xùn)練,讓機械手具備類人手的解決問題的能力。但馬庫斯卻認(rèn)為這個成果描述有誤導(dǎo),更恰當(dāng)?shù)拿枋鰬?yīng)該是“用強化學(xué)習(xí)操縱魔方”或者是“用靈巧的機器人手操縱物體的進(jìn)展”。

        “馬庫斯過于強調(diào)‘用強化學(xué)習(xí)操縱魔方’有點挑剔字眼,其實OpenAI魔方機器手和‘深層思維’發(fā)布的《星際爭霸2》智能體‘阿爾法星’進(jìn)化版都使用了深度強化學(xué)習(xí)技術(shù)。深度強化學(xué)習(xí)是目前公認(rèn)的在現(xiàn)有技術(shù)中最有可能實現(xiàn)通用人工智能的技術(shù)。”天津大學(xué)智能與計算學(xué)部軟件學(xué)院副教授郝建業(yè)解釋說,目前機器學(xué)習(xí)有三大分支,監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),深度學(xué)習(xí)屬于監(jiān)督學(xué)習(xí)里目前最主流的一類技術(shù)。深度強化學(xué)習(xí)是深度學(xué)習(xí)與強化學(xué)習(xí)的融合,是將深度神經(jīng)網(wǎng)絡(luò)整合到強化學(xué)習(xí)框架當(dāng)中。

        “近幾年,深度強化學(xué)習(xí)發(fā)展迅猛,它在處理復(fù)雜、多方面和決策問題方面顯示出巨大的潛力。目前深度強化學(xué)習(xí)技術(shù)主要應(yīng)用在一些游戲、比賽中。”郝建業(yè)介紹,2016年,谷歌的“阿爾法圍棋”(AlphaGo)擊敗了世界頂級圍棋選手李世石、柯潔,轟動一時,成為人工智能領(lǐng)域的一個里程碑。“阿爾法圍棋”的核心就在于使用了深度強化學(xué)習(xí)算法,使得計算機能夠通過自對弈的方式不斷提升棋力。此后又有臉書(Facebook)在DOTA2游戲中打敗了頂級職業(yè)選手;CMU團(tuán)隊研發(fā)的德州撲克AI冷撲大師輕松擊敗頂級玩家。

        此外,“深層思維”還運用深度強化學(xué)習(xí)優(yōu)化了數(shù)據(jù)中心的耗能;谷歌則利用深度強化學(xué)習(xí)完成深度神經(jīng)網(wǎng)絡(luò)的自動架構(gòu)搜索,提出了AutoML服務(wù),借此將機器學(xué)習(xí)作為一種服務(wù)推廣到千家萬戶。在我國,對于深度強化學(xué)習(xí)技術(shù)的應(yīng)用也不少,阿里、騰訊、百度等國內(nèi)團(tuán)隊將深度強化學(xué)習(xí)應(yīng)用到搜索、推薦、營銷、派單和路徑規(guī)劃等實際問題的決策中。

        最有可能實現(xiàn)通用人工智能的技術(shù)

        人工智能發(fā)展到現(xiàn)在的高度,技術(shù)上較大的功臣應(yīng)該屬于深度學(xué)習(xí)算法。深度學(xué)習(xí)利用多層神經(jīng)網(wǎng)絡(luò),從海量的數(shù)據(jù)中學(xué)習(xí),從而實現(xiàn)對未來的預(yù)測,并使人工智能系統(tǒng)越來越智能。目前我們應(yīng)用的安防監(jiān)控、自動駕駛、語音識別、百度地圖等都是深度學(xué)習(xí)技術(shù)在圖像視覺、語音識別、自然語言理解等領(lǐng)域的應(yīng)用。

        而強化學(xué)習(xí)也是目前機器學(xué)習(xí)領(lǐng)域的熱門技術(shù),與基于已知標(biāo)簽訓(xùn)練模型的監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)能夠在沒有計算機的明確指示下,像人一樣實現(xiàn)自主學(xué)習(xí)。當(dāng)達(dá)到一定的學(xué)習(xí)量之后,強化學(xué)習(xí)系統(tǒng)就能夠預(yù)測出正確的結(jié)果。“強化學(xué)習(xí)的基本思想是,學(xué)習(xí)在不同環(huán)境和不同狀態(tài)下,哪種行為能夠使得預(yù)期利益最大化。”郝建業(yè)介紹,新版“阿爾法星”智能體就采用了強化學(xué)習(xí)的自對戰(zhàn)技術(shù),其學(xué)習(xí)過程不需要數(shù)據(jù)標(biāo)注,而是由獎勵函數(shù)進(jìn)行主導(dǎo)。智能體獲得獎勵得分或贏得一場比賽,它會得到積極的反饋,智能體就會根據(jù)對戰(zhàn)的成績好壞,來調(diào)整行為動作。這猶如嬰兒學(xué)走路,會根據(jù)產(chǎn)生的結(jié)果好壞來調(diào)整行為動作。

        目前對通用人工智能的定義主要有兩個特點,一是端對端的學(xué)習(xí),二是任務(wù)自適應(yīng), 無需人類參與調(diào)控而勝任不同的任務(wù)。深度強化學(xué)習(xí)可以將深度學(xué)習(xí)的感知能力和強化學(xué)習(xí)的決策能力相結(jié)合,直接根據(jù)輸入的信息進(jìn)行控制,是一種更接近人類思維方式的人工智能技術(shù)。在與世界的正常互動過程中,強化學(xué)習(xí)會通過試錯法利用獎勵來學(xué)習(xí),這跟自然學(xué)習(xí)過程非常相似。比如單手解魔方機器手,它可能需要利用深度學(xué)習(xí)的識圖技術(shù)等看到魔方,而后還需強化學(xué)習(xí)的模型讓機器手在不斷的試錯過程中自主學(xué)習(xí)。在強化學(xué)習(xí)中,可以使用較少的訓(xùn)練信息,這樣做的優(yōu)勢是信息更充足,而且不受監(jiān)督者技能限制。深度強化學(xué)習(xí)朝構(gòu)建對世界擁有更高級理解的自主系統(tǒng)又邁出了一步,這也是為什么說深度強化學(xué)習(xí)是目前公認(rèn)的在現(xiàn)有技術(shù)中最有可能實現(xiàn)通用人工智能的技術(shù)。

        未來通用人工智能還需依托腦科學(xué)發(fā)展

        “雖然說深度強化學(xué)習(xí)技術(shù)最有可能實現(xiàn)通用人工智能,但是并不能說就一定能夠?qū)崿F(xiàn),我們離真正的通用人工智能還是有很大差距的。”郝建業(yè)表示,深度學(xué)習(xí)和強化學(xué)習(xí)結(jié)合的時候,對現(xiàn)實情況的枚舉就變成首先需要對現(xiàn)實情況進(jìn)行模式識別,然后進(jìn)行有限模式的枚舉,從而減少計算的壓力,但是所需的數(shù)據(jù)將比其他機器學(xué)習(xí)算法要大得多。如果將場景擴展到多智能體的深度強化學(xué)習(xí),那么需要的數(shù)據(jù)和算力是呈指數(shù)級上升的,目前還沒有平臺能夠提供強化學(xué)習(xí)所需要的海量數(shù)據(jù),無法窮舉現(xiàn)實中可能遇到的種種復(fù)雜情況。這種數(shù)據(jù)需求在很多現(xiàn)實領(lǐng)域中都是無法實現(xiàn)的。

        舉例說明,比如強化學(xué)習(xí)需要大量的試錯,如果把單手解魔方機器手應(yīng)用到做飯的現(xiàn)實場景,那么它可能會把食材弄一地,也可能把一整袋鹽倒到鍋中,還有可能引起火災(zāi)。因此通過試錯學(xué)習(xí)的模式,在現(xiàn)實場景中是無法實現(xiàn)的。

        此外,深度學(xué)習(xí)和強化學(xué)習(xí)都是機器學(xué)習(xí)領(lǐng)域中最難調(diào)試成功的,它的成功案例其實不算很多,但是一旦推出,都會引起轟動。并且,這是一個連隨機種子都會大大影響學(xué)習(xí)效果的模型框架。同樣的模型,訓(xùn)練10次可能7次是失敗的,3次是成功的。還有一點,深度強化學(xué)習(xí)極其容易過擬合到智能體當(dāng)前交互的環(huán)境中,所以環(huán)境稍有改變,之前看起來表現(xiàn)出色的智能體,很可能就會犯低級錯誤。

        “人類認(rèn)識事物的時候,一般都是通過數(shù)據(jù)進(jìn)行因果推理和判斷,才得出相應(yīng)的解決方案。而目前的人工智能系統(tǒng)卻并不能實現(xiàn)這種因果推導(dǎo)。”郝建業(yè)表示,可能未來通用人工智能的發(fā)展,還需要依托于腦科學(xué)的發(fā)展,目前我們對人腦的認(rèn)知還處于非常初級的階段。大腦對事物的認(rèn)知過程、解決問題的過程以及思考的能力等機制還都不清楚,因此,目前人工智能的發(fā)展,離這種真正能模擬人類智能思考的通用人工智能還有很長的路要走。

        延伸閱讀

        人工智能晉級《星際爭霸2》玩家最高等級

        一項在《星際爭霸2》歐洲服務(wù)器上開展的“盲測”顯示,谷歌旗下“深層思維”公司開發(fā)的人工智能程序“阿爾法星”在游戲中超越99.8%的人類玩家,在游戲的人族、神族和蟲族排名中均達(dá)到最高的“宗師”級別。“深層思維”研發(fā)團(tuán)隊在日前出版的英國《自然》雜志上報告了這項成果。

        據(jù)介紹,在《星際爭霸2》官網(wǎng)歐洲服務(wù)器上,“阿爾法星”使用與人類玩家相同的地圖和條件匿名參與游戲,并能在無人干預(yù)情況下持續(xù)自我改進(jìn)。為了讓測試更公平,團(tuán)隊還根據(jù)人類玩家的水平限制了機器的某些能力,比如將“阿爾法星”的動作頻率降低到與熟練人類玩家接近,并把它的視野限制在攝像頭范圍內(nèi)。

        “深層思維”研發(fā)團(tuán)隊認(rèn)為,訓(xùn)練“阿爾法星”的先進(jìn)方法以及算法架構(gòu)未來有望用于解決復(fù)雜的實際問題,包括天氣預(yù)測、氣候模型計算以及語言理解等。但也有學(xué)者對現(xiàn)階段人工智能挑戰(zhàn)戰(zhàn)略游戲的能力持保守態(tài)度。加拿大紐芬蘭紀(jì)念大學(xué)人工智能學(xué)者戴夫·丘吉爾認(rèn)為,“阿爾法星”仍有許多弱點,比如無法抵御以前從未見過的戰(zhàn)略等。(陳 曦)

      免責(zé)聲明:本站所有信息均搜集自互聯(lián)網(wǎng),并不代表本站觀點,本站不對其真實合法性負(fù)責(zé)。如有信息侵犯了您的權(quán)益,請告知,本站將立刻處理。聯(lián)系QQ:1640731186
      友薦云推薦
      熱網(wǎng)推薦更多>>
      主站蜘蛛池模板: 欧美亚洲人成网站在线观看 | 亚洲伊人久久精品影院| 精品久久久久久777米琪桃花| 日本vs黑人hd| 亚洲制服在线观看| 波多野结衣女上司| 免费无码黄动漫在线观看| 色吊丝二区三区中文字幕| 国产成人无码A区在线观看导航| 三上悠亚伦理片| 日本中文字幕网| 九九久久99综合一区二区| 禁忌2电影在线观看完整版免费观看 | 中文字幕av一区乱码| 日本精品视频在线观看| 五月天国产视频| 欧美卡2卡4卡无卡免费| 亚洲欧美日韩中另类在线| 激情内射亚洲一区二区三区爱妻 | 欧美帅老头oldmangay| 全黄性性激高免费视频| 美女范冰冰hdxxxx| 国产三级在线观看播放| 韩国三级日本三级香港三级黄| 国产成人精品福利网站在线观看 | 国产视频精品视频| 99久久精品这里只有精品| 日韩欧美一区二区三区免费观看 | 日本丶国产丶欧美色综合| 久久综合九色综合精品| 校服白袜男生被捆绑微博新闻| 亚洲国产成人精品电影| 欧美日韩另类综合| 亚洲日韩av无码中文| 欧美精品dorcelclub全集31| 亚洲狠狠婷婷综合久久久久| 老师粗又长好猛好爽视频| 国产亚洲综合久久系列| 青青视频国产在线播放| 国产午夜视频在线观看| 香蕉视频在线观看男女|