我們生活在物理世界里,但往往沒有深入思考這樣一個問題:本身是如何迅速理解周邊事物的?
人類能夠?qū)Σ季暗淖兓?、事物之間的彼此關(guān)聯(lián)等等做出非常自然的反映。而且,這些反映并不會耗費(fèi)我們多少注意力,同時還能措置得非常妥帖。
但是,人類的這種與生俱來的能力對于機(jī)器來說就沒那么簡單了。對于一個事物,其潛在成長的變化方式有成千上萬種可能,這讓計(jì)算機(jī)學(xué)會如何正確地做出預(yù)測長短常困難的。
近期,麻省理工學(xué)院(MIT)計(jì)算科學(xué)與人工智能嘗試室(CSAIL)的研究工作者的一項(xiàng)研究成果再次推進(jìn)了機(jī)器學(xué)習(xí)的成長。深度學(xué)習(xí)算法僅僅通過一張圖片,就可以讓計(jì)算機(jī)便生成一小段視頻來模擬圖中場景,并預(yù)測接下來會發(fā)生的情景。
訓(xùn)練過程使用了 200 萬個無標(biāo)簽的鏡頭,視頻總時長達(dá)一年。對比使用基準(zhǔn)模型算法,營銷網(wǎng)站建設(shè),這一算法生成的視頻更真實(shí)。在測試過程中,深度學(xué)習(xí)算法生成的視頻和比基準(zhǔn)模型算法真實(shí)度高了 20%。
研究團(tuán)隊(duì)稱,這項(xiàng)技術(shù)可以用于改良安檢策略、提高自動駕駛安全性等諸多范圍。據(jù)該嘗試室博士生與第一作者透露,這一算法能夠?qū)崿F(xiàn)人類活動的機(jī)器識別從而擺脫人工識此外昂揚(yáng)費(fèi)用。“這些視頻展現(xiàn)了電腦認(rèn)為將會發(fā)生的場景,”Vondrick 暗示,“如果你可以預(yù)測未來,那么你必需能夠理解目前發(fā)生的事情?!癡ondrick、MIT 傳授 Antonio Torralba 還有 Hamed Pirsiavash 傳授共同發(fā)表的這一成果。Pirsiavash 傳授是 CSAIL 的博士后,現(xiàn)于馬里蘭大學(xué)擔(dān)任傳授。這項(xiàng)工作將于下周在巴塞羅那召開的神經(jīng)信息措置系統(tǒng)大會(NIPS)上展出。
MIT人工智能嘗試室使用深度學(xué)習(xí)算法生成預(yù)測性視頻。圖為沙灘、運(yùn)動、火車站及病院的預(yù)測成果
此項(xiàng)目花費(fèi)了近兩年的時間讓算法“學(xué)習(xí)”兩百萬幅未加標(biāo)簽的視頻。
動態(tài)視覺
許多計(jì)算機(jī)視覺范圍的研究工作都研究過類似的課題,包羅 MIT 傳授 Bill Freeman。Freeman 傳授近期的關(guān)于“動態(tài)視覺”的課題同樣是研究對一個場景主動生成未來幾幀的圖像,不外他所提出的問題模型集中在解決未來視頻的揣度上。這是先前研究成果中未呈現(xiàn)過的。
以往的系統(tǒng)模型逐幀重建場景,凡是會在邊緣有較大誤差。與此相反,這項(xiàng)研究并吞了“成立整個場景”的難題,算法從一開始就能發(fā)生幀率為 32 的視頻。
“逐幀成立場景就像玩 Telephone Game 一樣(Telephone Game 是什么?傳送門:),在屋里轉(zhuǎn)一圈后信息便已經(jīng)大相徑庭了?!盫ondrick 說道,“一次性地措置一整個場景,就比如這個游戲中你能將動靜傳給所有人一樣?!?
當(dāng)然,在同時出產(chǎn)所有場景時會有一些權(quán)衡,而且針對長視頻,計(jì)算機(jī)模型也長短常復(fù)雜的,但這一成果在逐漸變得準(zhǔn)確。這種精準(zhǔn)的預(yù)測相對于增加的復(fù)雜度長短常值得的。為了成立多幀場景,研究工作者訓(xùn)練計(jì)算機(jī)來區(qū)分前景和布景。爾后將提取的對象放回視頻中再訓(xùn)練,哪個部門是靜止的,哪個部門是運(yùn)動的。
研究團(tuán)隊(duì)使用稱作“adversarial learning”的深度學(xué)習(xí)算法,該方式訓(xùn)練兩個競爭神經(jīng)網(wǎng)絡(luò)。此中一個神經(jīng)網(wǎng)絡(luò)生成視頻,另一個作為檢測器尋找生成視頻與原視頻的分歧。
通過訓(xùn)練,視頻生成的成果便可以騙過檢測器。此時,這一模型可以生成諸如海灘、火車站、病院、高爾夫球場等場景。比如,海灘模型可以生成波浪,高爾夫球場模型可以生成草坪上走動的人群。
團(tuán)隊(duì)使用兩個彼此競爭的神經(jīng)網(wǎng)絡(luò)。高斯白噪聲輸入到系統(tǒng)G發(fā)生虛假視頻,選擇性的將真是視頻或是虛假視頻送入到系統(tǒng)D中,輸出后得到真實(shí)的視頻。
此中一個網(wǎng)絡(luò)的工作過程具體如上圖,將 100dB 的白噪聲分袂輸入到前景和布景圖流中,在進(jìn)行采樣和 Sigmoid 蒙版措置,得到參數(shù)并按照公式生成空時圖像矩陣,從而發(fā)生視頻。