Sora刷屏視頻出現(xiàn)多處失誤（Sora是什么）

2024-02-20 15:23:30 編輯：常飛棟來源：

導(dǎo)讀 Meta首席AI科學(xué)家楊立昆指出了最近OpenAI公布的視頻AI工具Sora演示視頻中的錯誤，老奶奶吹蠟燭火苗沒有變動，東京街頭走動的女郎步伐并不正...

Meta首席AI科學(xué)家楊立昆指出了最近OpenAI公布的視頻AI工具Sora演示視頻中的錯誤，老奶奶吹蠟燭火苗沒有變動，東京街頭走動的女郎步伐并不正常，多處細(xì)節(jié)顯示這一模型并未真正理解物理世界。

1.Sora是一個文生視頻AI模型，它通過大規(guī)模的視覺數(shù)據(jù)訓(xùn)練一個具備通用能力的生成模型，只要輸入幾個關(guān)鍵詞，就可以利用這一模型生成一段視頻，在公開的演示視頻當(dāng)中，甚至這段視頻還包含鏡頭設(shè)計，體現(xiàn)出了很高的完成度。

2.人們在Sora身上看到了擴散模型和大模型能力的完美融合，OpenAI把視頻的每一幀都轉(zhuǎn)化成為視覺補丁，這種最小單位類似于GPT當(dāng)中的token，它是組成視頻和圖像的基本部分，這些單位都可以被打破甚至重組。視頻生成過程中擴散模型負(fù)責(zé)生成效果，這也就是為何Sora可以從現(xiàn)有的靜態(tài)圖像中生成視頻。

3.Sora解決了一些之前技術(shù)上難以突破的問題，影視制作行業(yè)受到前所未有的沖擊。這一模型的革命性進(jìn)步就是生成的視頻長度可以達(dá)到1分鐘，另外幾個熱門模型Pika生成長度在3秒、Runway的生成長度在18秒，Sora讓AI視頻真正可以成為生產(chǎn)力。

4.Sora可以降低內(nèi)容創(chuàng)作者的門檻，它簡單的使用方法和較低的部署成本能大幅度增加視頻行業(yè)工作者的數(shù)量，只要一句話、幾個關(guān)鍵詞就可以把想法表達(dá)出來，有利于人們表達(dá)自己的創(chuàng)意。

5.基于模擬世界的能力，在更多領(lǐng)域當(dāng)中創(chuàng)造出新的事物，這是生成式模型學(xué)習(xí)的重要特征，它并不是記住數(shù)據(jù)，而是在數(shù)據(jù)的基礎(chǔ)上展現(xiàn)出強大的創(chuàng)造能力，這種方法訓(xùn)練出的AI將無限逼近真實世界。