Sora理解物理世界嗎（關(guān)于Sora的簡(jiǎn)介）

2024-02-23 14:10:01 編輯：宰荷榮來源：

導(dǎo)讀 Sora模型發(fā)布已經(jīng)有一段時(shí)間，最初它對(duì)世界的理解能力讓人驚嘆，但有業(yè)內(nèi)人士認(rèn)為，Sora對(duì)于世界的理解還停留在比較初級(jí)的階段，對(duì)物理世界...

Sora模型發(fā)布已經(jīng)有一段時(shí)間，最初它對(duì)世界的理解能力讓人驚嘆，但有業(yè)內(nèi)人士認(rèn)為，Sora對(duì)于世界的理解還停留在比較初級(jí)的階段，對(duì)物理世界并沒有特別深的理解。

1.相比于以前的視頻生成模型，Sora對(duì)于物理世界有一定的理解能力，但并不能算很高明，在一個(gè)中國舞龍視頻當(dāng)中，Sora生成的中國字其實(shí)并不是中國字，只是比較像中國字的一個(gè)圖形，這是計(jì)算機(jī)的特性決定的，它具備很強(qiáng)的學(xué)習(xí)能力和圖像生成能力，但對(duì)于現(xiàn)象背后的物理意義和文化意義并不如ChatGPT一樣具備深刻的理解。

2.Sora在視頻的生成能力、連續(xù)性和真實(shí)世界模擬方面都具有巨大的優(yōu)勢(shì)，它生成的視頻默認(rèn)為1080P，還具備視頻連接、數(shù)字世界模擬、不同世界交互、運(yùn)動(dòng)相機(jī)模擬等功能，這些功能在其他的視頻模型當(dāng)中被提及較少。

3.Open AI發(fā)布的Sora可以生成尺寸更加自由的視頻，用戶可以選擇1920*1080的橫屏、豎屏模式，介于兩者之間的所有尺寸視頻用戶都可以自由選擇，相比之下比如Runway Gen2視頻生成模型，只能選擇16：9、1：1、4：3等長寬比的模型，清晰度則為1408*768px。