在剛剛過去的春節,科技界再次見證了一場顛覆性技術革命的誕生,2月16日凌晨OpenAI悄無聲息向業界扔出一枚“王炸”——正式發布了首款文生視頻模型"Sora",繼文本、圖像之后,OpenAI在視頻領域放出大招,AI文生視頻技術邁入了一個全新的發展階段。
首款文生視頻模型Sora
OpenAI官方表示:“Sora是能夠理解和模擬現實世界的模型的基礎,相信這一功能將成為實現AGI的重要里程碑。”
AI 文生視頻技術
根據OpenAI官方發布的技術報告以及對外展示的48個視頻,Sora是基于Transformer架構的文本條件擴散模型,能夠根據文本提示生成長達一分鐘的視頻,甚至能夠擴展現有視頻。
OpenAI官方發布的技術報告
Sora的技術報告還強調了其在理解復雜場景、物理屬性和場景關系方面的能力,以及在圖像和視頻編輯任務上的靈活性。
Sora生成的視頻不僅在視覺上具有高清畫質,而且在光影處理、物理效果(如遮擋和碰撞)、運動連續性等方面表現出接近真實世界的水平,相較于以往模型在生成視頻時可能出現的人物形象不一致等問題,Sora還能準確呈現角色和視覺風格的一致性,使得視頻場景更加自然連貫。
這些特性使得Sora在制作短視頻、動畫、電影畫面和視頻游戲渲染方面展現出巨大的潛力。
Sora的特性
Sora一經發布,迅速在全球范圍內掀起驚濤巨浪,馬斯克在X平臺回復網友“gg humans”,AI文生視頻創企Runway聯合創始人兼CEO Cristóbal Valenzuela感嘆以前需要花費一年的進展,變成了幾個月就能實現,又變成了幾天、幾小時。
Sora被認為在人工智能領域取得了重大突破,它的出現被視為通用人工智能(AGI)實現的重要里程碑,360董事長周鴻祎認為Sora意味著AGI實現將從10年縮短到1年,并且可能給廣告業、電影預告片、短視頻行業帶來巨大的顛覆。
《MIT科技評論》主編指出:“Sora的出現,無疑是人工智能發展歷程中的一個里程碑,它的誕生意味著我們正逐步接近一個‘文字即視頻’的新時代。”
中國科學院空天信息研究院的譚劍副研究員表示:“Sora的出現,開啟了創作力和想象力的時代。”他進一步指出,Sora在理解地球物理世界的規律方面取得了巨大進展,這不僅僅是技術上的突破,更是對傳統計算機圖形學領域的一次顛覆。
不過也有人對其帶來的內容真實性問題和倫理考量表示擔憂,指出“確保內容的真實透明成為了一個重要議題”;圖靈巨頭LeCun認為,僅根據文字提示生成逼真的視頻,并不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預測完全不同。
Sora的發布讓文生視頻技術進入新的發展階段,會逐步打破傳統的內容創作模式,給廣告、游戲、影視等行業帶來前所未有的挑戰和機遇。
隨著技術的迭代,企業能高效低成本地進行產品演示、內容制作、廣告創意設計等多元化的數字內容生產,這將進一步加速企業向智能化內容創作與傳播的轉型步伐,并可能重塑未來多媒體信息生態。


