顛覆視頻創作？Sora還需“學好物理”

作者：用戶投稿時間：2024-02-22 14:57 點擊：次

導讀：　最近幾天，OpenAI公司發布的視頻生成大模型Sora成了全世界關注的焦點。它究竟會給我們的生活帶來怎樣的影響？連日來，記者專訪了幾位人工智能領域的專家，專

　　最近幾天，OpenAI公司發布的視頻生成大模型Sora成了全世界關注的焦點。它究竟會給我們的生活帶來怎樣的影響？連日來，記者專訪了幾位人工智能領域的專家，專家表示，Sora還遠未達到理解自然規律的地步，仍有很長的路要走。

　　廣州日報全媒體記者肖歡歡（除署名外）

　　一山更比一山高？Sora來自“組合拳”式技術創新

　　著名人工智能研究專家、創新工場人工智能工程院執行院長王詠剛表示，OpenAI公布的樣例視頻連貫、流暢、穩定，與提示文本的符合程度極高，無論是時長還是質量都遠超此前的視頻生成技術?！俺醪娇?，Sora是人工智能發展史上的又一個里程碑，是文生視頻領域的‘GPT-3時刻’。”他認為，AI大模型從文本信息處理進化到多模態信息處理，Sora可能是其中至關重要的一環。“AI從處理文本一躍提升到能高質量處理或生成視頻，這意味著AI對世界的理解達到了一個全新的高度。通俗來說，ChatGPT使AI學會了讀書寫字，Sora的發布則代表AI初步學會了‘拍攝’視頻或電影短片，今年很可能掀起AI視頻技術與應用發展的巨大浪潮?！?/p>

　　王詠剛介紹，從ChatGPT到Sora，兩種技術之間有明確的繼承與發展關系。Sora的技術突破主要得益于兩個方面：第一，融合了兩大生成式AI技術――雖然在整體算法框架上沿用了圖像生成領域常用的Diffusion模型，但在框架內部巧妙融入ChatGPT使用的Transformer來編碼和表達視頻中的時空信息，得到了名為Diffusion Transformer的組合模型。根據技術報告，Sora在視頻生成時涌現的精準、連貫的表達能力就源自這種組合拳式的科技創新。第二，發揮GPT的特長，改進標注質量――Sora使用類似GPT-4的技術對訓練用的樣本視頻做了重新標注，從根本上解決了目前視頻訓練數據缺乏高質量標注的問題。“現在經過GPT重新標注，AI可以知道訓練視頻中的人長什么樣子、穿什么衣服、手從哪里運動到哪里、身體呈現什么姿勢等。顯然AI可據此學有關這個世界運動規律的更多知識?！?/p>

　　“OpenAI首先研發出ChatGPT和GPT-4，現在又把ChatGPT的核心技術與視頻生成的流行技術框架結合起來，可以說Sora是站在ChatGPT的肩膀上，一山更比一山高?！?/p>

　　多模態同步推進未來AI的AGI水平將極大提高

　　原云天勵飛聯合創始人、首席科學家王孝宇博士是人工智能領域的資深科學家，連日來他也密切留意著Sora帶來的影響。王孝宇認為，在具體功能方面，Sora能部分模擬人或事物在現實世界中的存在方式，并由此產生一定水準的情感表達；在生成視頻質量上，Sora高清的畫質、豐富的細節，尤其是在處理遮擋和場景連貫性上，跟之前的模型相比有了質的飛躍。

　　王孝宇介紹，OpenAI這些年一直在進行多模態同步推進，比如說將視頻轉化成文字，利用AI給視頻精準配音等?！按騻€比方，生成視頻先需要文本，但先輸入的這句話機器不一定能理解，先用ChatGPT重新寫一遍，將prompt(提示詞）轉化成Sora能夠理解的文字，然后再進行視頻創作；同時，也會把訓練視頻轉化成Sora可以理解的文字。這些技術是相互夯實、相互搭臺的，而不是相互替代。所以，Sora的技術架構并不復雜，只不過它跳脫出以前大家做文生視頻的思路?！?/p>

　　王孝宇表示，Sora正是在多模態演進和高質量數據學習的基礎上，實現了視頻涌現機制，生成的視頻連貫性比較高，并且能大概理解真實世界的一些規律。“AI技術方面最大的進步不一定是基礎技術的進步，工程學、呈現效果的進步也是進步，Sora的最大意義在于，它讓學界認識到通過文字和視頻的橋接來提升AI的AGI（通用人工智能）水平是有可能的。未來Sora和ChatGPT結合，將極大提高AI的AGI水平。”

　　AI功能莫過分夸大邏輯推理、自然規律理解能力待提高

　　王詠剛表示，盡管Sora在文本生成視頻方面有了質的提升，但并不能將其功能過分夸大?！八€遠遠沒有達到掌握物理規律的地步?！?/p>

　　在王詠剛看來，“機器學習完全理解自然界規律”還是一個遙遠的命題?！癝ora在技術上并沒有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇，不大可能在智力水平上躍升到另一個完全不同的境界?！?/p>

　　對此，王孝宇也表示認同。他表示，Sora的“文生視頻”技術還不是完美的，還有很多不連貫性，比如說，視頻中人的手指有時會多一根或者少一根，它還不能準確地理解現實世界?！耙粋€模型能生成逼真視頻，并不能代表它理解了物理世界，從目前來看，Sora并沒有完全掌握現實世界的物理規律，因為也是看著視頻學習，它可供學習的樣本相當有限。模型的預測能力依賴于其訓練數據的多少和質量，對于那些超出訓練數據分布的新情況，模型可能無法精確預測。要知道，現實世界的復雜性遠超過任何模型能夠通過有限數據學習到的經驗。” 王孝宇說，這就像天氣預報一樣，即便人類掌握了足夠多的衛星云圖和氣象資料，也還是難以精確預報每一次臺風的最終走向?！八裕荒懿糠帜M現實世界，掌握人或者其他物體在現實世界中的存在方式。我同意現在有些學者的觀點，只讓 AI看視頻是學不成世界模型的，它還不能用作現實世界的可靠模擬，在邏輯推理上還有很大的進步空間?！?/p>

　　AI大模型未來將向哪個方向發展？王詠剛說，大語言模型的評估是一個復雜的課題，但即便如此，對AI大模型能力的評估數據仍然是其改進的關鍵一環。他認為，目前AI體現出的寫作水平、繪畫水平比較強，在某些方面可以接近人類的專業水平，但在邏輯推理上，AI的“智力水平”大概還處在人類孩童的階段，無法處理過于復雜的邏輯問題，也無法完全依照人類指令完成所有任務?！叭狈碗s邏輯推理能力，對世界的認知不夠準確，難以完全按人類要求工作，這是阻礙AI應用落地的最核心問題。目前最流行的AI應用還停留在知識問答、陪伴式聊天、辦公文案生成、輔助編程、輔助設計等領域，只有更進一步提高AI的邏輯推理能力及可控性，AI相關應用才能更進一步普及?！?/p>

打賞

感謝您的支持，我會繼續努力的!

掃碼打賞，你說多少就多少

打開支付寶掃一掃，即可進行掃碼打賞哦

上一篇：馬斯克旗下腦機接口公司宣布新進展
下一篇：大數據“殺熟”為何屢禁不止？

隨便看看：

顛覆視頻創作？Sora還需“學好物理”

顛覆視頻創作？Sora還需“學好物理”