網站地圖 - 關于我們
您的當前位置: 首頁 > 科技 > 業內 正文

顛覆視頻創作?Sora還需“學好物理”

作者:用戶投稿 時間:2024-02-22 14:57 點擊:
導讀: 最近幾天,OpenAI公司發布的視頻生成大模型Sora成了全世界關注的焦點。它究竟會給我們的生活帶來怎樣的影響?連日來,記者專訪了幾位人工智能領域的專家,專

  最近幾天,OpenAI公司發布的視頻生成大模型Sora成了全世界關注的焦點。它究竟會給我們的生活帶來怎樣的影響?連日來,記者專訪了幾位人工智能領域的專家,專家表示,Sora還遠未達到理解自然規律的地步,仍有很長的路要走。

  廣州日報全媒體記者 肖歡歡(除署名外)

  一山更比一山高?Sora來自“組合拳”式技術創新

  著名人工智能研究專家、創新工場人工智能工程院執行院長王詠剛表示,OpenAI公布的樣例視頻連貫、流暢、穩定,與提示文本的符合程度極高,無論是時長還是質量都遠超此前的視頻生成技術?!俺醪娇?,Sora是人工智能發展史上的又一個里程碑,是文生視頻領域的‘GPT-3時刻’。”他認為,AI大模型從文本信息處理進化到多模態信息處理,Sora可能是其中至關重要的一環。“AI從處理文本一躍提升到能高質量處理或生成視頻,這意味著AI對世界的理解達到了一個全新的高度。通俗來說,ChatGPT使AI學會了讀書寫字,Sora的發布則代表AI初步學會了‘拍攝’視頻或電影短片,今年很可能掀起AI視頻技術與應用發展的巨大浪潮?!?/p>

  王詠剛介紹,從ChatGPT到Sora,兩種技術之間有明確的繼承與發展關系。Sora的技術突破主要得益于兩個方面:第一,融合了兩大生成式AI技術――雖然在整體算法框架上沿用了圖像生成領域常用的Diffusion模型,但在框架內部巧妙融入ChatGPT使用的Transformer來編碼和表達視頻中的時空信息,得到了名為Diffusion Transformer的組合模型。根據技術報告,Sora在視頻生成時涌現的精準、連貫的表達能力就源自這種組合拳式的科技創新。第二,發揮GPT的特長,改進標注質量――Sora使用類似GPT-4的技術對訓練用的樣本視頻做了重新標注,從根本上解決了目前視頻訓練數據缺乏高質量標注的問題。“現在經過GPT重新標注,AI可以知道訓練視頻中的人長什么樣子、穿什么衣服、手從哪里運動到哪里、身體呈現什么姿勢等。顯然AI可據此學有關這個世界運動規律的更多知識?!?/p>

  “OpenAI首先研發出ChatGPT和GPT-4,現在又把ChatGPT的核心技術與視頻生成的流行技術框架結合起來,可以說Sora是站在ChatGPT的肩膀上,一山更比一山高?!?/p>

  多模態同步推進 未來AI的AGI水平將極大提高

  原云天勵飛聯合創始人、首席科學家王孝宇博士是人工智能領域的資深科學家,連日來他也密切留意著Sora帶來的影響。王孝宇認為,在具體功能方面,Sora能部分模擬人或事物在現實世界中的存在方式,并由此產生一定水準的情感表達;在生成視頻質量上,Sora高清的畫質、豐富的細節,尤其是在處理遮擋和場景連貫性上,跟之前的模型相比有了質的飛躍。

  王孝宇介紹,OpenAI這些年一直在進行多模態同步推進,比如說將視頻轉化成文字,利用AI給視頻精準配音等?!按騻€比方,生成視頻先需要文本,但先輸入的這句話機器不一定能理解,先用ChatGPT重新寫一遍,將prompt(提示詞)轉化成Sora能夠理解的文字,然后再進行視頻創作;同時,也會把訓練視頻轉化成Sora可以理解的文字。這些技術是相互夯實、相互搭臺的,而不是相互替代。所以,Sora的技術架構并不復雜,只不過它跳脫出以前大家做文生視頻的思路?!?/p>

  王孝宇表示,Sora正是在多模態演進和高質量數據學習的基礎上,實現了視頻涌現機制,生成的視頻連貫性比較高,并且能大概理解真實世界的一些規律。“AI技術方面最大的進步不一定是基礎技術的進步,工程學、呈現效果的進步也是進步,Sora的最大意義在于,它讓學界認識到通過文字和視頻的橋接來提升AI的AGI(通用人工智能)水平是有可能的。未來Sora和ChatGPT結合,將極大提高AI的AGI水平。”

  AI功能莫過分夸大 邏輯推理、自然規律理解能力待提高

  王詠剛表示,盡管Sora在文本生成視頻方面有了質的提升,但并不能將其功能過分夸大?!八€遠遠沒有達到掌握物理規律的地步?!?/p>

  在王詠剛看來,“機器學習完全理解自然界規律”還是一個遙遠的命題?!癝ora在技術上并沒有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范疇,不大可能在智力水平上躍升到另一個完全不同的境界?!?/p>

  對此,王孝宇也表示認同。他表示,Sora的“文生視頻”技術還不是完美的,還有很多不連貫性,比如說,視頻中人的手指有時會多一根或者少一根,它還不能準確地理解現實世界?!耙粋€模型能生成逼真視頻,并不能代表它理解了物理世界,從目前來看,Sora并沒有完全掌握現實世界的物理規律,因為也是看著視頻學習,它可供學習的樣本相當有限。模型的預測能力依賴于其訓練數據的多少和質量,對于那些超出訓練數據分布的新情況,模型可能無法精確預測。要知道,現實世界的復雜性遠超過任何模型能夠通過有限數據學習到的經驗。” 王孝宇說,這就像天氣預報一樣,即便人類掌握了足夠多的衛星云圖和氣象資料,也還是難以精確預報每一次臺風的最終走向?!八裕荒懿糠帜M現實世界,掌握人或者其他物體在現實世界中的存在方式。我同意現在有些學者的觀點,只讓 AI看視頻是學不成世界模型的,它還不能用作現實世界的可靠模擬,在邏輯推理上還有很大的進步空間?!?/p>

  AI大模型未來將向哪個方向發展?王詠剛說,大語言模型的評估是一個復雜的課題,但即便如此,對AI大模型能力的評估數據仍然是其改進的關鍵一環。他認為,目前AI體現出的寫作水平、繪畫水平比較強,在某些方面可以接近人類的專業水平,但在邏輯推理上,AI的“智力水平”大概還處在人類孩童的階段,無法處理過于復雜的邏輯問題,也無法完全依照人類指令完成所有任務?!叭狈碗s邏輯推理能力,對世界的認知不夠準確,難以完全按人類要求工作,這是阻礙AI應用落地的最核心問題。目前最流行的AI應用還停留在知識問答、陪伴式聊天、辦公文案生成、輔助編程、輔助設計等領域,只有更進一步提高AI的邏輯推理能力及可控性,AI相關應用才能更進一步普及?!?/p>

打賞

取消

感謝您的支持,我會繼續努力的!

掃碼支持
掃碼打賞,你說多少就多少

打開支付寶掃一掃,即可進行掃碼打賞哦

相關推薦:

網友評論:

推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件

欄目分類
Copyright ? 2021 早報網 版權所有
蘇ICP備2024138443號

蘇公網安備32130202081338號

本網站所刊載信息,不代表早報網觀點。如您發現內容涉嫌侵權違法立即與我們聯系客服 106291126@qq.com 對其相關內容進行刪除。
早報網登載文章只用于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內容僅供參考,不構成投資建議。投資者據此操作,風險自擔。
《早報網》官方網站:www.m.www126mk.com互聯網違法和不良信息舉報中心
Top 主站蜘蛛池模板: 久久久久久福利| CHINESE中国精品自拍| 日韩中文字幕在线视频| 亚洲欧美视频网站| 精品97国产免费人成视频| 国产中文字幕在线播放| 四虎最新紧急更新地址| 国产麻豆videoxxxx实拍| 一本大道无码人妻精品专区| 日本人指教视频| 九九视频在线观看视频6| 欧美激情成人网| 人妻少妇伦在线无码| 精品视频无码一区二区三区| 国产在线不卡一区| 日韩视频第二页| 国产精品美女一级在线观看| XXX2高清在线观看免费视频| 性欧美videos另类视频| 久久99国产精品视频| 日韩精品一区二区亚洲av观看| 亚洲午夜久久久久妓女影院| 欧美高清69hd| 亚洲视频小说图片| 男女做爽爽视频免费观看| 午夜一区二区在线观看| 美女羞羞视频网站| 国产一区在线mmai| 青青青国产精品视频| 国产成人精品影院狼色在线| 亚洲武侠欧美自拍校园| 国产精品无码无在线观看| 999影院成人在线影院| 在线观看视频一区二区| jizz中国视频| 女同久久精品国产99国产精品| 一级特级黄色片| 成人免费看片又大又黄| 中文字幕一区二区三区精彩视频| 日本18xxx| 久久一区二区精品|