Sora沖擊波
一是時長,二是逼真程度,Sora實現(xiàn)了兩個老大難問題的同時解決,以至于外界毫不吝嗇地將其形容為“顛覆性”的存在。360創(chuàng)始人周鴻祎說,Sora的發(fā)布意味著AGI的(通用人工智能)實現(xiàn)將從十年縮短到一年。
Sora或者說是OpenAI,正醞釀并引領(lǐng)一場新的巨變。
沒有任何預(yù)兆和消息的提前透露,近日,OpenAI突然發(fā)布了首個文生視頻模型Sora,逼真程度瞬間“引爆”市場。
“一句話生成視頻”正無限接近于現(xiàn)實。在OpenAI的展示中,只需要一段簡單的文本指令,Sora就可以直接輸出最長達60秒的視頻,并且包含高度細致的背景、復(fù)雜的多角度鏡頭以及富有情感的多個角色。
一位行走在東京街道上時尚女性的視頻幾乎成了Sora的“代表作”。這段一分鐘的視頻里,從主要人物到背景人物,從近景到遠景,細致、逼真的畫面和流暢轉(zhuǎn)換的鏡頭幾乎以假亂真。
OpenAI介紹稱,因使用Transformer架構(gòu),Sora具有極強的擴展性,同時在基于過去對DALL·E和GPT的研究基礎(chǔ)構(gòu)建上還利用了DALL·E 3的重述提示詞技術(shù),為視覺模型訓(xùn)練數(shù)據(jù)生成高描述性的標注。
國泰君安研報指出,Sora具有三大突出亮點,一是60秒長視頻,Sora可以保持視頻主體與背景的高度流暢性與穩(wěn)定性。二是單視頻多角度鏡頭,Sora在一個視頻內(nèi)實現(xiàn)多角度鏡頭,分鏡切換符合邏輯且十分流暢。三是理解真實世界的能力,Sora對于光影反射、運動方式、鏡頭移動等細節(jié)處理得十分優(yōu)秀,極大地提升了真實感。
對于文生視頻的技術(shù)問題,北京市社會科學(xué)院副研究員王鵬對北京商報記者提到,這首先涉及到算法的復(fù)雜性。文生視頻技術(shù)不僅涉及文本到圖像的轉(zhuǎn)換,還需要處理時序信息和音頻同步。這需要復(fù)雜的深度學(xué)習(xí)模型,如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs)等,以捕捉視頻中的動態(tài)變化和細節(jié)。
此外,訓(xùn)練文生視頻模型需要大量的帶標注數(shù)據(jù),包括文本描述和對應(yīng)的視頻片段。這樣的數(shù)據(jù)集難以獲取和標注,尤其是對于特定領(lǐng)域的應(yīng)用。數(shù)據(jù)的多樣性和質(zhì)量也直接影響模型的生成能力。如果訓(xùn)練數(shù)據(jù)缺乏多樣性或存在偏見,生成的視頻可能會缺乏創(chuàng)意或包含不準確的信息。
不過OpenAI也承認,目前Sora還存在著一定的短板,比如無法準確地模擬復(fù)雜場景的物理原理,且無法理解這其中的因果關(guān)系,呈現(xiàn)在視頻上,可能就會出現(xiàn)一個人咬了一口餅干后,餅干并沒有咬痕的結(jié)果。
AGI加速
“通過文字描述的方式來生成前后有關(guān)聯(lián)的連續(xù)視覺內(nèi)容的時代來臨了”。在接受北京商報記者采訪時,新壹科技CTO張華偉說,從Sora的效果看,穩(wěn)定性已經(jīng)很高了,這也意味著視頻內(nèi)容的生產(chǎn)效率大大提升了。
新壹科技是目前國內(nèi)在AIGC領(lǐng)域布局最為全面、技術(shù)較為成熟的人工智能公司之一,2023年7月,壹科技發(fā)布國內(nèi)首款專注于視頻領(lǐng)域的AIGC模型“新壹視頻大模型”。
中國企業(yè)資本聯(lián)盟副理事長柏文喜對北京商報記者提到,Sora有望顛覆影視、游戲、廣告等多個行業(yè)。隨著Sora等文生視頻技術(shù)的成熟,各行各業(yè)都可以利用其生成高質(zhì)量的視頻內(nèi)容,提高內(nèi)容創(chuàng)作效率,降低制作成本。
“從長期來看,這種顛覆效應(yīng)將更加明顯,可能導(dǎo)致傳統(tǒng)視頻制作人員的需求減少,進而推動整個行業(yè)的變革”。柏文喜稱。
不過中國信息協(xié)會常務(wù)理事、國研新經(jīng)濟研究院創(chuàng)始院長朱克力提到,這種顛覆還需要一定的時間,因為Sora盡管在技術(shù)上取得了突破,但在實際應(yīng)用中還需要解決許多問題,如模型的穩(wěn)定性、可擴展性和計算效率等。此外,各行業(yè)對于新技術(shù)的接受和應(yīng)用也需要一個過程。
但Sora真正的“星辰大海”,很可能早就超過了視頻的范疇。就像周鴻祎在評價Sora時說的,“我認為AGI很快會實現(xiàn),就這幾年的事兒了”。
在接受北京商報記者采訪時,天使投資人、資深人工智能的郭濤提到,與文本和圖像相比,視頻不僅包含了靜態(tài)圖像的空間信息,還加入了時間維度,要求模型能夠理解和預(yù)測隨時間變化的動態(tài)場景。
這意味著Sora需要處理更加豐富的數(shù)據(jù)類型,包括物體的運動、光影變化、遮擋關(guān)系等,這些都是AGI所需解決的核心問題。
朱克力也表示,文生文和文生圖主要關(guān)注的是靜態(tài)信息的轉(zhuǎn)換和表達,而文生視頻則需要在連續(xù)的時間序列中保持場景的一致性、物體的動態(tài)關(guān)系和光影的變化,這要求模型具備更強的時空建模能力和更高的計算復(fù)雜度。因此,文生視頻技術(shù)的成功對于推動AGI的發(fā)展具有更為顯著的作用。
事實上,自從ChatGPT的橫空出世,AI圈便再次燃起了通用人工智能的浪潮,而ChatGPT也被視為通用人工智能的起點和強人工智能的拐點。周鴻祎說,大語言模型最牛的點在于,他不是填空機,而是能完整地理解這個世界的知識。
而Sora對真實世界的理解能力也是AGI得以實現(xiàn)最重要的因素之一。按照周鴻祎的說法,OpenAI利用其大語言模型的優(yōu)勢,把LLM和Diffusion結(jié)合起來訓(xùn)練,讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力,跳出2D的范圍模擬真實的物理世界。
“所以Sora只是小試牛刀,它展現(xiàn)的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。”周鴻祎說。
理想與現(xiàn)實
據(jù)悉,目前Sora并未對公眾全面開放,僅邀請部分測試者進行體驗。造成這一情況的原因,是Sora所引發(fā)的關(guān)于濫用視頻生成技術(shù)所帶來的安全性擔(dān)憂,而這也幾乎可以看做是Sora想要“做大做強”必然需要邁過的一道坎。
王鵬總結(jié)出了文生視頻的三大難點,分別是真實性問題、創(chuàng)意和版權(quán)問題以及可解釋性和透明度問題。
具體而言,隨著文生視頻技術(shù)的發(fā)展,生成的視頻越來越難以與真實視頻區(qū)分。這可能引發(fā)一系列的倫理和社會問題,如虛假信息的傳播、隱私侵犯等。
而AI生成的視頻是否應(yīng)該受到版權(quán)保護?如果AI使用了人類藝術(shù)家的作品作為訓(xùn)練數(shù)據(jù),那么生成的視頻是否侵犯了原作的版權(quán)?這些問題目前還沒有明確的答案。
此外,AI模型,包括文生視頻模型,往往缺乏可解釋性和透明度。這意味著當模型出現(xiàn)錯誤或偏見時,很難找出原因并進行糾正。這增加了模型在實際應(yīng)用中的風(fēng)險。
但這些并不足以阻擋文生視頻的發(fā)展。聚焦國內(nèi),有媒體不完全統(tǒng)計數(shù)據(jù)顯示,包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當虹科技、東方國信(維權(quán))、神思電子、因賽集團、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個月以來在互動平臺披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。
而在2023年6月,萬興科技就曾公告,基于AI文生視頻以及3D數(shù)字人等技術(shù)開發(fā)了數(shù)字人營銷短視頻創(chuàng)作工具,面向跨境營銷和電商領(lǐng)域用戶,通過AIGC與虛擬數(shù)字人技術(shù)快速生成“真人”主播,解決傳統(tǒng)電商營銷視頻實拍模式下的外籍模特數(shù)量少、多語言翻譯配音難度高、制作周期長、成本居高不下等問題。
周鴻祎說:“OpenAI的CEO阿爾特曼是個營銷大師,他知道怎樣掌握節(jié)奏。”但更值得警惕的是,Sora的營銷“心機”背后,OpenAI隱藏的實力。就像周鴻祎說的:“他們手里的武器并沒有全拿出來,這樣看來,中國跟美國的AI差距可能還在加大。”
2023年是國內(nèi)大模型競爭白熱化的一年。《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,我國10億參數(shù)規(guī)模以上的大模型已超過200個。而從2023年下半年開始,大模型競爭焦點也開始從底層模型的搭建轉(zhuǎn)移向行業(yè)的落地應(yīng)用。
工業(yè)和信息化部賽迪研究公布的生成式人工智能領(lǐng)域的相關(guān)數(shù)據(jù)顯示,2023年我國生成式人工智能的企業(yè)采用率已達15%,市場規(guī)模約為14.4萬億元。在制造業(yè)、零售業(yè)、電信行業(yè)和醫(yī)療健康等四大行業(yè)的生成式人工智能技術(shù)的采用率均實現(xiàn)較快增長。
不過從整體而言,國內(nèi)在AI領(lǐng)域的發(fā)展仍稍顯遜色,未出現(xiàn)代表性應(yīng)用的同時,行業(yè)發(fā)展也出現(xiàn)“降溫”跡象。CB insights報告顯示,去年,中國AI領(lǐng)域投融資數(shù)量約為232筆,同比下降38%,融資總額約為20億美元,同比下降70%。
有分析師解讀,這意味著,熱錢可能集中地涌向了少數(shù)團隊背景和技術(shù)實力強大的公司。從資源分配的角度而言,后來者想要再擠進模型層創(chuàng)業(yè),空間已經(jīng)不多。
“不少國內(nèi)的大模型企業(yè)仍然面臨缺少自主創(chuàng)新的問題,如果不能知其然,必然不能知其所以然”。在接受北京商報記者采訪時,一位業(yè)內(nèi)人士如此說道。
北京商報記者 楊月涵
網(wǎng)友評論
智能應(yīng)用排行
- 網(wǎng)易 UU 加速器完成鴻蒙原生應(yīng)用開發(fā),上線 HarmonyOS
- 蘋果官方認可“越獄”術(shù)語:特殊版iPhone罕見現(xiàn)身 用于查找
- 京東11.11再次發(fā)力數(shù)字人:成本更低、直播流量傾斜,成電商
- 釘釘公布數(shù)據(jù):用戶數(shù)7億 軟件付費企業(yè)數(shù)12萬
- AI大模型讓智慧交通“更聰明” 海信亮相2024世界人工智能大
- 沃爾瑪?shù)娜斯ぶ悄芰闶鄣暌严蚬婇_放
- 歐瑞博攜手南方科技大學(xué)打造智能新能源住宅技術(shù)聯(lián)合實驗室
- 都是科技的狠活?2024中國國際消費電子博覽會即將全新亮相
- 百度:智能云業(yè)務(wù)Q1營收47億元,生成式AI貢獻比例達6.9%
延伸閱讀
- OpenAI發(fā)布首個視頻生成模型Sora:將AI戰(zhàn)場引向好萊塢
- 一段視頻 帶你看一場跨越百年的AI
- 海爾“歐洲版”智慧家庭IFA GPC亮相
- 沃爾瑪?shù)娜斯ぶ悄芰闶鄣暌严蚬婇_放
- 現(xiàn)場直擊今年最大科技盛會,AIoT獨角獸涂鴉智能又有哪些發(fā)布
- 日本推出世界首個“虛擬警備員” 真人大小、AI加持
- 助力智能產(chǎn)品出海 涂鴉云成幕后真正大腦
- 海爾發(fā)布首個智能學(xué)校解決方案 引領(lǐng)物聯(lián)網(wǎng)時代教育信息化改
- 涂鴉“Thoth”:掌控數(shù)百設(shè)備的“超級隊長”,打擊偽智能
- 涂鴉“Aladdin”:讓APP定制像搭積木一樣簡單
最新智能應(yīng)用
- 京東11.11再次發(fā)力數(shù)字人:成本更低、直播流量傾
- 歐瑞博攜手南方科技大學(xué)打造智能新能源住宅技術(shù)聯(lián)
- 網(wǎng)易 UU 加速器完成鴻蒙原生應(yīng)用開發(fā),上線 H
- 都是科技的狠活?2024中國國際消費電子博覽會即將
- 百度沈抖:百舸4.0升級發(fā)布,模型訓(xùn)練有效時長達
- 華為云發(fā)布AI原生云基礎(chǔ)設(shè)施架構(gòu)CloudMatrix,新
- 阿里CEO吳泳銘:AI算力需求滲透率已超50%,正主導(dǎo)
- 羅技發(fā)布 G PRO 2 LIGHTSPEED(GPW4 朱雀)
- 華為:將啟動“鴻蒙生態(tài)伙伴及開發(fā)者見非凡體驗計
- 華為運動健康發(fā)布玄璣感知系統(tǒng) 華為手表或?qū)⒅С?/a>