直接生成16秒高清視頻 我國自研視頻大模型在京發(fā)布
新華社北京4月27日電(記者魏夢佳)只需一段文字指令就能生成一段逼真視頻,今年初,文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關注。27日,2024中關村論壇年會上首次發(fā)布我國自研的具“長時長、高一致性、高動態(tài)性”特點的文生視頻大模型Vidu。
記者從會上獲悉,這一視頻大模型由清華大學聯(lián)合北京生數(shù)科技有限公司共同研發(fā),可根據(jù)文本描述直接生成長達16秒、分辨率高達1080P的高清視頻內(nèi)容,不僅能模擬真實物理世界,還擁有豐富想象力。
清華大學人工智能研究院副院長、生數(shù)科技首席科學家朱軍說,當前國內(nèi)視頻大模型的生成視頻時長大多為4秒左右,Vidu則可實現(xiàn)一次性生成16秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空間中能保持高一致性。
在動態(tài)性方面,Vidu能生成復雜的動態(tài)鏡頭,不再局限于簡單的推、拉、移等固定鏡頭,而是能在一段畫面里實現(xiàn)遠景、近景、中景、特寫等不同鏡頭的切換,包括能直接生成長鏡頭、追焦、轉場等效果。
“Vidu能模擬真實物理世界,生成細節(jié)復雜且符合物理規(guī)律的場景,例如合理的光影效果、細膩的人物表情等,還能創(chuàng)造出具有深度和復雜性的超現(xiàn)實主義內(nèi)容。”朱軍介紹,由于采用“一步到位”的生成方式,視頻片段從頭到尾連續(xù)生成,沒有明顯的插幀現(xiàn)象。
此外,Vidu還可生成如熊貓、龍等形象。
據(jù)悉,Vidu的技術突破源于團隊在機器學習和多模態(tài)大模型方面的長期積累,其核心技術架構由團隊早在2022年就提出并持續(xù)開展自主研發(fā)。“作為一款通用視覺模型,我們相信,Vidu未來能支持生成更加多樣化、更長時長的視頻內(nèi)容,探索不同的生成任務,其靈活架構也將兼容更廣泛的模態(tài),進一步拓展多模態(tài)通用能力的邊界。”朱軍說。
下一篇:2024中國國際通用航空與無人機發(fā)展大會 共繪低空經(jīng)濟生態(tài)圈協(xié)同創(chuàng)新藍圖
隨便看看:
- [業(yè)內(nèi)]中國數(shù)據(jù)創(chuàng)新應用與合作推動可持續(xù)發(fā)展
- [業(yè)內(nèi)]“電博會”上帶您看“數(shù)聚未來”
- [業(yè)內(nèi)]科技部等12部門發(fā)文 加快推動北京國際科技創(chuàng)新中心建設
- [業(yè)內(nèi)]國內(nèi)首次光伏發(fā)電寬頻阻抗現(xiàn)場實證成功
- [業(yè)內(nèi)]研究發(fā)現(xiàn)抗性淀粉有助治療非酒精性脂肪肝
- [業(yè)內(nèi)]挑戰(zhàn)微軟 + GitHub!谷歌聯(lián)手 Replit,升級 A
- [業(yè)內(nèi)]賽場“智能” 班車“自動” 探訪湖州市亞運場館
- [業(yè)內(nèi)]美天文學家通過X射線發(fā)現(xiàn)遙遠黑洞
- [業(yè)內(nèi)]從數(shù)據(jù)到算力 上海為大模型產(chǎn)業(yè)構建“生態(tài)社區(qū)”
- [業(yè)內(nèi)]首屆香港桂冠論壇舉行 共話創(chuàng)科新機遇
相關推薦:
網(wǎng)友評論:
推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件