直接生成16秒高清視頻我國自研視頻大模型在京發(fā)布

作者：用戶投稿時間：2024-05-01 09:41 點擊：次

導讀：　新華社北京4月27日電（記者魏夢佳）只需一段文字指令就能生成一段逼真視頻，今年初，文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關注。27日，2024中

　　新華社北京4月27日電（記者魏夢佳）只需一段文字指令就能生成一段逼真視頻，今年初，文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關注。27日，2024中關村論壇年會上首次發(fā)布我國自研的具“長時長、高一致性、高動態(tài)性”特點的文生視頻大模型Vidu。

　　記者從會上獲悉，這一視頻大模型由清華大學聯(lián)合北京生數(shù)科技有限公司共同研發(fā)，可根據(jù)文本描述直接生成長達16秒、分辨率高達1080P的高清視頻內(nèi)容，不僅能模擬真實物理世界，還擁有豐富想象力。

　　清華大學人工智能研究院副院長、生數(shù)科技首席科學家朱軍說，當前國內(nèi)視頻大模型的生成視頻時長大多為4秒左右，Vidu則可實現(xiàn)一次性生成16秒的視頻時長。同時，視頻畫面能保持連貫流暢，隨著鏡頭移動，人物和場景在時間、空間中能保持高一致性。

　　在動態(tài)性方面，Vidu能生成復雜的動態(tài)鏡頭，不再局限于簡單的推、拉、移等固定鏡頭，而是能在一段畫面里實現(xiàn)遠景、近景、中景、特寫等不同鏡頭的切換，包括能直接生成長鏡頭、追焦、轉場等效果。

　　“Vidu能模擬真實物理世界，生成細節(jié)復雜且符合物理規(guī)律的場景，例如合理的光影效果、細膩的人物表情等，還能創(chuàng)造出具有深度和復雜性的超現(xiàn)實主義內(nèi)容。”朱軍介紹，由于采用“一步到位”的生成方式，視頻片段從頭到尾連續(xù)生成，沒有明顯的插幀現(xiàn)象。

　　此外，Vidu還可生成如熊貓、龍等形象。

　　據(jù)悉，Vidu的技術突破源于團隊在機器學習和多模態(tài)大模型方面的長期積累，其核心技術架構由團隊早在2022年就提出并持續(xù)開展自主研發(fā)。“作為一款通用視覺模型，我們相信，Vidu未來能支持生成更加多樣化、更長時長的視頻內(nèi)容，探索不同的生成任務，其靈活架構也將兼容更廣泛的模態(tài)，進一步拓展多模態(tài)通用能力的邊界。”朱軍說。

打賞

感謝您的支持，我會繼續(xù)努力的!

掃碼打賞，你說多少就多少

打開支付寶掃一掃，即可進行掃碼打賞哦

上一篇：117臺全球首發(fā)車！北京車展看汽車發(fā)展新趨勢
下一篇：2024中國國際通用航空與無人機發(fā)展大會共繪低空經(jīng)濟生態(tài)圈協(xié)同創(chuàng)新藍圖

隨便看看：

日本成熟视频tube~be-日本成熟老妇xxxx-日本成日本片人免费-日本成人中文字幕-日本成人在线网址-日本成人在线网站

直接生成16秒高清視頻 我國自研視頻大模型在京發(fā)布

直接生成16秒高清視頻我國自研視頻大模型在京發(fā)布