近日,快手可靈全球視覺(jué)AI領(lǐng)域的大技年度盛會(huì)CVPR 2025在美國(guó)田納西州納什維爾召開(kāi),快手可靈AI事業(yè)部萬(wàn)鵬飛博士在備受矚目的術(shù)方世界“From Video Generation to World Model” Tutorial(《從視頻生成到世界模型》專(zhuān)題講座)上,發(fā)表了題為An Introduction to Kling and 向布Our Research towards More Powerful Video Genaration Models的報(bào)告,從模型架構(gòu)與生成算法、局視互動(dòng)與可控能力、頻生效果評(píng)估與對(duì)齊機(jī)制、成及多模態(tài)理解和推理四大技術(shù)方向介紹了可靈AI團(tuán)隊(duì)在視頻生成及世界模型領(lǐng)域的模型最新進(jìn)展與思考。
先進(jìn)的快手可靈模型結(jié)構(gòu)與生成算法(Advanced Model Architectures and Generation Algorithms)
Scaling laws在大語(yǔ)言模型中已經(jīng)有眾多研究工作和實(shí)際應(yīng)用,但視頻生成領(lǐng)域缺乏精準(zhǔn)好用的大技scaling laws公式??伸`團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)男g(shù)方世界實(shí)驗(yàn)與分析,首次建立了超參數(shù)、向布模型規(guī)模與計(jì)算預(yù)算之間的局視精確數(shù)學(xué)關(guān)系。這個(gè)成果讓我們可以更科學(xué)地設(shè)置模型參數(shù)規(guī)模和關(guān)鍵參數(shù),頻生從而更充分的成及發(fā)揮算力和數(shù)據(jù)資源的價(jià)值,達(dá)成更優(yōu)的模型效果。參考論文:Towards Precise Scaling Laws For Video Diffusion Transformers
可靈團(tuán)隊(duì)還推出了面向擴(kuò)散模型的混合專(zhuān)家(MoE)架構(gòu)DiffMoE?;谌址秶膖oken選擇機(jī)制和配套的推理策略,DiffMoE可根據(jù)擴(kuò)散模型在不同生成階段的異構(gòu)特性,更合理地分配計(jì)算資源。在圖像生成中,僅需激活1倍的參數(shù)量,便能達(dá)到3倍規(guī)模的密集模型的生成性能。參考論文:DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers
強(qiáng)大的交互與可控能力(Powerful Interaction and Control Capacities)
可靈團(tuán)隊(duì)提出了一個(gè)多任務(wù)視頻生成模型框架FullDiT,將所有時(shí)空條件作為上下文無(wú)縫融合到一個(gè)統(tǒng)一的Diffusion Transformer架構(gòu)中。FullDiT不需要針對(duì)不同任務(wù)更改模型結(jié)構(gòu),降低了各種不同控制條件之間的沖突,且展示出了優(yōu)秀的可擴(kuò)展性甚至涌現(xiàn)能力。參考論文:FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
在交互式視頻生成方向,可靈團(tuán)隊(duì)提出了GameFactory框架,只需少量帶有動(dòng)作控制信息的視頻訓(xùn)練數(shù)據(jù),即可支持可泛化到不同游戲場(chǎng)景的連續(xù)(如鼠標(biāo))和離散(如鍵盤(pán))的動(dòng)作控制能力。參考論文:GameFactory: Creating New Games with Generative Interactive Videos
準(zhǔn)確的評(píng)估和對(duì)齊機(jī)制(Accurate Evaluation and Alignment Mechanisms)
可靈團(tuán)隊(duì)構(gòu)建了一套基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)的視頻生成框架,包括多維偏好數(shù)據(jù)構(gòu)造、基于VLM的Reward模型,以及多種對(duì)齊算法。該框架是最早的系統(tǒng)性闡述如何應(yīng)用RLHF到視頻生成任務(wù)的工作之一。參考論文:Improving Video Generation with Human Feedback
此外,面向圖像和視頻生成領(lǐng)域主流的流匹配(Flow Matching)生成算法,團(tuán)隊(duì)通過(guò)ODE-to-SDE(常微分方程轉(zhuǎn)換到對(duì)應(yīng)的隨機(jī)微分方程)等方案,有效解決了流匹配缺乏隨機(jī)性以及多步生成計(jì)算效率低的問(wèn)題,提出了首個(gè)將GRPO引入流匹配模型的在線強(qiáng)化學(xué)習(xí)(RL)算法Flow-GRPO,并證明了其在圖像生成任務(wù)中的有效性。參考論文:Flow-GRPO: Training Flow Matching Models via Online RL
多模態(tài)感知與推理(Multimodal Perception and Reasoning)
視頻captioner(視頻內(nèi)容的文本描述模型)對(duì)最終的視頻生成效果非常關(guān)鍵,但行業(yè)中缺乏好的效果評(píng)估的方法??伸`團(tuán)隊(duì)提出一個(gè)視頻captioner評(píng)估框架VideoCapBench,具備穩(wěn)定性和可靠性更高、以及與最終視頻生成效果相關(guān)性強(qiáng)的優(yōu)點(diǎn)。參考論文: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
面向用戶意圖理解,可靈團(tuán)隊(duì)提出的Any2Caption按照一種統(tǒng)一的方式理解多模態(tài)用戶輸入信息,進(jìn)而生成語(yǔ)義豐富的結(jié)構(gòu)化描述,可顯著提升視頻生成的成功率。參考論文:Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation
除tutorial報(bào)告外,本屆CVPR上可靈共有7篇論文入選,涵蓋視頻模型scaling law、視頻數(shù)據(jù)集、可控生成、人像生成、高清生成、4D生成等多個(gè)方向。
據(jù)媒體報(bào)道,昆明呈貢被美國(guó)雜志報(bào)道稱(chēng)為鬼城。隨著中國(guó)進(jìn)入城市...
2025-07-189539近日,中建三局承建的湖北襄陽(yáng)市余崗片區(qū)城市棚戶區(qū)改造項(xiàng)目二期...
2025-07-1811436月1日,北京第二批集中供地的7宗地塊進(jìn)入現(xiàn)場(chǎng)競(jìng)價(jià)環(huán)節(jié)。中海...
2025-07-184792近日,中建七局聯(lián)合體中標(biāo)安徽省合肥市肥西縣城鄉(xiāng)一體化發(fā)展二期...
2025-07-184292由講談社創(chuàng)作者實(shí)驗(yàn)室(Kodansha Creators&r...
2025-07-1893387