辰东,遮天辰东小说

近日，快手可靈全球視覺(jué)AI領(lǐng)域的大技年度盛會(huì)CVPR 2025在美國(guó)田納西州納什維爾召開(kāi)，快手可靈AI事業(yè)部萬(wàn)鵬飛博士在備受矚目的術(shù)方世界“From Video Generation to World Model” Tutorial（《從視頻生成到世界模型》專(zhuān)題講座）上，發(fā)表了題為An Introduction to Kling and 向布Our Research towards More Powerful Video Genaration Models的報(bào)告，從模型架構(gòu)與生成算法、局視互動(dòng)與可控能力、頻生效果評(píng)估與對(duì)齊機(jī)制、成及多模態(tài)理解和推理四大技術(shù)方向介紹了可靈AI團(tuán)隊(duì)在視頻生成及世界模型領(lǐng)域的模型最新進(jìn)展與思考。

先進(jìn)的快手可靈模型結(jié)構(gòu)與生成算法（Advanced Model Architectures and Generation Algorithms）

Scaling laws在大語(yǔ)言模型中已經(jīng)有眾多研究工作和實(shí)際應(yīng)用，但視頻生成領(lǐng)域缺乏精準(zhǔn)好用的大技scaling laws公式?？伸`團(tuán)隊(duì)通過(guò)嚴(yán)謹(jǐn)?shù)男g(shù)方世界實(shí)驗(yàn)與分析，首次建立了超參數(shù)、向布模型規(guī)模與計(jì)算預(yù)算之間的局視精確數(shù)學(xué)關(guān)系。這個(gè)成果讓我們可以更科學(xué)地設(shè)置模型參數(shù)規(guī)模和關(guān)鍵參數(shù)，頻生從而更充分的成及發(fā)揮算力和數(shù)據(jù)資源的價(jià)值，達(dá)成更優(yōu)的模型效果。參考論文：Towards Precise Scaling Laws For Video Diffusion Transformers

可靈團(tuán)隊(duì)還推出了面向擴(kuò)散模型的混合專(zhuān)家（MoE）架構(gòu)DiffMoE?；谌址秶膖oken選擇機(jī)制和配套的推理策略，DiffMoE可根據(jù)擴(kuò)散模型在不同生成階段的異構(gòu)特性，更合理地分配計(jì)算資源。在圖像生成中，僅需激活1倍的參數(shù)量，便能達(dá)到3倍規(guī)模的密集模型的生成性能。參考論文：DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers

強(qiáng)大的交互與可控能力（Powerful Interaction and Control Capacities）

可靈團(tuán)隊(duì)提出了一個(gè)多任務(wù)視頻生成模型框架FullDiT，將所有時(shí)空條件作為上下文無(wú)縫融合到一個(gè)統(tǒng)一的Diffusion Transformer架構(gòu)中。FullDiT不需要針對(duì)不同任務(wù)更改模型結(jié)構(gòu)，降低了各種不同控制條件之間的沖突，且展示出了優(yōu)秀的可擴(kuò)展性甚至涌現(xiàn)能力。參考論文：FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

在交互式視頻生成方向，可靈團(tuán)隊(duì)提出了GameFactory框架，只需少量帶有動(dòng)作控制信息的視頻訓(xùn)練數(shù)據(jù)，即可支持可泛化到不同游戲場(chǎng)景的連續(xù)（如鼠標(biāo)）和離散（如鍵盤(pán)）的動(dòng)作控制能力。參考論文：GameFactory: Creating New Games with Generative Interactive Videos

準(zhǔn)確的評(píng)估和對(duì)齊機(jī)制（Accurate Evaluation and Alignment Mechanisms）

可靈團(tuán)隊(duì)構(gòu)建了一套基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）的視頻生成框架，包括多維偏好數(shù)據(jù)構(gòu)造、基于VLM的Reward模型，以及多種對(duì)齊算法。該框架是最早的系統(tǒng)性闡述如何應(yīng)用RLHF到視頻生成任務(wù)的工作之一。參考論文：Improving Video Generation with Human Feedback

此外，面向圖像和視頻生成領(lǐng)域主流的流匹配（Flow Matching）生成算法，團(tuán)隊(duì)通過(guò)ODE-to-SDE（常微分方程轉(zhuǎn)換到對(duì)應(yīng)的隨機(jī)微分方程）等方案，有效解決了流匹配缺乏隨機(jī)性以及多步生成計(jì)算效率低的問(wèn)題，提出了首個(gè)將GRPO引入流匹配模型的在線強(qiáng)化學(xué)習(xí)（RL）算法Flow-GRPO，并證明了其在圖像生成任務(wù)中的有效性。參考論文：Flow-GRPO: Training Flow Matching Models via Online RL

多模態(tài)感知與推理（Multimodal Perception and Reasoning）

視頻captioner（視頻內(nèi)容的文本描述模型）對(duì)最終的視頻生成效果非常關(guān)鍵，但行業(yè)中缺乏好的效果評(píng)估的方法?？伸`團(tuán)隊(duì)提出一個(gè)視頻captioner評(píng)估框架VideoCapBench，具備穩(wěn)定性和可靠性更高、以及與最終視頻生成效果相關(guān)性強(qiáng)的優(yōu)點(diǎn)。參考論文： VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

面向用戶意圖理解，可靈團(tuán)隊(duì)提出的Any2Caption按照一種統(tǒng)一的方式理解多模態(tài)用戶輸入信息，進(jìn)而生成語(yǔ)義豐富的結(jié)構(gòu)化描述，可顯著提升視頻生成的成功率。參考論文：Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation

除tutorial報(bào)告外，本屆CVPR上可靈共有7篇論文入選，涵蓋視頻模型scaling law、視頻數(shù)據(jù)集、可控生成、人像生成、高清生成、4D生成等多個(gè)方向。

原文鏈接：http://www.windwing.com.cn/news/08c42099571.html

免責(zé)聲明：以上文章中部分內(nèi)容/圖片來(lái)源于網(wǎng)絡(luò)投稿，如有問(wèn)題請(qǐng)聯(lián)系我們處理，郵箱：[email protected]

上一篇《咚奇剛：蕉力全開(kāi)》總監(jiān)透露：體素技術(shù)是程序員的噩夢(mèng)

返回首頁(yè)返回專(zhuān)欄

下一篇三星多款電競(jìng)顯示器亮相BW 2025，技術(shù)矩陣與生態(tài)協(xié)同共拓游戲體驗(yàn)新邊界