近日,技術(shù)級榮ICCV 2025(國際計算機視覺大會)公布論文錄用結(jié)果,獲全360AI研究院(research.#)在多模態(tài)生成和多模態(tài)理解方向的球頂兩篇研究論文入選,為人工智能在智能內(nèi)容生成、譽零研究多模態(tài)視覺理解等關(guān)鍵領(lǐng)域提供了創(chuàng)新解決方案,兩項填補行業(yè)技術(shù)空白。成果
作為計算機視覺領(lǐng)域的入選頂級學術(shù)會議,ICCV與CVPR(國際計算機視覺與模式識別會議)、技術(shù)級榮ECCV(歐洲計算機視覺國際會議)并稱為計算機視覺領(lǐng)域的獲全三大頂級會議。據(jù)了解,球頂今年ICCV共收到11239份有效投稿,譽零研究最終接受2698篇論文,兩項錄用率為僅24%。成果
360所入選兩篇論文的入選研究成果,分別是技術(shù)級榮可為AI裝上“空間規(guī)劃腦”的PlanGen模型,以及讓AI練就“火眼金睛”的LMM-Det模型。
PlanGen是行業(yè)首個能同時規(guī)劃物體布局并生成圖像的統(tǒng)一模型。從前AI在繪畫場景時通常是“閉著眼瞎畫”,缺乏空間規(guī)劃能力。但在PlanGen的加持下,大模型就可以先想清楚不同物件的空間擺放位置后,再落筆生成畫面。這種“先規(guī)劃后創(chuàng)作”的能力可讓圖像生成更加精準,使得AI能嚴格按空間邏輯呈現(xiàn),誤差率比傳統(tǒng)方法降低40%。
LMM-Det則是AI領(lǐng)域首個不用額外插件就能精準定位照片中目標的多模態(tài)大模型。一直以來,包括GPT-4o在內(nèi)多模態(tài)大模型都存在著一個通病——擅長對圖片內(nèi)容進行描述,但在目標的精確定位上遠遠落后于專業(yè)小模型。而LMM-Det在保持多模態(tài)大模型圖片描述能力的同時,還將目前檢測準確率提升至專業(yè)模型的水平,能夠同時鎖定遠中近、大中小、動態(tài)及靜態(tài)、顯性區(qū)域與隱蔽角落內(nèi)的各種目標,在識別效率上相較于傳統(tǒng)方案提升兩倍,開創(chuàng)行業(yè)技術(shù)先河。
作為國內(nèi)大模型頭部廠商,360在國內(nèi)較早布局人工智能大模型的研發(fā)。早在2022年,360就開源了第一代中文圖文跨模態(tài)模型R2D2,以及當時最大的中文圖文數(shù)據(jù)集Zero。2023至2024年間,360自研千億規(guī)模通用大模型“360智腦”,核心能力位居國內(nèi)第一梯隊,所開源的BDM文生圖模型,也成為了國內(nèi)第一個真正的原生中文繪畫模型并兼容SD社區(qū)插件。2025年,360開源了第二代圖文跨模態(tài)模型FG-CLIP,從根本上解決了CLIP模型的“近視問題”,其細粒度圖文對齊能力刷新了各項benchmark的SoTA記錄。
在智能體成為AI下半場的主角之時,今年6月,360為探索智能體應(yīng)用的落地實踐,進一步發(fā)布了基于超級智能體技術(shù)打造的搜索產(chǎn)品——納米AI超級搜索,僅需用戶提出需求,便可依托超級智能體能力理解用戶意圖,打破各平臺的“信息圍墻”,直接調(diào)用復雜工具,全流程自動執(zhí)行為用戶交付答案,為更多AI技術(shù)應(yīng)用的廣泛落地提供路徑參考。
近日,吉林省住建廳發(fā)布《關(guān)于開展建筑業(yè)企業(yè)資質(zhì)常態(tài)化動態(tài)核查...
2025-07-1845321