近日,由螞蟻技術(shù)研究院交互智能實(shí)驗室打造的最新視頻處理算法CoDeF,在全球開(kāi)源平臺GitHub上熱度飆升,發(fā)布僅一周時(shí)間就在GitHub流行趨勢榜單上的Python語(yǔ)言分類(lèi)中沖到了第一。
據悉,CoDeF是一項真實(shí)時(shí)、強細節、高保真的視頻處理技術(shù),用于完成視頻風(fēng)格遷移任務(wù)。
實(shí)驗表明,CoDeF技術(shù)能夠毫不費力地將圖像風(fēng)格化算法升級為視頻風(fēng)格化算法,將圖像關(guān)鍵點(diǎn)檢測算法升級為視頻關(guān)鍵點(diǎn)算法(甚至包括水和煙霧等非剛性物體的追蹤),將圖像語(yǔ)義分割算法升級為視頻物體算法,將圖像超分算法升級為視頻超分算法,同時(shí)支持用戶(hù)可交互的視頻內容編輯。
近年來(lái),隨著(zhù)以圖像生成、圖像編輯等任務(wù)為代表的視覺(jué)內容生成領(lǐng)域取得突破性進(jìn)展,視覺(jué)生成正向著(zhù)視頻方向發(fā)展。特別是真實(shí)應用場(chǎng)景下,人們對視頻的實(shí)時(shí)性、流暢性、保真度等方面提出了更高要求。目前的主流算法多受限于生成視頻時(shí)序一致性較差的問(wèn)題,導致其生成效果無(wú)法直接在真實(shí)場(chǎng)景中應用。
為了解決這一問(wèn)題,技術(shù)研究院的研究員們提出了一種全新的解決思——將視頻處理簡(jiǎn)化為圖像處理。
具體來(lái)說(shuō),將視頻表示為一個(gè)2D內容規范場(chǎng)(canonical content field)和一個(gè)3D時(shí)間形變場(chǎng)(temporal deformation field),其中內容規范場(chǎng)負責整合一段視頻中包含的所有紋理信息,而時(shí)間形變場(chǎng)則負責建模視頻里的動(dòng)態(tài)信息。換言之,每一幀視頻都利用這個(gè)形變場(chǎng)對內容規范場(chǎng)所編碼的的規范圖像(canonical image)進(jìn)行變形,就可以恢復出該幀圖像。
基于這種表征技術(shù),視頻處理任務(wù)可以簡(jiǎn)化為圖像處理任務(wù),用戶(hù)只需要處理每個(gè)視頻對應的靜態(tài)規范圖像,然后通過(guò)形變場(chǎng)的變換,就可以將圖像處理結果自然地沿著(zhù)時(shí)間維度進(jìn)行,達到對整個(gè)視頻處理的目的,也因此了高度的時(shí)序一致性。
值得一提的是,研究者們設法盡量降低規范圖像和真實(shí)圖像的域差(domain gap),使得現有的圖像算法可以不加任何訓練地應用到規范圖像上,完成視頻處理。
該技術(shù)在GitHub發(fā)布并開(kāi)源后,不僅在技術(shù)圈影響廣泛,在Twitter平臺也“火”出了圈。不少Twitter網(wǎng)友直呼“不敢相信!”、“這是一個(gè)巨大的飛躍!”,還有人說(shuō)“只需給它一年時(shí)間噴砂機視頻,就能被用在電影制作上了”。
據悉,這項技術(shù)是由螞蟻集團技術(shù)研究院交互智能實(shí)驗室歷時(shí)三個(gè)月時(shí)間完成。項目主要負責人是螞蟻技術(shù)研究院交互智能實(shí)驗室研究員沈宇軍,其主要研究方向為計算機視覺(jué)和深度學(xué)習。
項目的另外三位主要作者分別為科技大學(xué)的博士生歐陽(yáng)豪、螞蟻技術(shù)研究院的王秋雨、和浙江大學(xué)的博士生肖宇曦,其中第一名和第三名參與者當下為螞蟻集團的研究型實(shí)習生。
自2021年成立以來(lái),螞蟻技術(shù)研究院一直致力做有用、有想象力的科研。面向數字化、智能化未來(lái),瞄準世界科技前沿,推進(jìn)關(guān)鍵核心技術(shù)攻關(guān)。
其中,交互智能實(shí)驗室主要聚焦計算機視覺(jué)和自然語(yǔ)言處理方向的基礎模型研究,開(kāi)發(fā)通用人工智能算法架構,包括內容生成、多模態(tài)理解、數字化、人機交互等關(guān)鍵技術(shù)。