【天天速看料】爆火DragGAN正式開源，GitHub近18k星！清華校友帶GAN逆襲，大象一秒P轉(zhuǎn)身

2023-06-27 08:55:24 來源：新智元公眾號

其中，動(dòng)態(tài)監(jiān)控步驟會(huì)讓操作點(diǎn)（紅點(diǎn)）向目標(biāo)點(diǎn)(藍(lán)點(diǎn))移動(dòng)，點(diǎn)追蹤步驟則通過更新操作點(diǎn)來追蹤圖像中的對象。此過程會(huì)一直持續(xù)，直到操作點(diǎn)達(dá)到其相應(yīng)的目標(biāo)點(diǎn)。

流程

具體來說，團(tuán)隊(duì)通過在生成器的特征圖上的位移修補(bǔ)損失來實(shí)現(xiàn)動(dòng)態(tài)監(jiān)控，并在相同的特征空間中通過最近鄰搜索進(jìn)行點(diǎn)追蹤。

方法

值得注意的是，用戶可以通過添加mask的方式，來控制需要編輯的區(qū)域。

可以看到，當(dāng)狗的頭部被mask時(shí)，在編輯后的圖像中，只有頭部發(fā)生了移動(dòng)，而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話，整個(gè)狗的身體也會(huì)跟著移動(dòng)。

這也顯示出，基于點(diǎn)的操作通常有多種可能的解決方案，而GAN會(huì)傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。

m編程ask的效果

在真實(shí)圖像的編輯中，團(tuán)隊(duì)?wèi)?yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛空間，然后分別編輯姿勢、頭發(fā)、形狀和表情。

真實(shí)圖像的javascript處理

不僅如此，DragGAN還具有強(qiáng)大的泛化能力，可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如，一個(gè)張得巨大的嘴，以及一個(gè)被極限放大的車輪。

泛化能力

作者介紹

論文一作Xingang Pan，目前已經(jīng)正式成為了南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工javascript程學(xué)院的助理教授。

研究方向主要集中在生成式AI模型、AI與人類協(xié)同內(nèi)容生成、3D/視頻編輯和生成、神經(jīng)場景表示和渲染，以及物理感知內(nèi)容生成。

在此之前，他于2016年在清華大學(xué)獲得學(xué)士學(xué)位，2021年在香港中文大學(xué)多媒體實(shí)驗(yàn)室獲得博士學(xué)位，導(dǎo)師是湯曉javascript鷗教授。隨后在馬克斯普朗克計(jì)算機(jī)科學(xué)研究所從事了博士后研究，由Christian Theobalt教授指導(dǎo)

Lingjie Liu是賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)系的Aravind K. Joshi助理教授，負(fù)責(zé)賓大計(jì)算機(jī)圖形實(shí)驗(yàn)室，同時(shí)也是通用機(jī)器人、自動(dòng)化、傳感和感知（GRASP）實(shí)驗(yàn)室的成員。

在此之前，她是馬克斯普朗克計(jì)算機(jī)科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

參考資料:

https://github.com/XingangPan/DragGAN

關(guān)鍵詞：

[責(zé)任編輯：]