【天天速看料】爆火DragGAN正式開源,GitHub近18k星!清華校友帶GAN逆襲,大象一秒P轉(zhuǎn)身
2023-06-27 08:55:24 來源:新智元公眾號(hào)
【新智元導(dǎo)讀】就在剛剛,引爆AI繪圖圈的DragGAN,正式發(fā)布了開源代碼!
【資料圖】
上個(gè)月,一項(xiàng)名為「Drag Your GAN」的核彈級(jí)研究,在AI繪圖圈炸響。
論文由MPII、MIT、賓大、谷歌等機(jī)構(gòu)的學(xué)者聯(lián)合發(fā)布,并且已被SIGGRAPH2023錄用。
從此,我們只需一拖一拽,就能實(shí)現(xiàn)完美P圖了,哪里不準(zhǔn)修哪里!
拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對(duì)?修!
而就在剛剛,團(tuán)隊(duì)正式放出了官方代碼!
項(xiàng)目地址:https://github.com/XingangPan/DragGAN
首先,需要下載預(yù)訓(xùn)練StyleGAN2的權(quán)重:
shscripts/download_model.sh
如果想嘗試StyleGAN-Human和Landscapes HQ(LHQ)數(shù)據(jù)集,則需要將下載的權(quán)重放到./checkpoints目錄下。
接著,啟動(dòng)DragGAN GUI來編輯GAN生成的圖像:
shscripts/gui.sh
如果要編輯真實(shí)圖像,則需要使用像PTI這樣的工具執(zhí)行GAN反演。然后將新的潛在代碼和模型權(quán)重加載到GUI中。
有網(wǎng)友在上手試用后表示,只會(huì)占用大約6G顯存,但是使用效果不是很理想,坐等后續(xù)改進(jìn)。
GAN逆襲歸來,一秒把大象P轉(zhuǎn)身
顧名思義,通過DragGAN,我們可以任意拖動(dòng)圖像進(jìn)行編輯,無論是對(duì)象的形狀、布局、姿態(tài)、表情、位置、大小,都可以做到精準(zhǔn)控制。
項(xiàng)目地址:https://編程客棧vcai.mpi-inf.mpg.de/projects/DragGAN/
在確定關(guān)鍵點(diǎn)的起始和終止位置之后,再根據(jù)對(duì)象的物理結(jié)構(gòu),用GAN生成符合邏輯的圖像,一張?zhí)舨怀銎凭`的圖就做好了。
比如,輕輕一拖動(dòng),就能想把耷拉著的狗耳朵提起來,讓狗狗從站著變成趴下,以及讓狗狗瞬間張嘴微笑。
模特的姿勢(shì)可以隨意改變,短褲可以變成九分褲,短袖可以變長(zhǎng)袖。
湖邊的樹可以瞬間長(zhǎng)高,湖里的倒影也跟著一起改變。
原圖中的太陽沒露臉?無所謂,DragGAN會(huì)給你造個(gè)日出。
對(duì)此網(wǎng)友調(diào)侃稱,現(xiàn)在甲方提出「讓大象轉(zhuǎn)個(gè)身」的要求,終于可以實(shí)現(xiàn)了。
DragGAN:圖像處理新時(shí)代
在這項(xiàng)工作中,團(tuán)隊(duì)研究了一種強(qiáng)大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點(diǎn)精確「拖動(dòng)」至目標(biāo)點(diǎn)。
DragGAN主要包括以下兩個(gè)主要組成部分:
1.基于特征的運(yùn)動(dòng)監(jiān)控,驅(qū)動(dòng)操作點(diǎn)向目標(biāo)位置移動(dòng)
2.一個(gè)新的點(diǎn)跟蹤方法,利用區(qū)分性的GAN特征持續(xù)定位操作點(diǎn)的位置
通過DragGAN,任何人都可以對(duì)像素進(jìn)行精確的控制,進(jìn)而編輯如動(dòng)物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。
由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進(jìn)行,因此它們傾向于生成逼真的輸出,即使在富有挑戰(zhàn)性的場(chǎng)景下也是如此,例如被遮擋的內(nèi)容和變形的圖像。
定性和定量的對(duì)比表明,DragGAN在圖像操作和點(diǎn)跟蹤任務(wù)中,都明顯優(yōu)于先前的方法。
拖拽編輯
在DragGAN的加持下,用戶只需要設(shè)置幾個(gè)操作點(diǎn)(紅點(diǎn)),目標(biāo)點(diǎn)(藍(lán)點(diǎn)),以及可選的表示可移動(dòng)區(qū)域的mask(亮區(qū))。然后,模型就會(huì)自動(dòng)完成后續(xù)的圖像生成,
其中,動(dòng)態(tài)監(jiān)控步驟會(huì)讓操作點(diǎn)(紅點(diǎn))向目標(biāo)點(diǎn)(藍(lán)點(diǎn))移動(dòng),點(diǎn)追蹤步驟則通過更新操作點(diǎn)來追蹤圖像中的對(duì)象。此過程會(huì)一直持續(xù),直到操作點(diǎn)達(dá)到其相應(yīng)的目標(biāo)點(diǎn)。
流程
具體來說,團(tuán)隊(duì)通過在生成器的特征圖上的位移修補(bǔ)損失來實(shí)現(xiàn)動(dòng)態(tài)監(jiān)控,并在相同的特征空間中通過最近鄰搜索進(jìn)行點(diǎn)追蹤。
方法
值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區(qū)域。
可以看到,當(dāng)狗的頭部被mask時(shí),在編輯后的圖像中,只有頭部發(fā)生了移動(dòng),而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話,整個(gè)狗的身體也會(huì)跟著移動(dòng)。
這也顯示出,基于點(diǎn)的操作通常有多種可能的解決方案,而GAN會(huì)傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。
m編程ask的效果
在真實(shí)圖像的編輯中,團(tuán)隊(duì)?wèi)?yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛空間,然后分別編輯姿勢(shì)、頭發(fā)、形狀和表情。
真實(shí)圖像的javascript處理
不僅如此,DragGAN還具有強(qiáng)大的泛化能力,可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如,一個(gè)張得巨大的嘴,以及一個(gè)被極限放大的車輪。
泛化能力
作者介紹
論文一作Xingang Pan,目前已經(jīng)正式成為了南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工javascript程學(xué)院的助理教授。
研究方向主要集中在生成式AI模型、AI與人類協(xié)同內(nèi)容生成、3D/視頻編輯和生成、神經(jīng)場(chǎng)景表示和渲染,以及物理感知內(nèi)容生成。
在此之前,他于2016年在清華大學(xué)獲得學(xué)士學(xué)位,2021年在香港中文大學(xué)多媒體實(shí)驗(yàn)室獲得博士學(xué)位,導(dǎo)師是湯曉javascript鷗教授。隨后在馬克斯普朗克計(jì)算機(jī)科學(xué)研究所從事了博士后研究,由Christian Theobalt教授指導(dǎo)
Lingjie Liu是賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)系的Aravind K. Joshi助理教授,負(fù)責(zé)賓大計(jì)算機(jī)圖形實(shí)驗(yàn)室,同時(shí)也是通用機(jī)器人、自動(dòng)化、傳感和感知(GRASP)實(shí)驗(yàn)室的成員。
在此之前,她是馬克斯普朗克計(jì)算機(jī)科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。
參考資料:
https://github.com/XingangPan/DragGAN
關(guān)鍵詞:
相關(guān)閱讀
- (2023-06-27)【天天速看料】爆火DragGAN正式開源,GitHub近18k星!清華校友帶GAN逆襲,大象一秒P轉(zhuǎn)身
- (2023-06-27)山西兩支援外醫(yī)療隊(duì)載譽(yù)歸來_環(huán)球熱文
- (2023-06-27)女子做飯遇燃?xì)獗ǘ嗵師齻?!?dāng)事人:上任房主私改了燃?xì)庋b置
- (2023-06-27)win11安裝選哪個(gè)版本
- (2023-06-27)鵬欣資源(600490.SH)控股股東及其一致行動(dòng)人累計(jì)減持公司2.8%股份|當(dāng)前熱議
- (2023-06-27)司機(jī)開遠(yuǎn)光燈致人死亡,誰需為此承擔(dān)責(zé)任?
- (2023-06-27)焦點(diǎn)熱門:復(fù)星醫(yī)藥(600196.SH)子公司重組抗CTLA-4全人單克隆抗體注射液獲批開展用于治療肝癌臨床試驗(yàn)
- (2023-06-27)中馬傳動(dòng)3漲停
- (2023-06-27)李彥宏:AI原生應(yīng)用比大模型數(shù)量更重要_全球速看
- (2023-06-27)天天滾動(dòng):宋黑漆七弦琴
- (2023-06-27)【天天播資訊】桂林銀行籌備上市八年,人員薪資翻三倍,盈利能力均超監(jiān)管紅線,能成廣西首家上市銀行嗎?
- (2023-06-27)世界微資訊!江西南昌:下一個(gè)萬億城市?
- (2023-06-27)建發(fā)房產(chǎn)完成發(fā)行8億公司債 票面利率4.03%
- (2023-06-27)全球看熱訊:宋龍泉窯三足爐
- (2023-06-27)宋黎明
- (2023-06-27)省教科院附小:以潛能之力,逐未來之夢(mèng)
- (2023-06-27)全球播報(bào):2023對(duì)講機(jī)發(fā)展需求與未來行業(yè)趨向預(yù)測(cè)
- (2023-06-27)yy沒聲音但是系統(tǒng)有聲音
- (2023-06-27)實(shí)時(shí):即墨禹洲朗廷府精裝交付一年多 多處問題遲遲未解決
- (2023-06-27)今日熱聞!天津個(gè)體工商戶申請(qǐng)搖號(hào)指標(biāo)需要什么材料?
- (2023-06-27)山東一男孩估分700:結(jié)果真考700分_天天日?qǐng)?bào)
- (2023-06-27)熱文:汪小菲曬兒女合影,女兒發(fā)育太早引熱議,汪小菲大方回應(yīng)后秒刪
- (2023-06-27)姚賈怎么死的 姚賈的死因|世界熱推薦
- (2023-06-27)全球頭條:記者:特納斯不會(huì)留在巴薩,球隊(duì)沒有激活其續(xù)約條款
- (2023-06-27)【汽車人】沐颯推出,北現(xiàn)轉(zhuǎn)型預(yù)演
- (2023-06-27)焦點(diǎn)快看:微軟:索尼保留PS5開發(fā)工具包
- (2023-06-27)【天天時(shí)快訊】小學(xué)音樂學(xué)科主題教學(xué)案例研究(關(guān)于小學(xué)音樂學(xué)科主題教學(xué)案例研究介紹)
- (2023-06-27)為確定事故原因,美國海岸警衛(wèi)隊(duì)啟動(dòng)最高級(jí)別調(diào)查,收集“泰坦”號(hào)潛水器殘骸碎片,審查其和母船的語音記錄及數(shù)據(jù)
- (2023-06-27)鼎字的筆畫順序_鼎字
- (2023-06-27)天天時(shí)訊:ctrl鍵用不了了_ctrl鍵失靈鍵盤沒問題