欧美日韩电影精品视频_亚洲天堂一区二区三区四区_亚洲欧美日韩国产综合_日韩精品一区二区三区中文_為您提供優質色综合久久88色综合天天

您的位置:首頁 > 消費 >

基于圖神經(jīng)網(wǎng)絡(luò)的定向算法在螞蟻投放營銷中的應(yīng)用

2021-03-15 11:22:00 來源:壹點網(wǎng)

評論

面對日益競爭激烈的移動金融服務(wù)場景,如何快速且準確地將合適的產(chǎn)品、服務(wù)觸達合適的用戶成為營銷運營的一個核心課題。

在螞蟻的投放營銷活動過程中,一方面期望產(chǎn)品服務(wù)能夠觸達更多用戶,另一方面希望觸達的用戶有較高的點擊率和轉(zhuǎn)化率。面對成千上萬業(yè)務(wù)場景的競爭,需要有一套系統(tǒng)來輔助每個業(yè)務(wù)找到它們各自潛在的高價值用戶,以提高流量的使用效率。

基于上述問題,螞蟻智能引擎團隊和流量運營技術(shù)團隊共同打造了哈勃智能人群,現(xiàn)已包含六大功能:標簽圈人、算法圈人、實時標簽?zāi)芰Α⑷巳汗芾砟芰σ约昂笃诘娜巳憾床炷芰托Ч治?。通過算法賦能,哈勃智能人群臺已具備事前用戶偏好理解、事中人群定向、事后歸因分析等全鏈路輔助功能,本文將介紹哈勃后臺算法的三代體系更迭。其中,相關(guān)工作現(xiàn)已發(fā)表在KDD 2020 Applied Data Science(Hubble: an Industrial System for Audience Expansion in Mobile Marketing)與CIKM 2020 Applied Research(Two-Stage Audience Expansion for Financial Targeting in Marketing)。

問題定義

對于精準定向場景,問題描述如下圖所示,給定一個營銷投放活動(campaign)、種子用戶(seeds)和當前業(yè)務(wù)的準入人群(candidates),人群定向目標是從準入人群中找到當前營銷投放活動的目標人群(audiences),使得人群投放之后的點擊率/轉(zhuǎn)化率等指標最大化。解決這類問題的技術(shù)稱之為audience expansion,又名lookalike。

圖片1.png

從算法視角,我們既要確保臺有較高的定向效率(人群產(chǎn)出速度),又要確保人群定向效果(業(yè)務(wù)指標提升)。在調(diào)研了Pinterests[1]、Yahoo![2]、騰訊微信[3] 等公司公開的人群定向技術(shù)之后,我們發(fā)現(xiàn)現(xiàn)有的技術(shù)不能完美適配螞蟻場景雙效的保障。因此我們對哈勃后臺的人群定向算法進行了3次升級:

圖片2.png

第一代雙塔模型是基于微軟DSSM[4]開發(fā)的end-to-end模型。從第二代開始,我們重點考慮模型運行效率,將end-to-end算法結(jié)構(gòu)解耦成異步的離線graph neural network(GNN)+在線輕量學的結(jié)構(gòu)。而在第三代中,為進一步提升圈人的時效,我們額外引入投放中的實時反饋數(shù)據(jù),并基于增量學的方式融合種子用戶和反饋數(shù)據(jù)的信息。

第一代:基于DSSM的audience expansion

這里采用微軟提出的DSSM[4]模型是為了在常規(guī)二分類的基礎(chǔ)上拆分user和scene/campaign各自的特征,核心是希望在每次營銷活動投放的訓練過程中能夠更好地捕捉用戶和該活動投放的關(guān)系。下圖是我們使用的模型結(jié)構(gòu)圖:

圖片3.png

DSSM是一個經(jīng)典的雙塔結(jié)構(gòu),這里的正樣本為種子用戶,而負樣本由隨機采樣非種子用戶得到。模型訓練收斂之后,對準入人群(candidates)進行打分,分數(shù)越高表示用戶對當前投放的興趣越大。基于偏好分排序,我們就能找到當前投放的潛在用戶。

在實際活動投放中,對比傳統(tǒng)的GBDT,上述方法在點擊率和轉(zhuǎn)化率均有不錯的提升。 但缺陷也很明顯:(1)單次營銷活動訓練時間過長;(2)資源消耗高,從機器資源角度衡量,ROI并不理想。

考慮到上述缺陷,我們開始嘗試2-stage的架構(gòu)來取代end-to-end的方式,從效率和效果的雙向角度考慮架構(gòu)優(yōu)化。

第二代:基于異步GNN+輕量學的audience expansion

圖片4.png

上圖展示了哈勃臺算法的調(diào)用流程,整個算法流程分為“離線”和“在線”兩部分:

· 離線AD-GNN(Adaptive and Disentangled Graph Neural Network)模型:基于時間順序,我們將用戶歷史點擊行為數(shù)據(jù)分成兩部分,第一部分用于構(gòu)建user-campaign的二部圖,捕捉用戶對不同營銷活動的偏好,生成用戶以及營銷活動的抽象embeddings。對于第二部分數(shù)據(jù),我們將用戶點擊的行為作為正樣本,而曝光未點擊的行為作為負樣本。最后通過構(gòu)建link prediction任務(wù)的方式來訓練AD-GNN模型,從而得到campaign embedding和user embedding;

· 在線KD-AE(Knowledge Distillation based Audience Expansion)模型:一旦接收到一個人群定向的請求,系統(tǒng)會實例化一個輕量級KD-AE模型,用于找到當前活動的目標人群。類似上面提到的DSSM模型,該模型將用于學用戶(user)和當前投放(campaign)之間的偏好。

上述offline/online異步更新的方式很好地解決了算法執(zhí)行效率的問題,下面我們主要介紹模型的具體實現(xiàn)是如何提高定向任務(wù)的效果。

離線AD-GNN模型

依托智能引擎團隊自研的ALPS-GraphML臺,AD-GNN模型用于生成用戶以及營銷活動的抽象embeddings。建模需要解決兩個挑戰(zhàn):(1)刻畫用戶和投放活動之間的復(fù)雜高階交互信息;(2)解耦用戶嵌入表達。為了解決第一個挑戰(zhàn),我們構(gòu)建了一個用戶和投放活動的二部圖,使用圖神經(jīng)網(wǎng)絡(luò)的方式來刻畫復(fù)雜高階交互關(guān)系信息。為了解決第二個挑戰(zhàn),我們使用解耦機制將用戶的嵌入表達映射到不同channels上。為了進一步提高用戶嵌入表達的質(zhì)量,我們在解耦機制之前加入注意力機制,從而幫助模型消除一些噪音鄰居帶來的影響。下面具體介紹模型的各個模塊。

圖片5.png

Projection模塊:對于圖上每個節(jié)點,我們將其原始特征映射到K個不同的子空間。這K個子空間分別表示用戶對于投放活動的K種不同的意圖。對于節(jié)點i,把它映射到第k個子空間的公式如下:

圖片6.png

Neighborhood Routing模塊:為了構(gòu)造解耦的user embedding,我們設(shè)計解耦機制迭代執(zhí)行neighborhood routing。解耦機制開始時,使用Projection模塊得到的z^k來初始化h^k。每次neighborhood routing過程分為兩步。首先對于每個節(jié)點u計算使用它的鄰居v來構(gòu)造h_u^k的概率:

圖片7.png

然后基于得到的鄰居概率來更新:

圖片8.png

Adaptive Breadth模塊:注意到上述解耦機制沒有考慮到可能存在噪音邊,比如用戶無意間點擊了一些并不感興趣的投放活動,這是移動營銷場景里常見的情況。為了解決這個問題,我們引入adaptive breadth函數(shù)來重新定義上述解耦機制。對于節(jié)點u對其鄰居節(jié)點v的adaptive breadth分數(shù)為:

圖片9.png

然后使用得到的鄰居分數(shù)來重新定義解耦向量:

圖片10.png

上述過程構(gòu)成了一個adaptive & disentangled layer,疊加L次這樣的layer我們就可以捕捉到L-hops的鄰居信息,從而生成最終解耦的用戶以及營銷活動的embeddings。

在線KD-AE模型

給定一個新的投放活動,基于AD-GNN生成的user embedding,在線KD-AE模型負責產(chǎn)出人群定向結(jié)果。傳統(tǒng)人群定向方法將給定的投放種子人群視為正例,隨機采樣非種子用戶作為負例,然后訓練一個分類器(例如:LR, GBDT和DNN等),然而這種方法沒有考慮到給定的種子人群(seeds)往往是有偏的。因為種子人群來自于專家經(jīng)驗或者是歷史相似投放活動中的轉(zhuǎn)化用戶,這樣得到的種子用戶往往只能代表全量目標人群的部分用戶。為了解決這個問題,我們使用知識蒸餾的方式 [5]從離線AD-GNN模型(teacher模型)中提取知識用于指導在線KD-AE模型(student模型)的訓練。除了使用傳統(tǒng)人群定向模型的訓練標簽y_h(hard label),KD-AE模型額外包含了從AD-GNN模型得到先驗知識,即softened label y_s。基于兩類不同的標簽,KD-AE模型的損失函數(shù)定義為:

圖片11.png

其中y_A為KD-AE模型的預(yù)測值,Theta_A為模型可訓練的參數(shù),數(shù)值gamma控制softened label的影響。模型訓練完成之后,對準入人群(candidates)進行打分,分數(shù)越高則表示該user對當前投放的興趣越大。從公式我們可以發(fā)現(xiàn),連接teacher模型和student模型的是AD-GNN預(yù)測的softened label。下面我們具體介紹softened label的構(gòu)造方式。

為了構(gòu)造softened label,我們希望根據(jù)種子用戶的embedding找到與其最接的k個歷史投放活動(這里利用AD-GNN產(chǎn)出的embedding來計算用戶和投放活動的相似)。但是這種構(gòu)造softened label的方式計算復(fù)雜度較高,特別是當種子人群數(shù)量和歷史投放活動數(shù)量很大時,構(gòu)造過程會比較耗時。為了加速構(gòu)造過程,考慮到相似用戶對投放活動的喜好也是相似的,我們首先使用k-means對用戶進行聚類,計算一個簇中用戶嵌入表達的均值作為這個簇的表達,然后對于每個簇找到與其最相似的k個歷史投放活動,然后計算與這k個歷史投放活動的相似度的均值作為softened label。得到softened label之后,結(jié)合是否為種子用戶的hard label,我們通過多目標優(yōu)化的方式就可以訓練KD-AE模型了,即上面展示的損失函數(shù)。

通過解耦A(yù)D-GNN和KD-AE,給定一個新來的定向任務(wù),哈勃臺現(xiàn)在只需要運行一個輕量KD-AE模型,訓練時長大幅縮短。較低的時間和計算資源消耗給算法設(shè)計帶來了更大的空間,在下述第三代算法模型中,我們進一步引入增量學來提升算法在投放事中的優(yōu)化能力。

第三代:基于異步GNN+增量學的audience expansion

上述第二代框架通過離線AD-GNN模型得到了user embedding,然后通過在線KD-AE模型為一次新投放活動圈選合適的用戶。流程整體上利用了投放事前的所有歷史信息,完成了一次較為無偏的事前人群定向流程。但螞蟻場景中,常常有一些時間持續(xù)較長的人群定向任務(wù),部分任務(wù)能有超過一周以上的投放時間。針對此類任務(wù),線上投放系統(tǒng)能夠每日回流投放活動的反饋數(shù)據(jù),如人群的曝光點擊等,但第二代框架對這類反饋數(shù)據(jù)并沒有進行合理地利用。從業(yè)務(wù)角度考慮,這類反饋數(shù)據(jù)是本次投放的真實結(jié)果反饋。如果能在投放事中加以利用并動態(tài)地對投放人群進行干預(yù),既可以更好地捕獲本次投放中真實的人群分布,又可以緩解部分任務(wù)種子人群量級較小、投放模型欠擬合的問題。基于這樣的考慮,我們設(shè)計了一套AD-GNN+增量學體系的通用事中優(yōu)化流程,對先驗的專家經(jīng)驗(種子人群)與實際的投放反饋(曝光點擊人群)融合,完成了算法圈人的再次升級。

假設(shè)某次活動已經(jīng)投放了數(shù)天,此時我們能夠收集到一定數(shù)量的反饋數(shù)據(jù)。這里我們可以使用點擊用戶和曝光未點擊用戶分別構(gòu)建正負樣本,并基于AD-GNN產(chǎn)生的embedding訓練一個輕量的分類器M1。M1雖然能夠很好地分類本次投放的反饋數(shù)據(jù),但受事前圈人模型的影響,尤其在投放最初的幾天反饋數(shù)據(jù)量級較少時,極容易存在coverage bias的問題。下圖具體展現(xiàn)了兩個實際投放中,不同天數(shù)上的點擊用戶在embedding space上的分布存在明顯差異,這導致分類器M1直接應(yīng)用于candidates人群會造成較大偏差。

圖片12.png

因此,在歷史投放反饋數(shù)據(jù)的基礎(chǔ)上,我們額外引入數(shù)量充足的seeds人群來降低coverage bias帶來的影響。但是將反饋數(shù)據(jù)和seeds人群融合在一起的一大難點就是:seeds人群的質(zhì)量在不同投放上存在明顯差異,這需要我們能夠根據(jù)seeds人群的質(zhì)量自適應(yīng)地調(diào)節(jié)seeds人群在圈人模型中的權(quán)重。為此,我們這里基于meta-learning的方式構(gòu)建了一個meta-learner來學seeds人群的權(quán)重函數(shù)V。首先我們將反饋數(shù)據(jù)F按照時間先后順序切分為F_train和F_meta,然后根據(jù)權(quán)重函數(shù)V加權(quán)的seeds人群和反饋數(shù)據(jù)F_train,訓練得到最優(yōu)的模型f,而在F_meta上,我們將通過調(diào)節(jié)權(quán)重函數(shù)V來最優(yōu)化f在F_meta上的能,即對應(yīng)的目標函數(shù)為:

圖片13.png

其中

圖片14.png

為了最優(yōu)化上述目標函數(shù),我們采用了[6]中提出的在線更新策略。最終得到的f能夠很好融合seeds人群和投放反饋的信息,在提升時效的同時,很好地緩解了coverage bias的問題。

參考文獻

[1] deWet, Stephanie, and Jiafan Ou. "Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences." Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

[2] Ma, Qiang, et al. "Score Look-Alike Audiences." 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016.

[3] Liu, Yudan, et al. "Real-time Attention Based Look-alike Model for Recommender System." Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

[4] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013.

[5] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).

[6] Shu, Jun, et al. "Meta-weight-net: Learning an explicit mapping for sample weighting." arXiv preprint arXiv:1902.07379 (2019).

螞蟻智能引擎技術(shù)事業(yè)部實生招聘

關(guān)于我們:

螞蟻智能引擎技術(shù)事業(yè)部是基于大數(shù)據(jù)和人工智能來支撐螞蟻所有的業(yè)務(wù),包括支付、微貸、征信、安全風控、保險、智能營銷等。我們致力于用技術(shù)推動包括金融服務(wù)業(yè)在內(nèi)的全球現(xiàn)代服務(wù)業(yè)的數(shù)字化升級,攜手合作伙伴為消費者和小微企業(yè)提供普惠、綠色、可持續(xù)的服務(wù),為世界帶來微小而美好的改變。

我們的技術(shù)為螞蟻億級用戶、千萬級別商戶帶來世界一流的智能化推薦與搜索體驗,為數(shù)字化生活業(yè)務(wù)的升級與持續(xù)化增長提供極其重要的數(shù)據(jù)、算法、計算的支撐。我們在幫助螞蟻金服各項業(yè)務(wù)飛速發(fā)展的同時,瞄準世界一流的AI水進行研發(fā),領(lǐng)域包括自然語言處理、智能對話技術(shù)、計算機視覺、語音識別等方面。

我們擁有全世界最大規(guī)模的金融場景,擁有世界一流的人才儲備,包括IEEE fellow、MITTR35的頂級技術(shù)專家,Google/YouTube/微軟Bing/Uber/Netflix的資深技術(shù)海歸們,本土BAT的百戰(zhàn)精英,國內(nèi)外各種大數(shù)據(jù)競賽獲大獎的佼佼者,以及阿里星A-Star頂尖應(yīng)屆校招生等等。

我們的技術(shù)優(yōu)勢

螞蟻智能引擎的核心技術(shù)包括人工智能、知識圖譜、數(shù)據(jù)智能、商業(yè)決策引擎(推薦/搜索/營銷/廣告)、計算及技術(shù)基礎(chǔ)設(shè)施等領(lǐng)域,這些能力全面貫穿業(yè)務(wù)運營,安全高效地支持海量業(yè)務(wù),服務(wù)超過十億消費者和數(shù)千萬小微經(jīng)營者,并助力眾多合作伙伴高效地提供產(chǎn)品和服務(wù)。

人工智能:我們在人工智能領(lǐng)域持續(xù)投入深耕,尤其是在機器學、自然語言處理、人機對話、共享智能和時序圖智能等關(guān)鍵方向,研發(fā)目標是進一步增強智能化水,同時降低AI應(yīng)用的落地門檻。螞蟻的各項AI技術(shù)能力也受到業(yè)界的多方肯定,多次獲得行業(yè)的重要獎項,如吳文俊人工智能科學技術(shù)一等獎,CCF科學技術(shù)獎科技進步卓越獎等。

商業(yè)決策引擎:通過分析消費者以及商家的特征,借助海量消費者和商家洞察來繪制準確的客戶畫像,結(jié)合從數(shù)據(jù)到模型端到端一體化工程臺,打造自動特征發(fā)現(xiàn),自動特征工程、模型參數(shù)調(diào)優(yōu)和自動模型訓練的能力,全面驅(qū)動構(gòu)建了螞蟻多個業(yè)界領(lǐng)先的商業(yè)決策系統(tǒng),包括智能推薦/搜索/廣告、全域營銷增長、智能投顧/理賠等。

加入我們,您將收獲:

-一流的專業(yè)能力:技術(shù)能力可以得到加速提升,將有大量做技術(shù)創(chuàng)新和突破的機會,將具備在億級別用戶、千萬級別商戶的大規(guī)模實戰(zhàn)環(huán)境下的數(shù)據(jù)、算法、工程應(yīng)用經(jīng)驗

-上佳的工作環(huán)境:我們注重團隊合作、開放、透明的工作環(huán)境,使我們的員工能取得杰出的成績。

-廣闊的成長空間:我們提供各式各樣具挑戰(zhàn)的任務(wù)、培訓學機會、職業(yè)發(fā)展道路以及晉升發(fā)展的機會

招聘崗位

算法工程師:機器學、自然語言處理、計算機視覺、運籌優(yōu)化、算法工程

研發(fā)工程師:研發(fā)工程師(C++/Java)、客戶端開發(fā)工程師、數(shù)據(jù)研發(fā)工程師、基礎(chǔ)臺研發(fā)工程師

面向?qū)ο?2021.11-2022.10期間應(yīng)屆畢業(yè)生

工作地點:杭州、上海

招聘郵箱:simeng.wsm@antgroup.com

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

關(guān)鍵詞:

[責任編輯:]

相關(guān)閱讀