小米科技攜手網(wǎng)易易盾共同構(gòu)筑“小愛同學(xué)”的知識庫

2021-06-03 14:07:13 來源：榕城網(wǎng)

網(wǎng)易易盾以更創(chuàng)新的人機(jī)協(xié)作方式,為小米“小愛同學(xué)”問答語料提供了一站式內(nèi)容安全解決方案,在過濾不良有害內(nèi)容的基礎(chǔ)上,挑選出優(yōu)質(zhì)科普問答,助力小愛同學(xué)用睿智征服用戶。

借助于API動(dòng)態(tài)賦能,小米的問答語料審核效率成功提升5倍,憑借更少的投入創(chuàng)造更多效益,成功節(jié)省大量人力成本,從而釋放新的價(jià)值。

01 生活中的AI助理

“我在。”設(shè)備里飄出一種親切爽朗的聲音。

誕生于2017年的"小愛同學(xué)"是基于人工智能技術(shù)打造的有趣靈魂,它出現(xiàn)在音響、手機(jī)、電視、手表中,其形貌與動(dòng)漫中科技感十足的機(jī)甲戰(zhàn)士一模一樣,紅發(fā)藍(lán)眼,隨時(shí)等待主人的指令,宛如一位“真人”生活助理。

用戶只要喊出“小愛同學(xué)",就能喚醒它,需要做什么事,也只管吩咐“小愛同學(xué)”。除了與主人進(jìn)行實(shí)時(shí)語言對話,“小愛同學(xué)”還能控制智能家居設(shè)備,翻譯多國語言,掃描識別各類信息,并擁有解答主人問題的本領(lǐng)。

截止2020年6月30日,搭載“小愛同學(xué)”的設(shè)備累計(jì)激活數(shù)量已經(jīng)超過2.28億臺,“小愛同學(xué)”被喚醒次數(shù)已經(jīng)超過617億次,它的月活躍用戶數(shù)已經(jīng)超過7840萬,其魅力可見一斑。

02 小愛同學(xué)的安全訓(xùn)練

面對用戶無窮的好奇心,小愛同學(xué)持續(xù)進(jìn)化,連"世界之最"、"十萬個(gè)為什么"中的不少冷門知識也能不假思索地回答。在知識問答環(huán)節(jié),小愛同學(xué)上知天文、下知地理,自然人文、物理科學(xué)。你能想到的問題,小愛同學(xué)都能接。

讓“小愛同學(xué)”更好地完成問答,需要利用大量高質(zhì)量的場景問答(Q&A)作為語料進(jìn)行訓(xùn)練。工程師們?yōu)?ldquo;小愛同學(xué)”網(wǎng)羅了來自網(wǎng)絡(luò)的豐富問答語料文本。通過APP中的“小愛訓(xùn)練計(jì)劃”,用戶也能參與“小愛同學(xué)”的教育與培養(yǎng)。

梳理問答語料是“小愛同學(xué)”訓(xùn)練前的重中之重。在這一過程中,小米不僅要平衡量、速度與精準(zhǔn)度,還需要應(yīng)對變化帶來的挑戰(zhàn)。

首先,隨著“小愛同學(xué)”快速聚集人氣,擺在小米面前的是龐大的問答語料庫,光是上述內(nèi)容就達(dá)到千萬量級,依靠傳統(tǒng)人工審核方式來排除不良有害內(nèi)容,對知識進(jìn)行事實(shí)核準(zhǔn),不僅是因?yàn)槿肆Τ杀締栴},而且工作量巨大,無法快速回應(yīng)“小米同學(xué)”強(qiáng)烈的求知欲。

一直以來,小米的自有審核團(tuán)隊(duì)使用內(nèi)部審核后臺進(jìn)行審核,假設(shè)單人每日審核上千條,必須預(yù)留較長時(shí)間以消化千萬量級的問答語料。由于問答語料更新速度遠(yuǎn)快于審核速度,導(dǎo)致了歷史數(shù)據(jù)的存留。

與此同時(shí),不良有害內(nèi)容跟隨時(shí)事熱點(diǎn)發(fā)生變形。最近發(fā)生了哪些重大輿情事件?如何迎接動(dòng)態(tài)的內(nèi)容安全挑戰(zhàn)?如何及時(shí)適應(yīng)政府監(jiān)管政策的更新?

基于這些疑問,小米深知內(nèi)容安全風(fēng)險(xiǎn)無法一勞永逸地避免,只能動(dòng)態(tài)管理,為用戶創(chuàng)造一種安全、可靠的問答體驗(yàn)。

入選知識庫的問答語料將會成為“小愛同學(xué)”的觀點(diǎn),且做知識科普之用,必須不偏不倚、全面客觀。問答語料的審核不只局限于避免“犯錯(cuò)”,更在于讓小愛同學(xué)身藏“智慧”,用睿智的解答留住用戶。

03 人機(jī)融合開啟內(nèi)容審核的新紀(jì)元

成功收集問答語料之后,小米即刻行動(dòng),計(jì)劃尋求一套標(biāo)準(zhǔn)化的數(shù)字內(nèi)容風(fēng)控機(jī)制,要求高效審核、應(yīng)變即時(shí)、成本可控、排除問答語料中的色情、低俗、廣告、涉政、暴恐、謾罵、灌水等不良有害內(nèi)容,挑選出優(yōu)質(zhì)科普問答,并對通過的內(nèi)容標(biāo)注標(biāo)識。

為了達(dá)成這一目標(biāo),網(wǎng)易易盾為小米提供了人機(jī)協(xié)作的一站式內(nèi)容安全解決方案,人工審核團(tuán)隊(duì)對機(jī)審后的問答語料文本進(jìn)行二次標(biāo)注與質(zhì)量檢測在過濾不良有害內(nèi)容的同時(shí),挑選出優(yōu)質(zhì)科普問答,推動(dòng)審核效率提升5倍,節(jié)省大量人力成本。

AI機(jī)器審核,輔助審核員工作

借助于易盾的智能機(jī)器審核系統(tǒng),小米成功讓機(jī)器替代一部分審核工作,自動(dòng)化將問答語料文本按違規(guī)類型進(jìn)行標(biāo)紅與分類的預(yù)處理,讓不良有害內(nèi)容自動(dòng)現(xiàn)行。智能機(jī)器審核系統(tǒng),基于深度學(xué)習(xí)及大規(guī)模樣本訓(xùn)練,對文本進(jìn)行語義分析,包括色情、低俗、廣告、涉政、暴恐、謾罵、灌水等大類。

易盾定期對模型進(jìn)行優(yōu)化迭代,通過收集誤漏判樣本,重新訓(xùn)練模型。平均每個(gè)模型1到2個(gè)月更新一次。融合敏感詞庫、文本語義分析模型、垃圾內(nèi)容特征庫、輿論監(jiān)控、最新監(jiān)管政策跟蹤、前端的排查等多個(gè)管理環(huán)節(jié),一套機(jī)制下來,計(jì)算機(jī)既能“察言”,又能“觀意”,讓機(jī)器學(xué)習(xí)現(xiàn)有變形詞案例,進(jìn)而總結(jié)規(guī)律,舉一反三。

專業(yè)人審團(tuán)隊(duì),滿足特殊審核需求

一條條問答語料文本經(jīng)過機(jī)器審核后,交由人工審核團(tuán)隊(duì)進(jìn)行二次標(biāo)記,在機(jī)器無法進(jìn)行決策時(shí)進(jìn)行干預(yù),并糾正決策,進(jìn)一步滿足小米對問答語料的定制化審核需求:

○ 特殊策略:小米提出了甄別涉政內(nèi)容的正負(fù)面與法律法規(guī)合規(guī)的需求。以《廣告法》合規(guī)為例,易盾助力小米遵守相關(guān)法規(guī)要求,在有關(guān)醫(yī)療、保健、養(yǎng)生的知識問答中,剔除帶有“推薦”嫌疑的問答。

○ 所見即所得:通過“問答組合過檢”機(jī)制,人工審核團(tuán)隊(duì)助力小米排除答非所問、缺乏依據(jù)的低質(zhì)科普語料,讓“小愛同學(xué)”的科普更客觀真實(shí)、更 “人性化”。

○ 質(zhì)檢管理:為了進(jìn)一步查漏補(bǔ)缺,小米團(tuán)隊(duì)在易盾自研的“審核平臺”按比例設(shè)置“內(nèi)容抽檢”,排查人機(jī)審核后的每一條問題數(shù)據(jù),及時(shí)糾正誤判,反哺人工審核標(biāo)準(zhǔn)。

在人機(jī)協(xié)作機(jī)制大規(guī)模部署過程中,易盾持續(xù)在人員培訓(xùn)和技能提升項(xiàng)目上的投入,搭建了一支經(jīng)驗(yàn)豐富的審核團(tuán)隊(duì),緊跟輿情熱點(diǎn),為業(yè)務(wù)線提供更多切實(shí)可行的建議。

易盾審核平臺,高度協(xié)作的審核流程

在合作中,小米通過API接入易盾“審核平臺”系統(tǒng),得以多線處理海量數(shù)字內(nèi)容,動(dòng)態(tài)開展審核數(shù)據(jù)查詢、質(zhì)檢任務(wù)下發(fā)等操作,借力系統(tǒng)實(shí)時(shí)獲取對審核效果的全面洞察。

相比于采用傳統(tǒng)的審核平臺,“易盾審核平臺”致力于為AI和審核員分配任務(wù),在實(shí)操中不斷與客戶需求進(jìn)行磨合,設(shè)計(jì)了過去難以實(shí)現(xiàn)的審核交互操作。例如,“自動(dòng)跳審”、“高量詞工具”、“鍵盤快捷鍵”、“全屏審核”、“多人審核”等交互設(shè)計(jì),助力審核員擺脫繁復(fù)的操作,成功提升人效。

04 使用效果