大型活動(dòng)容量支撐速增10+倍,B站容量管理下的資源活化
2023-06-25 20:09:50 來(lái)源:dbaplus社群
集群/資源池/Node容量水位缺乏可視化,穩(wěn)定性難以保證
隨著云原生和K8S普及,若沒(méi)有很好的容量管理,我們就無(wú)法感知整個(gè)集群、整個(gè)資源池以及Node容量的水位變化,也無(wú)法得知是否有必要采購(gòu)資源,無(wú)法察覺(jué)整體的資源風(fēng)險(xiǎn)。
容量變更根因難以追溯有時(shí)我們?cè)谧鲆恍┌l(fā)版或迭代時(shí),會(huì)發(fā)現(xiàn)原本充足的資源突然出現(xiàn)緊缺。此時(shí),若要查探容量何時(shí)變化或追溯變化的根因,存在一定難度,也比較復(fù)雜。
(資料圖片僅供參考)
HPA覆蓋率低,業(yè)務(wù)穩(wěn)定性難以保障B站有很多活動(dòng)和突發(fā)流量,但由于HPA的覆蓋率比較低,業(yè)務(wù)容量彈性往往難以保障。
2)降本增效大背景資源使用率低,迫切需要提高整體使用率資源碎片化較為嚴(yán)重,資源無(wú)法得到充分利用平臺(tái)缺乏統(tǒng)一的資源協(xié)調(diào)能力由于將物理資源分散到各個(gè)部門(mén),如直播業(yè)務(wù)有獨(dú)立的直播物理資源池,電商有專屬物理資源,碎片化程度極高,所以平臺(tái)統(tǒng)一協(xié)調(diào)資源的能力難免存在欠缺。
資源占用大頭難以快速發(fā)現(xiàn),治理困難降本增效遵循二八原則,即20%的業(yè)務(wù)可能占了80%的資源。我們需要快速如何找出20%的業(yè)務(wù),并推動(dòng)其進(jìn)行治理,這部分業(yè)務(wù)得到治理后往往收益較大。
2、不同部門(mén)的關(guān)注點(diǎn)研發(fā)/部門(mén):要有資源去做資源的擴(kuò)容發(fā)布、藍(lán)綠發(fā)布和回滾。希望部門(mén)的成本不能過(guò)高,避免資源浪費(fèi)。SRE:服務(wù)的穩(wěn)定性。在保證穩(wěn)定性的情況下,聚焦服務(wù)資源的使用率,以達(dá)到降本增效的目的。平臺(tái):需要統(tǒng)籌資源buffer,控制資源的超賣(mài)率,保證底層容量的穩(wěn)定,從而實(shí)現(xiàn)降本增效的目標(biāo)。成本部門(mén):資源使用率,賬單、預(yù)算和成本。3、容量管理面臨的挑戰(zhàn)內(nèi)部因素復(fù)雜,變動(dòng)頻繁包括代碼變更、配置變更、壓測(cè)活動(dòng)、多活切量、定時(shí)任務(wù)和緩存過(guò)期等,都可能導(dǎo)致容量模型發(fā)生改變。
外部場(chǎng)景多樣,難以預(yù)知B站活動(dòng)比較多,運(yùn)營(yíng)也會(huì)進(jìn)行不定時(shí)的推廣,一些熱門(mén)事件或話題都有可能導(dǎo)致容量的突增。
鏈路瓶頸點(diǎn)多,難以提前發(fā)現(xiàn)無(wú)論是東西向流量還是南北向流量,整個(gè)鏈路比較長(zhǎng),因此上游服務(wù)、下游服務(wù)和中間件都可能遇到瓶頸。
應(yīng)急依賴人工,恢復(fù)時(shí)間長(zhǎng)以上問(wèn)題發(fā)生時(shí),如果依靠人工應(yīng)急,上游擴(kuò)容可能會(huì)將下游直接打垮,容易引發(fā)二次故障。
4、容量管理的整體思路整個(gè)容量體系的設(shè)計(jì),從下到上分為幾大部分,包括基礎(chǔ)容量、彈性資源、合池和配額管理。
首先是基礎(chǔ)容量,它包含平臺(tái)關(guān)注的集群容量、資源池容量、Node容量,以及應(yīng)用畫(huà)像的相關(guān)數(shù)據(jù)。雖然我們將服務(wù)本身發(fā)版涉及到應(yīng)用資源的容量視作基礎(chǔ)容量,同時(shí)業(yè)務(wù)也會(huì)關(guān)注。
在這些基礎(chǔ)容量之上,我們構(gòu)建了一些彈性資源,包括VPA和HPA,還有我們的合池和配額管理。同時(shí)我們構(gòu)建了整個(gè)容量可視化的一些頁(yè)面,用于幫助我們的業(yè)務(wù)和平臺(tái)更好地將自己的資源數(shù)據(jù)可視化,做一些資源的管理。
二、容量管理之降本增效1、降本增效通用手段2、具體方案介紹1)彈性伸縮-VPA(Vertical Pod Autoscaler)針對(duì)每一個(gè)服務(wù),我們都有服務(wù)的軟限和硬限,這是K8S的基本概念。應(yīng)用CPU Used即應(yīng)用的CPU的真實(shí)使用量。B站所有的硬限和軟限都是通過(guò)我們的發(fā)布平臺(tái)caster去指定,它們可能是業(yè)務(wù)基于經(jīng)驗(yàn)設(shè)置的,設(shè)置的值不一定合理。隨著業(yè)務(wù)和服務(wù)越來(lái)越多,這種不合理性就會(huì)越發(fā)明顯,導(dǎo)致分配率非常高,但整體的使用率卻不高。
如何解決這個(gè)問(wèn)題?
我們認(rèn)為,研發(fā)部門(mén)無(wú)需關(guān)注軟限多少,只需關(guān)注需要多少資源。基于應(yīng)用的真實(shí)CPU使用量和應(yīng)用畫(huà)像,評(píng)估它的服務(wù)等級(jí)、是否多活等指標(biāo),以此判斷應(yīng)動(dòng)態(tài)分配多少軟限。這種方法能提高整個(gè)服務(wù)的部署密度,提高整體資源池的使用率。
進(jìn)行大型活動(dòng)時(shí),如果分配率已經(jīng)很高,可以應(yīng)用VPA的策略,把非核心服務(wù)(如 L2/L3的后臺(tái)服務(wù))用來(lái)降級(jí),調(diào)低軟限,給核心服務(wù)騰讓資源。
我們通過(guò)VPA管理平臺(tái)下發(fā)VPA策略,使其經(jīng)過(guò)VPA-API組件。這個(gè)組件是一個(gè)中間代理,主要實(shí)現(xiàn)對(duì)K8S集群中VPA Generator對(duì)象的增刪改查操作,負(fù)責(zé)匯總收集VPA相關(guān)的可觀測(cè)數(shù)據(jù)。
VPA Generator主要負(fù)責(zé)拆解先前下發(fā)的具有相同畫(huà)像的規(guī)則,如果下發(fā)一個(gè)L0等級(jí)的多活規(guī)則,它會(huì)拆解并創(chuàng)建很多對(duì)應(yīng)VPA對(duì)象,最后通過(guò)VPA Recommender從監(jiān)控系統(tǒng)中采集一些對(duì)應(yīng)的應(yīng)用資源指標(biāo),計(jì)算推薦值即合適的request值,并通過(guò)VPA Updater組件調(diào)整Pod的資源。
發(fā)布服務(wù)時(shí)也可能涉及到資源改變,VPA Webhook會(huì)監(jiān)聽(tīng)類似事件,再動(dòng)態(tài)調(diào)整Pod值。
①策略管理包括VPA指標(biāo)管理、模板管理和預(yù)估/對(duì)照組。
VPA的指標(biāo)管理:基于不同的指標(biāo)例如CPU的使用量max、P99等做一些調(diào)整。VPA的模板管理:基于我們的一些應(yīng)用畫(huà)像,例如根據(jù)L0服務(wù)或L2服務(wù)等不同的服務(wù)畫(huà)像做一些不同的模板和管理。VPA的策略預(yù)估與對(duì)照:分清哪種指標(biāo)或哪部分對(duì)我們更優(yōu),因此我們會(huì)對(duì)不同的策略進(jìn)行策略預(yù)估和對(duì)照,以便擇優(yōu)。②數(shù)據(jù)運(yùn)營(yíng)包括VPA的覆蓋大盤(pán)、VPA執(zhí)行記錄和VPA策略分析。
VPA覆蓋大盤(pán):分析整個(gè)資源池的覆蓋率和執(zhí)行記錄,記錄服務(wù)軟限的調(diào)整幅度。VPA策略分析:調(diào)整后,通過(guò)可視化界面觀察是否還存在問(wèn)題。③黑名單整個(gè)服務(wù)的使用量一般會(huì)在活動(dòng)時(shí)劇增,或某個(gè)服務(wù)上線了新功能,進(jìn)行壓測(cè),都會(huì)導(dǎo)致整個(gè)容量數(shù)據(jù)變化。所以我們制作了黑名單機(jī)制,進(jìn)行VPA策略避讓,保證在非預(yù)期的情況下,不會(huì)對(duì)這些服務(wù)進(jìn)行相關(guān)調(diào)整。
④預(yù)警即使執(zhí)行了VPA,通常也有可能出現(xiàn)不符合預(yù)期的情況,所以我們制作了失敗率、覆蓋率和冗余度的策略預(yù)警。如果本次調(diào)整有多處不符合預(yù)期,提前預(yù)警將遞送給SRE和平臺(tái)方,然后進(jìn)行治理和排障。
2)PaaS合池我們的漫畫(huà)業(yè)務(wù)、直播業(yè)務(wù)和OGV業(yè)務(wù)都是獨(dú)立的物理資源池,如下圖所示,番劇的CPU分配率很高,而漫畫(huà)跟直播的分配率相比較低。如果番劇需要資源去完成一些事情,漫畫(huà)和直播往往不能滿足,所以需要采購(gòu)獨(dú)立的預(yù)算,或額外申請(qǐng)?jiān)粕腺Y源。
所以我們認(rèn)為業(yè)務(wù)不應(yīng)關(guān)注底層資源,從而完成了PaaS的合池。合池后,業(yè)務(wù)更關(guān)注邏輯的配額管理,即整個(gè)配額的使用率。如果使用率過(guò)高或出現(xiàn)問(wèn)題,業(yè)務(wù)可以解決,底層資源則由平臺(tái)統(tǒng)一管控,進(jìn)而平臺(tái)的統(tǒng)一管控能力提升。
合池具體如何落地?可分為以下幾步:
標(biāo)準(zhǔn)化治理基于歷史原因,不同的資源池使用不同策略,甚至配置、內(nèi)核版本也各不相同,所以涉及到標(biāo)準(zhǔn)化的操作。首先,去除特殊約束,有些服務(wù)可能綁定了特殊的物理機(jī)發(fā)布。其次,不能配置nolimit相關(guān)的服務(wù),因?yàn)楹铣赝戤吅笕绻硞€(gè)服務(wù)壓力比較大,且配得不合理,往往會(huì)增加物理機(jī)的壓力,影響其他業(yè)務(wù)。同時(shí),我們還進(jìn)行了去cpuset化、統(tǒng)一操作系統(tǒng)內(nèi)核和日志規(guī)范化的操作。
平臺(tái)支撐由于合池完畢后資源也不能無(wú)限使用,所以要基于合池后的不同組織進(jìn)行邏輯配額管理,再整個(gè)大資源池覆蓋VPA。
老板的支持合池涉及到不同的部門(mén),這一方面最重要的是需要老板的支持。自上而下進(jìn)行的合池較依賴協(xié)同合作。
3)配額管理容量平臺(tái)提供了配額管理相關(guān)的策略下發(fā)能力,同時(shí)對(duì)接內(nèi)部的CMDB業(yè)務(wù)樹(shù)?;诮M織業(yè)務(wù)的關(guān)系,可以設(shè)置不同的組織需要的資源數(shù)量。若使用超額,會(huì)聯(lián)動(dòng)發(fā)布平臺(tái),進(jìn)而控制整體資源。如果資源不夠,可能就無(wú)法發(fā)布或擴(kuò)容。
降本增效的收益
成本:通過(guò)這些手段,我們實(shí)現(xiàn)了22年H1在線業(yè)務(wù)PaaS物理機(jī)的0新增,同時(shí)整個(gè)S12的活動(dòng)保障實(shí)現(xiàn)了0采購(gòu)。平臺(tái):統(tǒng)一管控能力極大提升同時(shí),快速支撐大型活動(dòng)方面,活動(dòng)數(shù)量攀升了不止10倍。以往進(jìn)行大型活動(dòng)支撐時(shí),直播資源不足往往需要采購(gòu)預(yù)算,周期漫長(zhǎng)。目前我們可以通過(guò)協(xié)調(diào)資源和統(tǒng)籌調(diào)度盡快交付資源,時(shí)間也從原來(lái)的一個(gè)半月縮短到現(xiàn)在的一個(gè)小時(shí)或兩個(gè)小時(shí)。PaaS的整體使用率獲得較大提升。業(yè)務(wù):首先,對(duì)于小業(yè)務(wù)而言,由于本身資源池的資源較少,物理機(jī)不多,所以宕機(jī)對(duì)它的影響較大。合池后資源池的規(guī)模較大,服務(wù)相對(duì)分散,所以無(wú)論掛一臺(tái)機(jī)器還是兩臺(tái)機(jī)器,對(duì)小業(yè)務(wù)的影響會(huì)大大降低。第二,業(yè)務(wù)整體的容量需求得到快速滿足。資源緊張時(shí),它也可以進(jìn)行臨時(shí)的藍(lán)綠發(fā)布或者HPA超賣(mài)。三、容量管理之穩(wěn)定性1、在線業(yè)務(wù)的典型特征2、彈性伸縮-HPA(Horizontal Pod Autoscaler)HPA的設(shè)計(jì)理念與VPA相似,包括策略管理、彈性預(yù)檢、可觀測(cè)和預(yù)警。
策略管理因?yàn)镠PA基于CPU使用率、內(nèi)存使用率或QPS之類等指標(biāo)進(jìn)行管理,有些基于不同的應(yīng)用畫(huà)像進(jìn)行管理。例如,針對(duì)L0和L1的服務(wù),它們的CPU使用率若達(dá)到30%就應(yīng)該擴(kuò)容,至于非多活的服務(wù),達(dá)到擴(kuò)容標(biāo)準(zhǔn)的最小值則可能稍高。
彈性預(yù)檢配備HPA后也并非萬(wàn)無(wú)一失,因?yàn)镠PA做彈性會(huì)涉及到下游及一些基礎(chǔ)的技術(shù)組件,比如數(shù)據(jù)庫(kù)會(huì)涉及到一些連接池,需要考慮它是否會(huì)滿,是否會(huì)導(dǎo)致其他風(fēng)險(xiǎn)等。所以我們進(jìn)行一些彈性預(yù)檢的相關(guān)措施,包括臨近值預(yù)檢和容量風(fēng)控等能力。
可觀測(cè)我們會(huì)觀測(cè)異常記錄和覆蓋率,比如對(duì)L0服務(wù)的覆蓋率如何,是否所有L0的服務(wù)都覆蓋了HPA,HPA被觸發(fā)時(shí)HPA的彈性質(zhì)量如何等問(wèn)題進(jìn)行觀測(cè)。
預(yù)警我們?cè)O(shè)計(jì)了擴(kuò)縮容的失敗預(yù)警和HPA失效的預(yù)警,如果觸發(fā)一些HPA擴(kuò)容或縮容的事件,研發(fā)部門(mén)會(huì)收到相關(guān)時(shí)間通知,告知因服務(wù)壓力或流量導(dǎo)致HPA發(fā)生變化。
1)HPA可視化①HPA管控包括HPA 的批量開(kāi)啟和禁用。保障大型活動(dòng)時(shí),往往會(huì)希望容量是穩(wěn)態(tài)的,再基于穩(wěn)態(tài)的容量進(jìn)行壓測(cè),此時(shí)需要先關(guān)閉HPA,在低峰谷區(qū)進(jìn)行壓測(cè)。在資源不變的情況下,壓測(cè)穩(wěn)態(tài)能夠支撐的量的數(shù)值。后續(xù)可能分為幾輪壓測(cè),最后一輪壓測(cè)會(huì)開(kāi)啟全部HPA,觀察我們最終能支持的量,基于這些量預(yù)估容估。除此之外,還可能涉及HPA的增刪改查能力。
②可視化主要是HPA覆蓋率,要確定整個(gè)HPA在不同區(qū)域和不同等級(jí)覆蓋的應(yīng)用數(shù)及覆蓋率,對(duì)比指標(biāo)數(shù)據(jù)和彈性實(shí)例。
彈性實(shí)例對(duì)比表明當(dāng)前服務(wù)的實(shí)例數(shù)量,并展示一個(gè)關(guān)鍵數(shù)據(jù)。這個(gè)數(shù)據(jù)幫助我們基于HPA配置策略,確定彈性實(shí)例的最終數(shù)量。彈性實(shí)例受限于HPA的最大值控制。如果純粹通過(guò)配置策略計(jì)算擴(kuò)容的實(shí)例數(shù),那么能夠通過(guò)HPA擴(kuò)至15個(gè)。但如果無(wú)最大限制,可能會(huì)直接擴(kuò)至20個(gè)。因此,借助可視化能直接看出HPA的設(shè)置是否合理,了解整個(gè)HPA變化的實(shí)際趨勢(shì)。
2)HPA并非可以無(wú)限擴(kuò)容HPA受限于連接池或下游服務(wù)有限的承載能力,因此我們排查了整個(gè)過(guò)程需要使用消息隊(duì)列、Tidb、泰山KV、緩存以及中間件等相關(guān)組件。整體排查后,發(fā)現(xiàn)MySQL風(fēng)險(xiǎn)較大 ,因?yàn)榇蠖鄶?shù)組件基本是集中式的代理,例如Tidb和泰山KV都是集中式的proxy部署,無(wú)連接池相關(guān)風(fēng)險(xiǎn)。緩存使用的redis和mc往往具有較大支持連接數(shù),所以風(fēng)險(xiǎn)相對(duì)可控。MySQL 則不同,因此我們?cè)趶椥灶A(yù)檢這方面增加對(duì)MySQL和連接池的預(yù)檢。如果整個(gè)擴(kuò)容導(dǎo)致MySql水位變高,就會(huì)進(jìn)行相關(guān)提示。服務(wù)進(jìn)行HPA擴(kuò)容時(shí),可能會(huì)導(dǎo)致下游的服務(wù)壓力、下游雪崩,導(dǎo)致一些底層的中間件出現(xiàn)一定的問(wèn)題或壓力。
解決這個(gè)問(wèn)題的整體思路:
一是HPA預(yù)檢,二是基于全鏈路的彈性,三是對(duì)超出預(yù)期的流量做一些組件的限流。
3)容量巡檢容量巡檢的作用在于,如果某些服務(wù)有風(fēng)險(xiǎn),能夠?qū)崿F(xiàn)相關(guān)數(shù)據(jù)可視化。
針對(duì)不同的場(chǎng)景和不同的角色,關(guān)注點(diǎn)也不同。
業(yè)務(wù)更關(guān)注整個(gè)業(yè)務(wù)維度,例如使用率如何、有無(wú)風(fēng)險(xiǎn)應(yīng)用等應(yīng)用維度,能盡快找到這些列表,進(jìn)而快速完成治理。配額管理方面,則包括整個(gè)配額的使用率和配額可調(diào)度的實(shí)例數(shù)量,幫助快速判斷配額風(fēng)險(xiǎn)。
平臺(tái)方則更關(guān)注資源池的分配率,如可調(diào)度的實(shí)例數(shù)峰值、資源使用率、資源池是否為單節(jié)點(diǎn),還會(huì)關(guān)注整個(gè)VPA的調(diào)整失敗率和冗余度。基于平臺(tái)方的關(guān)注事項(xiàng),我們制作了風(fēng)險(xiǎn)的巡檢大盤(pán),用以確定哪些資源有風(fēng)險(xiǎn)、哪些資源比較空閑、哪些資源急需治理等情況。
4)超載保護(hù)即使有了這些保障,也無(wú)法保證萬(wàn)無(wú)一失。因?yàn)榱髁客话l(fā)很常見(jiàn),如佩洛西事件等熱點(diǎn)事件導(dǎo)致B站的直播流量激增、超出預(yù)期,所以這方面需要依靠彈性資源。另一比較重要的手段則是依靠技術(shù)組件限流熔斷和降解。
限流目前限流主要包括分布式的全局限流和基于http、grpc、qps的限流,同時(shí)因?yàn)槊總€(gè)業(yè)務(wù)方基本上都會(huì)健全賬號(hào),所以我們會(huì)對(duì)一些比較核心的業(yè)務(wù)做基于caller即調(diào)用方的限流,從而避免因某一個(gè)業(yè)務(wù)的流量突發(fā)而導(dǎo)致整個(gè)賬號(hào)體系出現(xiàn)問(wèn)題。
另一方面,我們基于BBR進(jìn)行動(dòng)態(tài)限流,基于cpu使用率、成功qps和響應(yīng)rt等限流,同時(shí)聯(lián)動(dòng)移動(dòng)端并進(jìn)行流控。如果服務(wù)端超出承受極限,我們會(huì)給移動(dòng)端下發(fā)策略,驅(qū)使移動(dòng)端做流控的控制,避免用戶重試導(dǎo)致雪崩。
熔斷包括通過(guò)滑動(dòng)窗口計(jì)算成功失敗率以及熔斷后需要進(jìn)行的操作。
降級(jí)基于多活進(jìn)行跨可能區(qū)的降級(jí),業(yè)務(wù)對(duì)這個(gè)操作無(wú)感,這也是我們做多活的一個(gè)好處。而對(duì)于Node SSR相關(guān)的降級(jí),支持降級(jí)至靜態(tài)頁(yè),業(yè)務(wù)也無(wú)感,但耗時(shí)相對(duì)長(zhǎng)些。至于數(shù)據(jù)類的降級(jí),假若AI方面的算法服務(wù)出了問(wèn)題,我們可以進(jìn)行兜底數(shù)據(jù)展示,但用戶方的內(nèi)容質(zhì)量就有所下降。弱依賴降級(jí)時(shí),部分服務(wù)會(huì)直接降級(jí),不展示非核心數(shù)據(jù)。
四、容量管理之可視化運(yùn)營(yíng)1、基礎(chǔ)容量我們更關(guān)注集群、資源池、Node和應(yīng)用維度的數(shù)據(jù),所以制作一些可視化圖表,以便更快查看整個(gè)集群資源池和應(yīng)用在這段時(shí)間內(nèi)的變化趨勢(shì)。
以資源池和Node為例,由于要控制超賣(mài),所以要控制資源池和Node的容量水位和超賣(mài)率(Node也有部分熱點(diǎn))。
有些會(huì)觸發(fā)二次調(diào)度,把上面的部分服務(wù)調(diào)用到非熱點(diǎn)的服務(wù)中。應(yīng)用則包括應(yīng)用的資源使用量、使用率、實(shí)例數(shù)和單實(shí)例容器數(shù),它的容器包括多少容器數(shù),例如有一個(gè)Pod,它可能包含一個(gè)主容器和相關(guān)伴生容器,伴生有可能導(dǎo)致容量變化。我們基于這些數(shù)據(jù)制作趨勢(shì)圖,并在監(jiān)控上保存應(yīng)用的相關(guān)容量數(shù)據(jù)。與監(jiān)控相比,因?yàn)閿?shù)據(jù)點(diǎn)更加分散,所以保存期限更長(zhǎng),目前已保存了超過(guò)兩年的容量數(shù)據(jù)。
2、業(yè)務(wù)組織容量業(yè)務(wù)痛點(diǎn)
在進(jìn)行降本增效時(shí),如何快速找到資源占用的大頭并優(yōu)先治理;哪些業(yè)務(wù)的實(shí)用率較低使用不合理;是哪個(gè)業(yè)務(wù)擴(kuò)容導(dǎo)致成本突增容量治理的效果如何,哪些業(yè)務(wù)的治理不符合預(yù)期解決方案
根據(jù)以上痛點(diǎn),我們?cè)O(shè)計(jì)了組織業(yè)務(wù)容量,基于內(nèi)部的CMDB即組織業(yè)務(wù)數(shù),通過(guò)聚合應(yīng)用指標(biāo),從下往上逐漸遞歸,算出整個(gè)組織和業(yè)務(wù)的容量,呈現(xiàn)歷史容量的變化趨勢(shì)。例如,總?cè)萘渴?萬(wàn)盒,1萬(wàn)盒屬于整個(gè)直播業(yè)務(wù),而直播的分支包含直播的房間、直播營(yíng)收相關(guān)業(yè)務(wù)。
列出每一項(xiàng)所占的資源,就能清晰地感知哪些業(yè)務(wù)是資源占比的大頭和占比總量。通過(guò)圖片上的紅線和紅點(diǎn),就能分析它的使用量與使用合理性。下圖右方則呈現(xiàn)了整個(gè)容量的變化趨勢(shì),這樣就能快速定位不合理的板塊。同時(shí),我們支持?jǐn)?shù)據(jù)的一鍵下鉆,作用同上。
3、容量事件資源治理時(shí),往往會(huì)遇到資源變少變空或不能發(fā)版的問(wèn)題。以往查詢這些問(wèn)題根源,我們可能要翻遍各個(gè)平臺(tái)。例如,查看是否有人在發(fā)布平臺(tái)進(jìn)行擴(kuò)容或縮容操作,部分服務(wù)是否因壓力過(guò)大觸發(fā)HPA,或是否有人在管理平臺(tái)中臨時(shí)添加了機(jī)器導(dǎo)致容量變大。
由于平臺(tái)數(shù)量多,業(yè)務(wù)SRE排查相當(dāng)困難,所以我們做了容量事件相關(guān)的平臺(tái),以消費(fèi)包括發(fā)布平臺(tái)、HPA以及Node管理等整個(gè)變更平臺(tái)的變更事件。通過(guò)變更事件,把數(shù)據(jù)消費(fèi)到容量事件平臺(tái)上,統(tǒng)籌觀察這段時(shí)間業(yè)務(wù)的容量變更,因此容量事件是我們快速定位容量變化根因的重要途徑。這樣做的收益很顯著,以往容量發(fā)生變化,業(yè)務(wù)必須聯(lián)系SRE和平臺(tái)。而現(xiàn)在無(wú)需這樣操作,就能快速感知容量變化的根因,處理效率提升。
4、容量周報(bào)容量周報(bào)分為部門(mén)周報(bào)和內(nèi)部周報(bào),業(yè)務(wù)部門(mén)更關(guān)注整體資源的用量以及資源使用率的變化。觀察這些數(shù)據(jù)能更好地感知容量效果。除了降本增效以外,業(yè)務(wù)還關(guān)注穩(wěn)定性,希望得知具體的風(fēng)險(xiǎn)應(yīng)用有哪些,以及一周內(nèi)哪些應(yīng)用有怎樣的容量變化。
對(duì)于內(nèi)部來(lái)說(shuō),SRE和平臺(tái)比較關(guān)注哪些部門(mén)的自營(yíng)資源占量較大而使用率較低,這些部門(mén)對(duì)我們來(lái)說(shuō)往往是能用于降本的組織,我們需要提前與他們溝通,所以就需要內(nèi)部周報(bào)幫助完成。同時(shí)我們也列出了部門(mén)資源使用率的排名,排名越靠前說(shuō)明治理得越好,反之亦然。
張鶴
嗶哩嗶哩
基礎(chǔ)架構(gòu)部資深SRE
2020年加入B站,先后負(fù)責(zé)社區(qū)/直播/OGV/推廣搜相關(guān)的SRE工作,深度參與多活,活動(dòng)保障,混沌工程,容量治理相關(guān)的建設(shè),主導(dǎo)容量管理平臺(tái),混沌平臺(tái)的架構(gòu)設(shè)計(jì)和落地,負(fù)責(zé)B站S賽、跨年晚會(huì)、拜年祭等相關(guān)活動(dòng)的基礎(chǔ)架構(gòu)保障工作,目前主要負(fù)責(zé)推廣搜業(yè)務(wù)的穩(wěn)定性建設(shè)。
關(guān)鍵詞:
相關(guān)閱讀
- (2023-06-25)大型活動(dòng)容量支撐速增10+倍,B站容量管理下的資源活化
- (2023-06-25)幻夢(mèng)之曉_dnf幻夢(mèng)次元怎么玩 今日要聞
- (2023-06-25)豆的種類圖片_豆的種類|每日頭條
- (2023-06-25)全球最新:結(jié)婚80年是什么婚姻(結(jié)婚80年是什么婚)
- (2023-06-25)環(huán)球最新:宣武醫(yī)院教授談腦機(jī)接口:今天看有點(diǎn)邪乎 明天看可能很平常
- (2023-06-25)每日精選:打車(chē)難不難?多部門(mén)在虹橋樞紐聯(lián)合開(kāi)展專項(xiàng)行動(dòng)
- (2023-06-25)世界微頭條丨雜施而不遜則壞亂而不修是什么意思呀(雜施而不遜則壞亂而不修是什么意思)
- (2023-06-25)端午假期草原鐵路發(fā)送旅客39.8萬(wàn)人次
- (2023-06-25)環(huán)球通訊!40人的自助餐只有60只蝦 婚宴賓客抱怨菜不夠吃
- (2023-06-25)每日聚焦:多家公司聯(lián)合為法國(guó)國(guó)防創(chuàng)新署開(kāi)發(fā)遙控彈藥
- (2023-06-25)第33個(gè)全國(guó)“土地日”主場(chǎng)活動(dòng)在江蘇南京舉行 速讀
- (2023-06-25)夸克App提示考生:填報(bào)志愿要充分理解招錄政策、專業(yè)名詞和填報(bào)技巧
- (2023-06-25)微信QQ實(shí)現(xiàn)雙向賬號(hào)互通 可以微信登錄QQ了
- (2023-06-25)@鄭州人,關(guān)系千家萬(wàn)戶,一定要知道的燃?xì)馐褂冒踩R(shí)!
- (2023-06-25)百世快運(yùn)在多地舉行畢業(yè)寄活動(dòng) 當(dāng)前觀察
- (2023-06-25)康養(yǎng)之旅 關(guān)愛(ài)職工健康 焦點(diǎn)簡(jiǎn)訊
- (2023-06-25)臺(tái)媒:堅(jiān)持“九二共識(shí)”是兩岸溝通關(guān)鍵
- (2023-06-25)研討會(huì)|元宇宙、人類世與奇點(diǎn)哲學(xué)
- (2023-06-25)節(jié)約集約用地、嚴(yán)守耕地紅線,北京一中院發(fā)布涉耕地保護(hù)典型案例|環(huán)球熱點(diǎn)
- (2023-06-25)熱點(diǎn)|為什么人們喜歡……15歲女生答復(fù)旦教授上熱搜!-全球今日訊
- (2023-06-25)環(huán)球速讀:銀川燒烤店爆炸事故原因公布 4名犯罪嫌疑人被刑拘
- (2023-06-25)胥江45輪怒沖最高限價(jià)!斜塘33輪打平地價(jià)紀(jì)錄!剛剛蘇州又爆發(fā)一場(chǎng)土拍大戰(zhàn)
- (2023-06-25)華亭煤“鏈” 轉(zhuǎn)型向優(yōu)|世界焦點(diǎn)
- (2023-06-25)每日熱議!美國(guó)蒙大拿州發(fā)生一起火車(chē)脫軌事故
- (2023-06-25)全球信息:北京2023年普通本科錄取控制分?jǐn)?shù)線為448分
- (2023-06-25)天天日?qǐng)?bào)丨“就在甘肅 職等你來(lái)” 甘肅省百名人社局局長(zhǎng)直播帶崗暖心行動(dòng)第二季啟動(dòng)
- (2023-06-25)【環(huán)球播資訊】燕郊樓市名片,三湘海尚實(shí)景社區(qū)盛大開(kāi)放
- (2023-06-25)全球今熱點(diǎn):難得涼爽!今日份日出美美噠,南風(fēng)減弱,雷雨云團(tuán)稀疏,可以放心上班了,但晾曬還是要小心……
- (2023-06-25)民生證券:給予祥鑫科技買(mǎi)入評(píng)級(jí) 環(huán)球播資訊
- (2023-06-25)天孚通信:公司無(wú)直接AI產(chǎn)品收入|全球百事通