
Macro Solutions
Atvejo analizė
Operacinio meistriškumo užtikrinimas mastelio keičiamoje infrastruktūroje ir išmanusis įspėjimas
Internetinių lošimų platformoms evoliucionuojant siekiant įtraukiančių, realaus laiko patirčių, atspari infrastruktūra ir nuolatinis sistemos matomumas tampa kritiškai svarbūs. Duomenų šablonas buvo pakviesta sukurti visapusišką stebėsenos ir įspėjimų sprendimą vaizdo žaidimų platformai, veikiančiai Huawei Cloud. Integravus pažangius stebėsenos įrankius ir automatizavimą, projektas užtikrino sklandžią veiklą, proaktyvų incidentų valdymą ir nenutrūkstamą naudotojų patirtį aukštos rizikos žaidimų aplinkoje.
Vizija
Sukurti visapusišką stebėsenos sprendimą, kuris realiu laiku suteiktų matomumą apie Kubernetes klasterių ir Huawei Cloud išteklių būklę bei našumą. Įgalindami klientą proaktyviais įspėjimais ir veiksmais pagrįstomis įžvalgomis, siekėme užtikrinti nenutrūkstamą paslaugų prieinamumą ir optimizuoti operacinį efektyvumą jų aukštos rizikos lošimų platformai.
Scenarijus
Sudėtinga infrastruktūra su kritiniais našumo reikalavimais
Ekosistemą sudarė dilerių klientai ir serveriai, valdomi per Kubernetes ir talpinami Huawei Cloud. Atsižvelgiant į realaus laiko lošimų pobūdį, sistemos prastovos ar našumo sumažėjimas tiesiogiai veikia naudotojų pasitenkinimą ir pajamas. Reikėjo itin pažangios stebėsenos sistemos, kuri sektų išteklių naudojimą, programų būklę ir infrastruktūros stabilumą, o operatyvinėms komandoms laiku siųstų įspėjimus per Telegram, kad būtų galima nedelsiant reaguoti.

Ką nuveikėme
Pilnas stebėsenos sprendimas su išmaniais įspėjimais
Grafana buvo panaudota kaip pagrindinė stebėsenos platforma, kuriant intuityvius, realaus laiko prietaisų skydelius, vizualizuojančius Kubernetes klasterių ir Huawei Cloud paslaugų būklę, našumą ir išteklių naudojimą.
Grafana buvo integruota su Kubernetes ir Huawei Cloud API, kad būtų galima sklandžiai rinkti duomenis ir sekti metrikas.
Sukūrėme pažangią įspėjimų sistemą Grafanoje, kuri nuolat stebi kritinius komponentus ir siunčia pranešimus aptikus anomalijas ar gedimus.
Telegram įspėjimų konfigūravimas, kad atitinkamos komandos būtų nedelsiant informuotos, kai Kubernetes programos nepraeina sveikatos patikros arba kai pagrindiniai infrastruktūros rodikliai viršija nustatytas ribas.
Įdiegėme shell skriptus, automatizuojančius suplanuotus įspėjimus, apibendrinančius svarbiausius sistemos sveikatos rodiklius, padedančius stebėtojams būti informuotiems be rankinio darbo.
Teikėme 24/7 palaikymą ir priežiūrą, užtikrindami nenutrūkstamą veikimą ir greitą incidentų sprendimą.




Pagrindinės patirties savybės
Poveikis
Pagerintas operacinis matomumas ir sumažintos prastovos
Įdiegta stebėsenos sistema leido klientui užtikrinti aukštą platformos patikimumą ir greitą reagavimą, garantuojant nenutrūkstamą lošimų patirtį galutiniams naudotojams. Realaus laiko įžvalgos ir momentiniai įspėjimai ženkliai sutrumpino incidentų aptikimo ir reagavimo laiką, sumažino prastovas ir galimus pajamų nuostolius. Sprendimas suteikė operacijų komandoms veiksmais pagrįstą informaciją, leidžiančią geriau valdyti išteklius ir nuolat tobulinti našumą Kubernetes ir Huawei Cloud aplinkose.
