Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS,。
環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,,既有虛擬主機(jī),又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,,維護(hù)成本高
無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集
事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢不同的 prometheus 采集節(jié)點(diǎn),,并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶組,,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 觀縱將強(qiáng)大的Argus IT運(yùn)維監(jiān)控做到數(shù)據(jù)化、工具化,、可視化,。安徽運(yùn)維監(jiān)控共同合作
基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP,、Agent,、ICMP、SSH,、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集,;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù),;使用數(shù)據(jù)庫(kù)是必備技能,。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤(pán)分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,,方面我們確定故障所在,;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP,、java_php開(kāi)發(fā)一個(gè)Web界面也可以),;監(jiān)控報(bào)警:電話報(bào)警、郵件報(bào)警,、微信報(bào)警,、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以),;報(bào)警處理:當(dāng)接收到報(bào)警,,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急,、重要不緊急,,等,。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理,。青海運(yùn)維監(jiān)控售后服務(wù)在運(yùn)維監(jiān)控中怎么樣才算是故障,,要報(bào)警呢?比如CPU的負(fù)載到底多少算高,,用戶態(tài),、內(nèi)核態(tài)分別跑多少算高,?
國(guó)產(chǎn)信創(chuàng)設(shè)備,、軟件監(jiān)測(cè)管理之路面臨這兩大問(wèn)題與挑戰(zhàn)。挑戰(zhàn)一:信創(chuàng)產(chǎn)業(yè)帶來(lái)IT標(biāo)準(zhǔn)的重構(gòu),,很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標(biāo)準(zhǔn),,而這時(shí)的產(chǎn)品還處于可用階段,在這期間會(huì)產(chǎn)生許多問(wèn)題,,為保障業(yè)務(wù)運(yùn)維的安全,,亟需一個(gè)可以兼容信創(chuàng)體系和支持國(guó)產(chǎn)化環(huán)境部署的監(jiān)測(cè)軟件對(duì)其進(jìn)行監(jiān)測(cè)管理。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設(shè)備特用機(jī)房有多個(gè)品牌的國(guó)產(chǎn)化設(shè)備,,需要一個(gè)系統(tǒng)既能監(jiān)測(cè)國(guó)外設(shè)備,,又能監(jiān)測(cè)國(guó)外設(shè)備,而很多企業(yè),,特別是國(guó)外的監(jiān)測(cè)軟件,,不支持監(jiān)測(cè)信創(chuàng)的設(shè)備與信創(chuàng)的軟件。
Argus運(yùn)維監(jiān)控中硬件監(jiān)控包括:可以通過(guò)IPMI對(duì)硬件詳細(xì)情況進(jìn)行監(jiān)控,,并對(duì)CPU,、內(nèi)存、磁盤(pán),、溫度,、風(fēng)扇、電壓等設(shè)置報(bào)警設(shè)置報(bào)警閾值(自行對(duì)監(jiān)控報(bào)警內(nèi)容編寫(xiě)合理的報(bào)警范圍)IPMI工具無(wú)法獲取到硬件的狀態(tài),,可以借助MegaCli工具探測(cè)Raid磁盤(pán)隊(duì)列狀態(tài)zabbix提供IPMI監(jiān)控模板:ZabbixIPMIInterface,。同時(shí)也能夠?qū)崟r(shí)采集到服務(wù)器的硬件報(bào)錯(cuò)日志,代替管理員的日常機(jī)房巡檢工作,,使管理員實(shí)時(shí)了解到服務(wù)器底層硬件的運(yùn)行情況,。帶外方式不通過(guò)操作系統(tǒng),即使系統(tǒng)關(guān)機(jī)的狀態(tài)下仍可監(jiān)控服務(wù)器的基本硬件健康狀況 想吃透運(yùn)維監(jiān)控系統(tǒng),,就這一篇足夠了,!
IAAS層的監(jiān)控從IAAS層的組成這個(gè)維度來(lái)說(shuō),可以分為一個(gè)個(gè)獨(dú)一的資源對(duì)象來(lái)分類(lèi)監(jiān)控,,針對(duì)每一類(lèi)對(duì)象可以分別從狀態(tài),、性能,、容量、質(zhì)量這幾個(gè)維度描述,,將不同的數(shù)據(jù)綜合為開(kāi)發(fā)與運(yùn)維的統(tǒng)一視角,。監(jiān)控告警產(chǎn)品的建設(shè)是任重而道遠(yuǎn)的過(guò)程,坑也非常多,。要考慮多種因素,,技術(shù)后臺(tái)能力只是其中的一部分。
例如在DevOps的文化下,,需要從更高的層面來(lái)統(tǒng)一視角(開(kāi)發(fā)視角&運(yùn)維視角)避免將監(jiān)控做成"開(kāi)發(fā)的監(jiān)控”與"運(yùn)維的監(jiān)控”,。也需要更多的考慮監(jiān)控產(chǎn)品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權(quán)限(行業(yè)屬性)如何分類(lèi)設(shè)計(jì)。 Argus運(yùn)維監(jiān)控系統(tǒng)撥測(cè)分析模塊,,從端口可用性等多個(gè)指標(biāo),、維度進(jìn)行撥測(cè)分析。哪些運(yùn)維監(jiān)控答疑解惑
Argus運(yùn)維監(jiān)控網(wǎng)絡(luò)設(shè)備配置文件自動(dòng)備份,。安徽運(yùn)維監(jiān)控共同合作
通常來(lái)說(shuō)企業(yè)級(jí)的監(jiān)控系統(tǒng)應(yīng)該是支持多種采集方式與多種采集對(duì)象的,,例如可以用Agent主動(dòng)上報(bào)、也要能支持SNMP,、Xflow,、IPMI等多種協(xié)議。
而針對(duì)于IaaS層具體支持的采集對(duì)象應(yīng)該不少于物理服務(wù)器,、操作系統(tǒng)指標(biāo)(linux&windows),、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)內(nèi)會(huì)話信息,、物理專(zhuān)線,、網(wǎng)絡(luò)出口等等。
不同的采集對(duì)象采用的采集方式也是不同的,,例如:服務(wù)器系統(tǒng)指標(biāo)可以用Agent上報(bào),、網(wǎng)絡(luò)設(shè)備狀態(tài)、流量,、包量可以用SNMP采集等,,具體采用哪種采集方式要根據(jù)業(yè)務(wù)場(chǎng)景與所需場(chǎng)景的數(shù)據(jù)量與類(lèi)別而定??椩仆瑯右仓С侄喾N采集方式與多種采集對(duì)象,。
在大數(shù)據(jù)的時(shí)代背景下,數(shù)據(jù)采集這部分建議針對(duì)某一個(gè)具體的對(duì)象盡量采集的大而全,,可能有些數(shù)據(jù)采集上來(lái)暫時(shí)沒(méi)有直接用途,,但是隨著數(shù)據(jù)量級(jí)與數(shù)據(jù)間關(guān)聯(lián)性的變化,對(duì)大量的原始數(shù)據(jù),,清洗,、分析,、加工后便能催生更多的數(shù)據(jù)消費(fèi)場(chǎng)景。 安徽運(yùn)維監(jiān)控共同合作
上海觀縱科技有限公司依托可靠的品質(zhì),,旗下品牌webfunny,walkingfunny,argus以高質(zhì)量的服務(wù)獲得廣大受眾的青睞,。是具有一定實(shí)力的傳媒、廣電企業(yè)之一,,主要提供webfunny前端監(jiān)控,,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域內(nèi)的產(chǎn)品或服務(wù),。我們?cè)诎l(fā)展業(yè)務(wù)的同時(shí),進(jìn)一步推動(dòng)了品牌價(jià)值完善,。隨著業(yè)務(wù)能力的增長(zhǎng),,以及品牌價(jià)值的提升,,也逐漸形成傳媒,、廣電綜合一體化能力。上海觀縱科技有限公司業(yè)務(wù)范圍涉及一般項(xiàng)目:技術(shù)服務(wù),、技術(shù)開(kāi)發(fā),、技術(shù)咨詢、技術(shù)交流,、技術(shù)轉(zhuǎn)讓,、技術(shù)推廣;軟件開(kāi)發(fā);人工智能基礎(chǔ)軟件開(kāi)發(fā);人工智能應(yīng)用軟件開(kāi)發(fā);數(shù)據(jù)處理服務(wù);信息技術(shù)咨詢服務(wù);信息系統(tǒng)集成服務(wù):信息系統(tǒng)運(yùn)行維護(hù)服務(wù);計(jì)算機(jī)系統(tǒng)服務(wù);軟件銷(xiāo)售;計(jì)算機(jī)軟硬件及輔助設(shè)備批發(fā);計(jì)算機(jī)軟硬件及輔助設(shè)備零售;電子產(chǎn)品銷(xiāo)售;通信設(shè)備銷(xiāo)售;通訊設(shè)備銷(xiāo)售;咨詢策劃服務(wù);市場(chǎng)調(diào)查(不含涉外調(diào)查);廣告制作;廣告發(fā)布;廣告設(shè)計(jì)、代理;會(huì)議及展覽服務(wù);貨物進(jìn)出口,。(除依法須經(jīng)批準(zhǔn)的項(xiàng)目外,,憑營(yíng)業(yè)執(zhí)照依法自主開(kāi)展經(jīng)營(yíng)活動(dòng)) 許可項(xiàng)目:建筑智能化系統(tǒng)設(shè)計(jì);建設(shè)工程施工;網(wǎng)絡(luò)文化經(jīng)營(yíng);互聯(lián)網(wǎng)信息服務(wù)。(依法須經(jīng)批準(zhǔn)的項(xiàng)目,,經(jīng)相關(guān)部門(mén)批準(zhǔn)后方可開(kāi)展經(jīng)營(yíng)活動(dòng),,具體經(jīng)營(yíng)項(xiàng)目以相關(guān)部門(mén)批準(zhǔn)文件或許可證件為準(zhǔn))等多個(gè)環(huán)節(jié),在國(guó)內(nèi)傳媒,、廣電行業(yè)擁有綜合優(yōu)勢(shì),。在webfunny前端監(jiān)控,webfunny前端埋點(diǎn),,全鏈路應(yīng)用性能監(jiān)控,,Argus-IT運(yùn)維監(jiān)控等領(lǐng)域完成了眾多可靠項(xiàng)目。