大集群場景特點數據規(guī)模大:監(jiān)控對象targets多,數千萬時序數據time-series,,單Prometheus負載非常高,。
當series數據超過300萬時,Prometheus內存增長較為明顯,,需要使用較大內存的機器來運行,。壓測過程中,我們使用了工具去生成預期數目的series,,工具生成的series每個label的長度及值的長度都較小,,固定為10個字符左右。我們的目的是觀察相對負載變化,,實際生產中由于label長度不同,,服務發(fā)現(xiàn)機制(比如Pod頻繁重啟)的消耗不同,相同的series數目所消耗的負載會比壓測中高不少,。目前Argus有好幾個集群的采集端Prometheus消耗內存在30G以上,,這會導致查詢效率下降,嚴重的會導致OOM,,有的大集群內存消耗達幾百G,。 Argus基于Zabbix的IT運維監(jiān)控平臺。業(yè)務智能化運維監(jiān)控管理方案
IAAS層的監(jiān)控從IAAS層的組成這個維度來說,,可以分為一個個獨一的資源對象來分類監(jiān)控,,針對每一類對象可以分別從狀態(tài)、性能,、容量,、質量這幾個維度描述,將不同的數據綜合為開發(fā)與運維的統(tǒng)一視角,。監(jiān)控告警產品的建設是任重而道遠的過程,,坑也非常多。要考慮多種因素,,技術后臺能力只是其中的一部分,。
例如在DevOps的文化下,,需要從更高的層面來統(tǒng)一視角(開發(fā)視角&運維視角)避免將監(jiān)控做成"開發(fā)的監(jiān)控”與"運維的監(jiān)控”。也需要更多的考慮監(jiān)控產品使用的雙態(tài)(用戶態(tài)&系統(tǒng)態(tài))與不同的權限(行業(yè)屬性)如何分類設計,。 系統(tǒng)智能運維監(jiān)控管理軟件Argus運維監(jiān)控多通道,, 多用戶的事件靈活推送機制。
國產信創(chuàng)設備,、軟件監(jiān)測管理之路面臨這兩大問題與挑戰(zhàn),。挑戰(zhàn)一:信創(chuàng)產業(yè)帶來IT標準的重構,很多公司的系統(tǒng)軟硬件需要符合信創(chuàng)標準,,而這時的產品還處于可用階段,,在這期間會產生許多問題,為保障業(yè)務運維的安全,,亟需一個可以兼容信創(chuàng)體系和支持國產化環(huán)境部署的監(jiān)測軟件對其進行監(jiān)測管理,。挑戰(zhàn)二:大部分企業(yè)信創(chuàng)設備特用機房有多個品牌的國產化設備,需要一個系統(tǒng)既能監(jiān)測國外設備,,又能監(jiān)測國外設備,,而很多企業(yè),特別是國外的監(jiān)測軟件,,不支持監(jiān)測信創(chuàng)的設備與信創(chuàng)的軟件,。
監(jiān)控是一項非常重要的運維工作,尤其對于一些比較重要的業(yè)務,,如果沒有監(jiān)控,,就只能等著用戶反饋。常見的開源監(jiān)控軟件有 Cacti,、Nagios,、Zabbix、Smokeping 和 Open-falcon 等,。Cacti 和 Smokeping 傾向于基礎監(jiān)控,,成圖非常漂亮。Cacti,、Nagios 和 Zabbix 服務端監(jiān)控中心需要 PHP 環(huán)境支持,,其中 Zabbix 和 Cacti 需要安裝 MySQL 作為存儲數據庫。Nagios 不用存儲歷史數據,,注重服務或監(jiān)控項的狀態(tài),。Zabbix 會獲取服務或監(jiān)控項目的數據,把數據記錄到數據庫中,,可以成圖查看,。Argus是基于Zabbix的IT運維監(jiān)控平臺,打造完整的Iaas&Paas兼容感知解耦Zabbix版本限制,生態(tài)無縫兼容 Argus單一業(yè)務環(huán)境下可以支持多 組采集單元(多zabbix-server),,實現(xiàn)真正意義上的分布式采集,。
信創(chuàng)終端運維服務、數據中心運維服務,、業(yè)務系統(tǒng)運維服務,、適配遷移服務、安全運維服務等信創(chuàng)運維服務,。通過信創(chuàng)運維服務體系,、信創(chuàng)安全管理體系、信創(chuàng)一體化服務保障平臺,、信創(chuàng)現(xiàn)場和遠程運維服務管理平臺,,規(guī)范信創(chuàng)運維服務過程,提升信創(chuàng)運維服務保障能力,,為客戶創(chuàng)建可視可控的運維環(huán)境,,保障信創(chuàng)終端、數據中心和業(yè)務應用系統(tǒng)的可靠,、高效、持續(xù),、安全運行,。
多種信創(chuàng)技術路線并存:信創(chuàng)運維技術難度高,缺乏成熟運維技術和經驗參考,,信創(chuàng)運維技術培訓不健全,。信創(chuàng)適配遷移困難:缺乏應用系統(tǒng)適配改造經驗,應用遷移涉及重構與重編譯,,工作量大,,遷移工具不成熟。信創(chuàng)生態(tài)環(huán)境不成熟:信創(chuàng)產品性能,、可靠性,、品質、成熟度參差不齊,,生態(tài)環(huán)境不成熟,,產業(yè)鏈生態(tài)整合能力弱。信創(chuàng)運維管理復雜:信創(chuàng)環(huán)境和非信創(chuàng)環(huán)境并存,,運維管理復雜,。與國外成熟產品差距大,運維難度高,,要求較高的運維技術能力,。 運維、監(jiān)控系統(tǒng)的本質是通過發(fā)現(xiàn)故障、解決故障,、預防故障來為了保障業(yè)務的穩(wěn)定,。機房統(tǒng)一運維監(jiān)控管理軟件
Argus運維監(jiān)控網絡設備配置文件自動備份。業(yè)務智能化運維監(jiān)控管理方案
對于服務器的監(jiān)控同樣也是從狀態(tài),、性能與容量這幾個維度入手,。雖然SNMP也可以用于服務器監(jiān)控,但相對于agent主動上報指標與數據會少很多,。
服務器的狀態(tài)監(jiān)控主要包含服務器是否ping的通,、agent上報是否超時與電源運行狀態(tài)等等。對于性能與容量這兩類維度,,主要依賴當前OS的數據捕獲,,一般來說對于服務器監(jiān)控來說在通用場景下主要關注CPU、內存,、流量與包量這四個指標即可,,但是別的指標也建議盡量捕獲。
單個監(jiān)控對象的數據豐富了會有如下好處:避免對象的監(jiān)控盲點不同的監(jiān)控數據點可以部分對應出該服務器所承載的業(yè)務特性指標,,例如存儲類業(yè)務也會關注disk_total_read,、svctm_time_max、await_time_max等等系統(tǒng)指標生產的數據足夠豐富能夠催生出更加豐富的運維數據消費場景,。服務器監(jiān)控相對是很標準的監(jiān)控模型,,針對于物理服務器與虛擬機都有共性指標。這部分主要做到采集的數據豐富與上報的準確性(算法準確),。 業(yè)務智能化運維監(jiān)控管理方案
上海觀縱科技有限公司辦公設施齊全,,辦公環(huán)境優(yōu)越,為員工打造良好的辦公環(huán)境,。專業(yè)的團隊大多數員工都有多年工作經驗,,熟悉行業(yè)專業(yè)知識技能,致力于發(fā)展webfunny,walkingfunny,argus的品牌,。公司不僅*提供專業(yè)的一般項目:技術服務,、技術開發(fā)、技術咨詢,、技術交流,、技術轉讓、技術推廣;軟件開發(fā);人工智能基礎軟件開發(fā);人工智能應用軟件開發(fā);數據處理服務;信息技術咨詢服務;信息系統(tǒng)集成服務:信息系統(tǒng)運行維護服務;計算機系統(tǒng)服務;軟件銷售;計算機軟硬件及輔助設備批發(fā);計算機軟硬件及輔助設備零售;電子產品銷售;通信設備銷售;通訊設備銷售;咨詢策劃服務;市場調查(不含涉外調查);廣告制作;廣告發(fā)布;廣告設計,、代理;會議及展覽服務;貨物進出口,。(除依法須經批準的項目外,憑營業(yè)執(zhí)照依法自主開展經營活動) 許可項目:建筑智能化系統(tǒng)設計;建設工程施工;網絡文化經營;互聯(lián)網信息服務,。(依法須經批準的項目,,經相關部門批準后方可開展經營活動,具體經營項目以相關部門批準文件或許可證件為準),同時還建立了完善的售后服務體系,,為客戶提供良好的產品和服務,。自公司成立以來,一直秉承“以質量求生存,,以信譽求發(fā)展”的經營理念,,始終堅持以客戶的需求和滿意為重點,為客戶提供良好的webfunny前端監(jiān)控,,webfunny前端埋點,,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控,,從而使公司不斷發(fā)展壯大,。