業務背景:
客戶是中國某大型金融集團,由于業務的快速轉型,其云產品的數據和內容在快速增長,運維對象和運維內容的變化也越來越快,這時減少故障發生,保障平臺平穩運行就成為了一個迫切的需求。自動化運營平臺這是這個需求下的產物,其目的是成為運維的統一入口,提高運維的效率與質量,實現需求、故障的提前預測與一鍵式自動操作等功能。
解決方案:
佰鈞成從三個維度確定這個運維平臺的開發理念。
首先,是基于ITIL的流程管理。由于該云產品承擔了該客戶一部分企業基礎架構的角色,所以為了滿足金融企業的高合規特征,云產品的運維要嚴格遵守ITIL流程,包括按照公司的制度規范要求實施變更、事件、問題、業務持續計劃以及容量管理;針對云平臺特有的工作內容,制定管理規范和文檔;對運維人員進行思維模式、行為習慣和能力的培訓和考核。
其次是用DevOps的方法論去管理這個運維產品的開發,即在產品開發階段即引入運維參與,確保產品的可靠性與可運維性。
最后是引入SRE運維平臺系統,確保平臺的可靠性,其中心思想有兩點:從軟件或架構層面分析問題解決問題,避免引入人的工作或影響;所有必需的操作都要有工具支撐,避免隨著底層操作對象資源的增加而增加工作人力。
客戶收益:
2 對接科技運營制度與規范,制定了云產品內部的流程制度,保證了故障發生時的快速響應與多團隊聯動;
2 通過用戶自助服務,提高了用戶對于云主機的控制能力,同時大幅減少了主機部分的交付與運維成本;
2 通過集中運維平臺,自動化了一大批原本手工才能完成的工作,以少數人力支持了快速發展的業務需求;
2 貫徹執行DevOps思想,在產品設計開發階段即考慮可運維能力,同時全員參與運維又提高了產品人員對穩定運維的重視和運維自動化水平的提高。
業務背景:
客戶是國內某大型ICT服務提供商,自身擁有體量巨大的云平臺和云服務,由于登入的用戶和數據的增多,傳統的“發現問題,解決問題”思路已經不能適應新環境下的業務需求,而需要一個多指標、高精度、自動化、實時的監控平臺來確保云平臺的穩定運行。
解決方案:
佰鈞成從“基礎設施-云資源-中間件-應用業務”,實現可用性、性能、容量等維度實現全棧監控管理;適配公有云、私有云、內網等云平臺,面向云化業務的底層基礎設施、OS、站點、集群、云服務器CPU利用率、內存利用率、云數據庫、磁盤利用率等各項云服務器負載和性能指標,支持多種告警策略配置,自定義告警閥值,通過多層主動監控,支持管理人員查看云服務的監控和運行狀況,保障云平臺和云服務的高效穩定運行,為海量運維和資源數字化運營提供了準確實時的監控數據。
平臺架構:
客戶收益:
覆蓋云平臺網絡、計算、存儲、應用等多方面,實現對數十萬對象、數千萬指標的自動化監控,對平臺全棧多用戶(IT管理者、數據中心管理員、網絡管理員……)開發特定端口,在厘定平臺監控內容和職責的基礎上,約束異常狀態和告警顯示值,自動化的將對應職責分派到對應端口,快速有效的在每個環節進行監控,避免風險。