江蘇長(zhǎng)田信息科技有限公司是一家專注智慧校園建設(shè)領(lǐng)域的服務(wù)型企業(yè),打造覆蓋 “教、學(xué)、考、評(píng)、管” 全場(chǎng)景的智慧校園一體化解決方案,構(gòu)建集智慧教學(xué)、智慧管理、智慧服務(wù)、智慧安防于一體的校園數(shù)字生態(tài),打通校園各系統(tǒng)數(shù)據(jù)壁壘,實(shí)現(xiàn)資源共享、業(yè)務(wù)協(xié)同與數(shù)據(jù)互通。
一、測(cè)試策劃與準(zhǔn)備階段
1.1 明確測(cè)試范圍
確定本次要驗(yàn)證自愈能力的對(duì)象:
應(yīng)用服務(wù):統(tǒng)一門戶、教務(wù)、學(xué)工、一卡通、考勤、數(shù)據(jù)中臺(tái)
中間件:應(yīng)用服務(wù)器、消息隊(duì)列、緩存、API 網(wǎng)關(guān)
數(shù)據(jù)庫(kù):主庫(kù)、備庫(kù)、集群
網(wǎng)絡(luò):核心交換機(jī)、匯聚、AC、AP、鏈路、VLAN
硬件:服務(wù)器、存儲(chǔ)、PDU、UPS
終端:門禁、消費(fèi)機(jī)、攝像頭、班牌
業(yè)務(wù)流程:登錄、選課、消費(fèi)、考勤、推送、數(shù)據(jù)同步
1.2 制定測(cè)試通過(guò)準(zhǔn)則(量化)
服務(wù)自愈:進(jìn)程異常終止后 ≤3 分鐘自動(dòng)恢復(fù)
數(shù)據(jù)庫(kù)主從切換:≤5 分鐘,業(yè)務(wù)無(wú)感知
網(wǎng)絡(luò)故障自愈:≤1 分鐘鏈路恢復(fù),會(huì)話不中斷
數(shù)據(jù)一致性:故障前后數(shù)據(jù)一致,無(wú)丟失、無(wú)重復(fù)、無(wú)臟數(shù)據(jù)
業(yè)務(wù)連續(xù)性:核心功能可用,無(wú)需人工干預(yù)
自愈成功率:≥99%
1.3 環(huán)境準(zhǔn)備
確認(rèn)測(cè)試環(huán)境(試運(yùn)行 / 仿真環(huán)境),嚴(yán)禁直接在生產(chǎn)環(huán)境破壞性測(cè)試
完成全量數(shù)據(jù)備份
部署監(jiān)控:服務(wù)狀態(tài)、CPU / 內(nèi)存 / 磁盤 / 連接數(shù) / 接口成功率
準(zhǔn)備工具:
進(jìn)程管理工具(taskkill、kill、systemd)
網(wǎng)絡(luò)模擬工具(Fiddler、交換機(jī)端口控制)
數(shù)據(jù)庫(kù)客戶端
PDU/UPS 斷電模擬
門禁 / 消費(fèi)測(cè)試卡
瀏覽器、APP、監(jiān)控平臺(tái)
1.4 人員分工
測(cè)試負(fù)責(zé)人:統(tǒng)籌、記錄、判定
系統(tǒng)工程師:模擬服務(wù) / 數(shù)據(jù)庫(kù) / 硬件故障
網(wǎng)絡(luò)工程師:模擬斷網(wǎng)、閃斷、鏈路切換
業(yè)務(wù)驗(yàn)證人員:教師端 / 學(xué)生端 / 管理端操作驗(yàn)證
監(jiān)控人員:實(shí)時(shí)觀察指標(biāo)、日志、告警
二、基線采集階段(測(cè)試前必須做)
檢查所有系統(tǒng)正常運(yùn)行,無(wú)告警、無(wú)報(bào)錯(cuò)
記錄基線指標(biāo):
各服務(wù)進(jìn)程狀態(tài)
數(shù)據(jù)庫(kù)連接數(shù)、主從狀態(tài)
網(wǎng)絡(luò)延遲、丟包率
接口響應(yīng)時(shí)間
業(yè)務(wù)功能可用情況
執(zhí)行一次完整業(yè)務(wù)流程并記錄結(jié)果:
登錄→選課→查詢成績(jī)→考勤打卡→消費(fèi)→門禁通行
確認(rèn)監(jiān)控、日志系統(tǒng)正常,可追溯自愈行為
三、分場(chǎng)景故障模擬與自愈驗(yàn)證階段
每個(gè)場(chǎng)景嚴(yán)格按:故障注入 → 持續(xù)監(jiān)控 → 等待自愈 → 業(yè)務(wù)驗(yàn)證 → 數(shù)據(jù)核對(duì) → 記錄結(jié)果
場(chǎng)景 1:應(yīng)用服務(wù)進(jìn)程異常崩潰
手動(dòng) kill 核心應(yīng)用服務(wù)進(jìn)程(如統(tǒng)一門戶、教務(wù)服務(wù))
監(jiān)控觀察:
是否自動(dòng)重啟、重新注冊(cè)
重啟耗時(shí)
有無(wú)報(bào)錯(cuò)、死循環(huán)
業(yè)務(wù)驗(yàn)證:
頁(yè)面能否正常打開
接口能否正常調(diào)用
登錄、查詢是否正常
數(shù)據(jù)驗(yàn)證:故障前后數(shù)據(jù)一致
記錄:自愈時(shí)間、是否成功、是否人工干預(yù)
場(chǎng)景 2:中間件 / 緩存異常自愈
關(guān)閉 Redis、RabbitMQ 等關(guān)鍵中間件
觀察應(yīng)用是否熔斷、降級(jí)、自動(dòng)重連
恢復(fù)中間件后,系統(tǒng)是否自動(dòng)恢復(fù)業(yè)務(wù)
驗(yàn)證消息不丟失、緩存數(shù)據(jù)一致
場(chǎng)景 3:數(shù)據(jù)庫(kù)主庫(kù)故障
關(guān)閉主庫(kù)服務(wù)或斷開主庫(kù)網(wǎng)絡(luò)
觀察:
是否自動(dòng)觸發(fā)主從切換
VIP 是否漂移
應(yīng)用是否自動(dòng)連接新主庫(kù)
業(yè)務(wù)驗(yàn)證:讀寫正常、無(wú)卡頓、無(wú)報(bào)錯(cuò)
數(shù)據(jù)驗(yàn)證:主從數(shù)據(jù)一致,無(wú)丟失
場(chǎng)景 4:網(wǎng)絡(luò)鏈路中斷 & 閃斷
拔掉核心交換機(jī)上聯(lián)線 / 關(guān)閉端口
觀察:
冗余鏈路是否自動(dòng)切換
漫游、會(huì)話保持是否正常
模擬弱網(wǎng)、高延遲、頻繁閃斷
驗(yàn)證:
重連后無(wú)需重新登錄
提交不重復(fù)、不丟單
門禁 / 消費(fèi)斷網(wǎng)后可離線,聯(lián)網(wǎng)自動(dòng)補(bǔ)傳
場(chǎng)景 5:?jiǎn)闻_(tái)服務(wù)器宕機(jī)
關(guān)閉集群中一臺(tái)應(yīng)用服務(wù)器
觀察負(fù)載均衡器是否自動(dòng)剔除節(jié)點(diǎn)
流量自動(dòng)切換到其他節(jié)點(diǎn)
業(yè)務(wù)全程不中斷、用戶無(wú)感知
場(chǎng)景 6:服務(wù)器突然斷電
通過(guò) PDU 遠(yuǎn)程斷電再上電
觀察:
服務(wù)器上電后系統(tǒng)自動(dòng)啟動(dòng)
服務(wù)自啟動(dòng)、數(shù)據(jù)庫(kù)自動(dòng)拉起
無(wú)數(shù)據(jù)損壞、無(wú)事務(wù)丟失
業(yè)務(wù)全功能驗(yàn)證
場(chǎng)景 7:磁盤滿 / 資源耗盡
模擬磁盤空間
觀察系統(tǒng)是否告警、自動(dòng)清理日志
釋放空間后,服務(wù)是否自動(dòng)恢復(fù)
不宕機(jī)、不崩潰、不卡死
場(chǎng)景 8:高并發(fā)過(guò)載自愈
使用壓測(cè)工具模擬選課 / 迎新高峰
觀察系統(tǒng)是否限流、降級(jí)、自我保護(hù)
停止壓測(cè)后,系統(tǒng)是否快速恢復(fù)正常
無(wú)雪崩、無(wú)死鎖、無(wú)長(zhǎng)期阻塞
場(chǎng)景 9:第三方接口超時(shí) / 異常
模擬一卡通、門禁、第三方平臺(tái)接口超時(shí)
觀察應(yīng)用是否熔斷、重試、降級(jí)
第三方恢復(fù)后,系統(tǒng)自動(dòng)恢復(fù)
不影響核心平臺(tái)運(yùn)行
場(chǎng)景 10:定時(shí)任務(wù) / 同步任務(wù)失敗
手動(dòng)中斷夜間數(shù)據(jù)同步任務(wù)
觀察是否自動(dòng)重試、補(bǔ)跑
次日數(shù)據(jù)完整、無(wú)缺失
四、自愈效果綜合判定
對(duì)每個(gè)場(chǎng)景統(tǒng)一判定三要素:
是否自動(dòng)恢復(fù):無(wú)需人工登錄、啟動(dòng)、執(zhí)行命令
恢復(fù)時(shí)長(zhǎng)是否達(dá)標(biāo):在準(zhǔn)則時(shí)間內(nèi)
數(shù)據(jù)與業(yè)務(wù)是否正常:無(wú)丟、無(wú)重、無(wú)錯(cuò)、可用
判定等級(jí):
通過(guò):全部滿足
基本通過(guò):輕微超時(shí)但可自動(dòng)恢復(fù)
不通過(guò):需人工干預(yù) / 數(shù)據(jù)異常 / 業(yè)務(wù)不可用
本文章來(lái)自:江蘇長(zhǎng)田信息科技有限公司
編輯人:任女士
聯(lián)系電話:18912980027
VX:TRENDY_001
轉(zhuǎn)發(fā)請(qǐng)注明
