緊急故障應急措施應以快速恢復客戶使用為目標,第一時間將客戶使用狀態恢復到正常,避免或盡量減少因故障而導致的損失。
1、啟動應急流程
在【問題管理】流程中,當服務主管收到服務臺人員或助理提交的《運維工作單》,并判斷該問題屬于重大事故時,則啟動應急處理流程。重大事故包括以下幾種情況:
l 大范圍系統中斷
l 區域性系統崩潰
l 關鍵業務中斷
l 大范圍病毒爆發
l 系統嚴重破壞
l 數據嚴重破壞
根據重大事故的緊急程度和狀態不同,服務主管可采取以下方式啟動應急流程:

u 當緊急事件發生時,投標人的運行人員首先要進行故障分析,確定故障的范圍和程度,確認為緊急故障的,在查找原因和解決問題的同時,要同步將故障解決情況通報給部門領導、及向客服中說明事件發生的狀況。如需其他部門協助的,需要請求相關部門共同盡快解決故障。
u 對于網絡中斷事件,投標人的運行人員首先要判斷中斷原因,如果是局域網本地設備或線路造成的,依網絡運行處理流程優先快速處理;如果是電信服務提供商造成的,要立即聯絡電信技術部門解決問題。
u 對于系統故障事件,投標人的運行人員首先要啟用備用系統,再判斷故障類型:硬件損壞、操作系統故障、軟件故障。硬件損壞的情況,首先向服務器供應商報障;操作系統故障多數情況都和硬件故障同時出現,處理方式相同;軟件故障如果是由購買的軟件造成的,立即向軟件廠商尋求技術支持;如果是公司自行開發的軟件,立即向相關人員聯系并排除故障。。
u 對于自然災害性事件,運行管理人員要盡可能將設備轉移到安全地帶,將損失降低到最少。
u 對于電力中斷事件,由于機房多采用UPS防止斷電帶來的系統停機現象,在UPS還能供應電力期間恢復供電,對系統使用不會有影響;但遇到特殊情況導致供電部門在短期內不能恢復供電時,如有備用發電設備要啟用備用發電設備供電,否則要關閉所有設備,確保突然斷電造成設備損壞。
u 在故障排除之后,運行管理人員要填寫故障記錄,如果故障是由于項目實施中存在的隱患造成的問題,具體操作請參見上層文件《系統維護管理指引》。故障記錄匯總到“系統運行故障記錄表”,重大事故由故障處理人填寫故障報告。
2、成立應急小組
《啟動應急流程申請單》獲批準后(包括口頭批準),由信息主觀部門負責組建應急小組。應急小組由多方人員組成,例如信息中心代表、運維部代表、服務主管、客戶代表、供應商代表以及其他第三方人員等。
應急小組對發生的重大事故進行討論分析并制定應急處理方案。
運維小組會根據實際人員需求情況從公司本部調配足夠人員加入到應急小組。
運維小組會根據實際需求情況從公司本部調配足夠的資金以保障事件處理經費需求。
3、應急處理過程
運維服務商根據應急小組制定的應急處理方案具體實施應急處理活動,并將實施過程和結果記錄在《應急處理過程記錄》中。涉及到客戶現場服務的應取得客戶的簽字確認。
應急處理實施過程中涉及需要協調配合的工作由服務主管填寫《資源申請單》,說明需要獲得的資源、需要協調配合的工作等,經應急小組審批通過后由相關人員代表配合實施。
應急處理實施過程中涉及需要采購的,由服務主管填寫《資源申請單》,說明需要采購的產品名稱、型號/規格/功能、廠商/供應商、費用等?!顿Y源申請單》經應急小組審批通過后由運維工程師實施采購,并將采購過程和結果記錄在《資源申請單》中,應急小組對采購結果進行確認。
應急處理實施過程中涉及需要變更的,由服務主管填寫《變更請求表》,說明變更內容、變更原因、變更方案等,經應急小組批準后直接由運維工程師根據《變更請求表》中的變更方案實施變更,并將變更過程和結果記錄在《變更日志》中。
所有應急處理活動均應記錄在《應急處理過程記錄》中。
具體涉及到網絡緊急故障處置,我們以恢復使用為第一目標。
在確認設備故障情況下,將第一時間采用備機備件恢復網絡功能;
在鏈路故障情況下,啟動備用鏈路進行通訊恢復,并積極配合鏈路運營商恢復鏈路;
4、應急處理結果評估
應急處理過程完成后,服務主管向應急小組提交應急處理過程相關表單,包括《啟動應急流程申請單》、《應急處理過程記錄》、《資源申請單》、《變更請求表》、《變更日志》等。應急小組對應急處理結果進行評估和確認,并在《應急流程評估單》中填寫評估意見。
如果應急小組評估意見為達到要求(即問題得到解決并恢復服務),則應急流程結束。
如果應急小組評估意見為未達到要求,則由應急小組討論分析原因,根據分析結果可采取以下措施:
l 如果需要繼續進行應急處理,則由應急小組提出應急處理方案,進行應急處理過程;
l 如果不需要繼續進行應急處理:
ü 如果有新的問題產生,則由服務主管填寫《運維工作單》,轉【問題管理】流程處理;
ü 如果有新的變更需求,則由服務主管填寫《變更請求單》,轉【變更管理】流程處理;
ü 否則應急流程結束。
應急流程結束時,由服務主管在《運維工作單》中記錄應急處理結果及關聯表單編號。配置管理員對應急處理結果進行檢查,登記新的配置項或更改后的配置項。
5、統計和報告
由助理每月或每季度對應急流程情況進行統計,形成《應急流程管理報告》,并提交給服務主管?!稇绷鞒坦芾韴蟾妗穬热莅ǎ簡討绷鞒檀螖担ú煌悇e的次數)、原因分析、影響分析、完成情況、所需時間、各項資源利用情況、費用情況、意見和建議等。
《應急流程管理報告》經服務主管確認后提交數據部。
應急流程管理報告填寫指南
編號:(格式為XXXX-日期+兩位序列號,其中日期按“yyyy+mm+dd”格式,2位序列號根據日期從01起順序遞增,例如XXXX-2015031401,表示2015年3月14日第1張應急流程管理報告。)
報告日期:年月日至年月日(統計時間段)
應急流程完成情況統計 | (分類統計應急處理次數、完成次數、應急處理分布范圍等) |
應急流程原因及影響統計 | (對引起應急流程的原因以及重大事故影響進行分類統計分析) |
應急處理時間統計 | (對應急處理所需時間進行統計) |
資源利用情況統計 | (對應急處理所需資源進行統計) |
費用統計 | (對應急處理所需費用進行統計) |
出現的問題和建議 | (根據上面的統計數據,對應急流程管理提出出現的問題以及對應急處理工作進行優化的建議。) |
備注 |
時間: 時間: