一、服務內容
1.1 服務目標
運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備及其他信息系統的運行維護與安全防范服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。
用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。
通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的內部運作,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構。將用戶的運行目標、業務需求與IT服務的相協調一致。
信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性情況和健康狀況,創建一個可知可控的IT環境,從而保證用戶信息系統的各類業務應用系統的可靠、高效、持續、安全運行。
服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標:
運行狀態、故障情況
配置信息
可用性情況及健康狀況性能指標
統計運維數椐、提供信息系統管理和工作報告、歸納總結并提供用戶想了解的數椐報告
1.2 信息資產統計服務
此項服務為基本服務,包含在運行維護服務中,幫助我們對用戶現有的信息資產情況進行了解,更好的提供系統的運行維護服務。
服務內容包括:
硬件設備型號、數量、版本等信息統計記錄
軟件產品型號、版本和補丁等信息統計記錄
網絡結構、網絡路由、網絡IP地址統計記錄
綜合布線系統結構圖的繪制
其它附屬設備的統計記錄
硬件設備清單統計
1.3 網絡、安全系統運維服務
從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。網絡、安全系統基本服務內容:
(1)用戶現場技術人員值守
根據用戶的需求提供長期的用戶現場技術人員值守服務,保證網絡的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉。
現場值守的技術人員每天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的建議。
現場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患于未然。
同時能夠對設備的運行數據進行記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括:
配置數據
性能數據
故障數據
(2)現場巡檢服務
現場巡檢服務是對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備運行的第一手資料,最大可能地發現存在的隱患,保障設備穩定運行。
同時,將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。
巡檢包括的內容如下:
(3)網絡運行分析與管理服務
網絡運行分析與管理服務是指工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務,其內容包括:
(4)重要時刻專人值守服務
保證重要時刻設備穩定運行對客戶成功尤為關鍵,因此,可對客戶提供重要時刻的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。
如需專人值守,客戶需至少提前3周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定范圍的更多值守支持,需額外支付相應人力和差旅費用。
1.4 主機、存儲系統運維服務
主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。
主機存儲系統基本服務內容:
現場值守人員可進行監控管理的內容包括:
CPU 性能管理;
內存使用情況管理;
硬盤利用情況管理;
系統進程管理;
主機性能管理;
實時監控主機電源、風扇的使用情況及主機機箱內部溫度;
監控主機硬盤運行狀態;
監控主機網卡、陣列卡等硬件狀態;
監控主機HA運行狀況;
主機系統文件系統管理;
監控存儲交換機設備狀態、端口狀態、傳輸速度;
監控備份服務進程、備份情況(起止時間、是否成功、出錯告警);
監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題;
對存儲的性能(如高速緩存、光纖通道等)進行監控。
1.5 數據庫系統運維服務
數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。
數據庫運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決數據庫性能問題,維護高效的應用系統。
數據庫運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提高用戶的工作效率。
具體數據庫運行維護監控的基本服務內容包括:
1.6 中間件運維服務
中間件管理是指對BEA Weblogic、MQ等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。
執行線程:監控WebLogic配置執行線程的空閑數量。
JVM內存:JVM內存曲線正常,能夠及時的進行內存空間回收。JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。
檢查WEBLOG日志文件是否有異常報錯
如果有WEBLOG集群配置,需要檢查集群的配置是否正常。
二、運維服務流程
建議用戶采用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。
技術人員現場值守運行維護服務的基本操作流程如下圖所示:

定期巡檢結合故障現場運行維護服務的基本操作流程如下圖所示:

三、服務管理制度規范
3.1 服務時間
(1) 接收服務請求和咨詢:在5*8 小時工作時間內設置由專人值守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。
(2) 在非工作時間設置有專人7*24 小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24 小時機房監控人員的機房突發情況匯報。
(3) 服務響應時間:
技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力爭恢復到故障點前的業務狀態。
對于“系統癱瘓,業務系統不能運轉”的故障級別,如果不能于12小時內解決故障,將在16小時內提出應急方案,確保業務系統的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。
3.2 行為規范
(1)遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。
(2)與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。
(3)出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。
(4)現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。
(5)遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。
3.3 現場服務支持規范
運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。
(1)現場支持工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規范;現場支持時必須遵守用戶單位的相關規章制度。
(2)現場支持工程師在進行現場支持工作時必須在保證數據和系統安全的前提下開展工作。
(3)現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋找其他解決途徑。
(4)故障解決后,現場支持工程師要詳細記錄問題的發生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。
3.4 問題記錄規范
根據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可中止,對于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節的確認修改,需要經過逐級提交、診斷、確認、處理和回復等環節,處理解決需要項目組的分析確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程如下:
(1)問題提交。應用信息系統的用戶發現屬于系統缺陷類的問題時,填寫系統缺陷類問題提交單,提交服務支持中心。
(2)問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的類型(技術問題、業務問題或者操作問題)。
屬于技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬于業務問題,提交服務中心業務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統缺陷類問題提交單轉為系統咨詢類問題提交單。
(3)問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類問題提交單后,對提交的問題進行歸類匯總和分析、確認。
可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。
(4)問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交單后,上報服務中心。
(5)問題回復。服務中心根據提交問題的進行分析,制定解決方案并進行實施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。
四、應急服務響應措施
針對項目制定了詳盡的設計、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。
下面,我們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。
4.1 應急基本流程

維護服務應急處理流程
4.2 預防措施
針對上門服務過程中可能遇到的各種各樣的風險,針對一些可能出現的情況,制定了一系列預防處理措施,舉例如下:
4.3 突發事件應急策略
系統運維應急方案是對中斷或嚴重影響業務的故障,如宕機、數據丟失、業務中斷等,進行快速響應和處理,在最短時間內恢復業務系統,將損失降到最低。
在系統維護過程中,突發事件的出現將是很難完全避免的,針對這種情況,設計了完善的突發事件應急策略。
系統巡檢人員要定期規范檢查各硬件設備的運轉情況和應用軟件運行情況,同時做好日常的數據增量備份和定期全備份。
對發現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。
對發現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發生。
當獲悉出現突發事件時,技術支持人員可以立即從知識庫中獲取相應的應急策略,并綜合用戶方的具體情況,給出相關解決方案,然后在第一時間以電話、郵件支持或現場服務的方式幫助用戶解決問題,盡最大努力減小突發事件對用戶日常應用的影響。
突發事件應急策略服務流程圖如下:
