在本文中,獨(dú)立顧問Ben Maas將為我們廣大讀者朋友們概述關(guān)于如何有效的保護(hù)企業(yè)應(yīng)用程序,避免導(dǎo)致發(fā)生數(shù)據(jù)丟失和停機(jī)的最常見原因的五大關(guān)鍵步驟,這五大步驟分別是:
- 了解您企業(yè)軟件的功能;
- 了解您企業(yè)所有應(yīng)用程序的運(yùn)行時(shí)間要求;
- 適當(dāng)?shù)卣{(diào)整您企業(yè)數(shù)據(jù)中心的環(huán)境;
- 適當(dāng)?shù)卣{(diào)整貴公司數(shù)據(jù)存儲(chǔ)庫(kù)的規(guī)模大小和設(shè)置
- 實(shí)施更完善的實(shí)踐方案
實(shí)踐步驟一 了解您企業(yè)的數(shù)據(jù)保護(hù)軟件
當(dāng)前,許多企業(yè)其實(shí)是在不了解其全部功能或限制條件的情況下使用了某些數(shù)據(jù)保護(hù)軟件。例如,備份軟件可以使用幾種不同的方法來創(chuàng)建安全的恢復(fù)集。其可以在文件、應(yīng)用程序、存儲(chǔ)卷、虛擬管理程序或操作系統(tǒng)級(jí)別進(jìn)行復(fù)制;蛘咂湟部梢灾С侄喾N方法的組合以提供多種恢復(fù)選項(xiàng)。虛擬機(jī)(VM)的備份軟件就是一個(gè)很好的例子。大多數(shù)企業(yè)使用快照技術(shù)來執(zhí)行該任務(wù),盡管每家企業(yè)可能采用的是不同的技術(shù)來完成這個(gè)任務(wù)。有些企業(yè)采用無代理的方法,稱為VMware的本機(jī)虛擬機(jī)快照技術(shù)。其他某些企業(yè)采用的是部署在每臺(tái)虛擬機(jī)上的軟件代理。
如果您企業(yè)的備份軟件依賴于代理執(zhí)行虛擬機(jī)備份,則其將更直接地與虛擬機(jī)文件系統(tǒng)配合使用。在這種情況下,備份軟件可能使用微軟的卷影復(fù)制服務(wù)(Volume Shadow Copy Service,VSS)將數(shù)據(jù)合并到磁盤,然后再進(jìn)行虛擬機(jī)的快照。
而如果您企業(yè)的備份軟件采用的是無代理的方式進(jìn)行快照,其可能仍然部分的依賴代理進(jìn)行備份。一款備份軟件在執(zhí)行備份以調(diào)用微軟VSS創(chuàng)建快照時(shí),會(huì)暫時(shí)將一段軟件放入虛擬機(jī)中。為此,其將使用VMware API啟動(dòng)快照,然后將該軟件代碼放置在虛擬機(jī)上以創(chuàng)建快照。一旦完成快照,其將刪除安裝的代碼片段。
即使這種混合的虛擬機(jī)備份方法也可能是不夠的。在某些情況下,備份軟件可能需要與特定的應(yīng)用程序(如微軟Exchange或SQL Server)集成,以將數(shù)據(jù)同步到磁盤。這將創(chuàng)建一個(gè)在恢復(fù)后可用的應(yīng)用程序一致性備份。
同樣,許多備份軟件產(chǎn)品也使用重復(fù)數(shù)據(jù)刪除技術(shù)來最大限度地降低存儲(chǔ)需求。一些備份軟件產(chǎn)品能夠針對(duì)客戶端和其他服務(wù)器上的數(shù)據(jù)執(zhí)行重復(fù)數(shù)據(jù)刪除。一些則僅僅只是當(dāng)數(shù)據(jù)到達(dá)存儲(chǔ)設(shè)備時(shí)才執(zhí)行重復(fù)數(shù)據(jù)刪除。一些甚至提供了在這三個(gè)位置中的任何一個(gè)執(zhí)行重復(fù)數(shù)據(jù)刪除的選擇,或者根本不刪除重復(fù)數(shù)據(jù)。
您企業(yè)的軟件所支持的選項(xiàng)將影響到您執(zhí)行此操作所需的帶寬量,以及在客戶端、媒介服務(wù)器或磁盤目標(biāo)上所需要的處理能力量,以對(duì)該數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除。
了解備份軟件的這些功能和局限性是非常重要的,因?yàn)樗鼈儠?huì)影響備份和恢復(fù)所花費(fèi)的時(shí)間,并最終影響備份的可靠性。
1. 超越備份和恢復(fù)
關(guān)鍵任務(wù)應(yīng)用程序應(yīng)始終保持在線或盡可能保持始終在線狀態(tài)。這種服務(wù)級(jí)別需要比備份軟件所能夠提供的更高級(jí)的工具。對(duì)停機(jī)中斷容忍度為零的企業(yè)應(yīng)考慮針對(duì)關(guān)鍵系統(tǒng)采用高可用性(HA)解決方案。HA通過將系統(tǒng)實(shí)時(shí)復(fù)制到遠(yuǎn)程站點(diǎn)來確保始終在線的服務(wù)。如果生產(chǎn)環(huán)境發(fā)生中斷,HA可讓您企業(yè)立即將故障轉(zhuǎn)移到次要位置,并繼續(xù)在那里保持運(yùn)行,直到您在當(dāng)?shù)氐膯栴}被解決。HA的恢復(fù)以分鐘或秒計(jì)量,故而使得數(shù)據(jù)丟失可以最小化到接近于零。
實(shí)踐步驟二 了解應(yīng)用程序的正常運(yùn)行時(shí)間要求
在了解了貴公司所采用的備份軟件的功能和使用限制條件后,您需要了解每款應(yīng)用程序的恢復(fù)目標(biāo)。一旦您確定了這些目標(biāo),您就需要將它們映射回到軟件中可用的功能,甚至是映射回您企業(yè)內(nèi)部的流程中,以確保它們的一致性,并且可以根據(jù)業(yè)務(wù)需求保持這些應(yīng)用程序的可用性。
例如,MySQL對(duì)于其數(shù)據(jù)的實(shí)時(shí)快照并沒有一種得到正式認(rèn)可的方法。因此,您無法證明您的備份軟件能夠隨時(shí)將數(shù)據(jù)同步到磁盤,以創(chuàng)建可恢復(fù)的快照。
備份MySQL的唯一經(jīng)過驗(yàn)證的方法是關(guān)閉MySQL(這對(duì)于需要100%正常運(yùn)行時(shí)間的應(yīng)用程序來說是沒有意義的),或者制作該數(shù)據(jù)的副本,然后針對(duì)副本進(jìn)行快照。像MySQL這樣的例子說明了企業(yè)為什么需要了解您的數(shù)據(jù)在哪里以及它是如何運(yùn)行的,所以您企業(yè)不需要運(yùn)行恢復(fù)來發(fā)現(xiàn)您正在丟失數(shù)據(jù)或者數(shù)據(jù)已經(jīng)損壞了。
相反,諸如微軟SQL等軟件提供的API可以為您企業(yè)提供比MySQL更好的數(shù)據(jù)保護(hù)體驗(yàn)。使用VSS卷影副本,企業(yè)可以避免這些問題。再次強(qiáng)調(diào),企業(yè)需要確保您的備份軟件知道如何正確的調(diào)用API,以便驗(yàn)證您的數(shù)據(jù)是否已寫入磁盤,從而最大限度地減少并最理想地避免數(shù)據(jù)丟失或損壞的可能性。
這一步是非常重要的,特別是如果您企業(yè)正在處理需要備份軟件來加密存儲(chǔ)在驅(qū)動(dòng)器或內(nèi)存中的數(shù)據(jù)的應(yīng)用程序。加密會(huì)創(chuàng)建一個(gè)額外的保護(hù)級(jí)別,并且您需要確保備份軟件在數(shù)據(jù)進(jìn)入驅(qū)動(dòng)器之前對(duì)其進(jìn)行加密。許多提供商要求企業(yè)客戶自行管理并保留自己的加密密鑰。IT專業(yè)人員們有責(zé)任保護(hù)這些密鑰。如果您企業(yè)丟失了加密密鑰,則會(huì)丟失備份,二如果丟失了備份,則會(huì)造成數(shù)據(jù)丟失。
實(shí)踐步驟三 適當(dāng)?shù)卣{(diào)整您企業(yè)的數(shù)據(jù)備份環(huán)境
企業(yè)需要針對(duì)兩種類型的備份進(jìn)行考慮,以便正確的調(diào)整貴公司數(shù)據(jù)備份環(huán)境的規(guī)模大小。
1. 數(shù)據(jù)中心備份
數(shù)據(jù)中心的備份可能是最容易量化和規(guī);。企業(yè)往往擁有專用的網(wǎng)絡(luò)來備份這些應(yīng)用程序服務(wù)器,而這種備份流量甚至可能無法通過企業(yè)網(wǎng)絡(luò)。生產(chǎn)應(yīng)用程序數(shù)據(jù)可能受基于陣列的快照技術(shù)的保護(hù),其中備份軟件啟動(dòng)數(shù)據(jù)快照,這些快照短期存儲(chǔ)在陣列上,并由備份軟件管理。然后,備份軟件可以將該快照備份到磁盤、磁帶或甚至云中以進(jìn)行長(zhǎng)期保存。在企業(yè)數(shù)據(jù)中心中使用的更復(fù)雜的備份軟件往往可以更輕松地對(duì)托管在數(shù)據(jù)中心中的應(yīng)用程序進(jìn)行備份。
當(dāng)企業(yè)開始探討應(yīng)用程序的備份位置位于數(shù)據(jù)中心之外(無論其是您企業(yè)數(shù)據(jù)中心建筑的其他位置,園區(qū)還是遠(yuǎn)程位置)時(shí),恰當(dāng)?shù)恼{(diào)整備份和恢復(fù)環(huán)境的規(guī)模將變得更加困難。
如果通過LAN連接進(jìn)行本地備份,則需要驗(yàn)證在備份窗口期間是否有足夠的計(jì)算機(jī)資源和網(wǎng)絡(luò)帶寬,以避免中斷生產(chǎn)應(yīng)用程序。由于備份是往往在下班時(shí)間運(yùn)行的,所以這通常并不是一個(gè)不能克服的問題。
但是,如果您企業(yè)在核心數(shù)據(jù)中心之外運(yùn)行24x7運(yùn)行的應(yīng)用程序,并且該應(yīng)用程序沒有需求低活躍的時(shí)間段,則可能需要升級(jí)這些服務(wù)器上的計(jì)算資源,或者需要為這些應(yīng)用程序提供額外的網(wǎng)絡(luò)帶寬,以確保其備份和恢復(fù)可以在計(jì)劃的備份窗口內(nèi)發(fā)生。您可能還需要考慮更高級(jí)的備份工具,例如高可用性解決方案(HA)。 HA技術(shù)使用即時(shí)的故障轉(zhuǎn)移功能來確保任務(wù)關(guān)鍵型應(yīng)用程序和數(shù)據(jù)的正常運(yùn)行時(shí)間要求。
2. 遠(yuǎn)程備份
如果您企業(yè)需要在遠(yuǎn)程位置通過WAN連接來備份或恢復(fù)應(yīng)用程序的運(yùn)行,其挑戰(zhàn)將變得更加嚴(yán)峻。除了確保擁有可用的計(jì)算和網(wǎng)絡(luò)資源來備份和恢復(fù)數(shù)據(jù)外,還需要驗(yàn)證是否可以及時(shí)恢復(fù)數(shù)據(jù);否則就無法達(dá)到您企業(yè)的恢復(fù)目標(biāo)。
唯一真正知道其是否可行的方法是在生產(chǎn)環(huán)境中進(jìn)行測(cè)試。
當(dāng)您企業(yè)這樣做時(shí),請(qǐng)務(wù)必考慮在執(zhí)行備份或恢復(fù)時(shí)可能在您備份環(huán)境中遇到的某些變量。例如,如果要通過VPN渠道運(yùn)行備份或恢復(fù),則吞吐量將會(huì)下降。另外,在通過LAN或WAN鏈接發(fā)送數(shù)據(jù)之前,是否需要加密數(shù)據(jù)?如果是這樣的話,請(qǐng)驗(yàn)證對(duì)數(shù)據(jù)進(jìn)行加密的設(shè)備是否可以及時(shí)執(zhí)行以滿足您的備份或恢復(fù)服務(wù)級(jí)別協(xié)議。
還有需要注意的一點(diǎn)是,存儲(chǔ)備份數(shù)據(jù)的磁盤必須足夠快才能滿足備份和恢復(fù)需求。我曾遇到過企業(yè)有眾多機(jī)器同時(shí)寫入或讀取數(shù)據(jù)的情況,從而導(dǎo)致了處理速度變慢。
考慮您企業(yè)可能有24臺(tái)機(jī)器需要在24小時(shí)內(nèi)恢復(fù)的情況。您企業(yè)可能不會(huì)嘗試逐一的對(duì)它們進(jìn)行恢復(fù)。您將要并行恢復(fù)它們。同時(shí)還需要確保從中恢復(fù)數(shù)據(jù)的存儲(chǔ)設(shè)備可以處理滿足這些需求所需的I / O量。再次強(qiáng)調(diào),有計(jì)算器可以幫助企業(yè)執(zhí)行這些類型的評(píng)估,但我發(fā)現(xiàn)唯一的方法是肯定的是在您企業(yè)的環(huán)境中自行測(cè)試一下。
實(shí)踐步驟四 適當(dāng)?shù)卣{(diào)整數(shù)據(jù)存儲(chǔ)庫(kù)的大小和設(shè)置
我曾遇到過這樣的情況:軟件提供商對(duì)可以存入某存儲(chǔ)庫(kù)的數(shù)據(jù)量有嚴(yán)格的限制。例如,備份軟件提供商可能會(huì)強(qiáng)制規(guī)定2 TB的限制(或?qū)蝹(gè)備份存儲(chǔ)庫(kù)有其他限制),這可能會(huì)迫使企業(yè)客戶需要將備份分散到多個(gè)存儲(chǔ)庫(kù)。
如果企業(yè)同時(shí)運(yùn)行多個(gè)恢復(fù)流,這將起到作用。在這種情況下,您企業(yè)需要確保存儲(chǔ)庫(kù)可以快速讀取數(shù)據(jù),以滿足您的恢復(fù)時(shí)間目標(biāo)(RTO)。
有很多供應(yīng)商能夠提供規(guī)模化的文檔,對(duì)于為您企業(yè)的環(huán)境適當(dāng)?shù)卣{(diào)整存儲(chǔ)庫(kù)的大小是非常有幫助的。您只需要確保您已經(jīng)配置了足夠的存儲(chǔ)庫(kù),并同時(shí)使其可用。
在備份過程中,對(duì)數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除時(shí),使得這些存儲(chǔ)庫(kù)具備適當(dāng)?shù)囊?guī)模大小尤為重要。
另外請(qǐng)注意,供應(yīng)商使用備份代理來更接近虛擬主機(jī)上的存儲(chǔ)。在這種情況下,您企業(yè)需要確保已經(jīng)進(jìn)行了恰當(dāng)?shù)恼{(diào)整,以確保您企業(yè)擁有足夠的RAM、CPU和本地存儲(chǔ),進(jìn)而避免在備份或恢復(fù)過程中的某個(gè)時(shí)刻出現(xiàn)瓶頸。
我也曾經(jīng)用作數(shù)據(jù)庫(kù)服務(wù)器的虛擬機(jī),其承載了7到8TB的數(shù)據(jù)。有時(shí)候這些規(guī)模的虛擬機(jī)會(huì)試圖從一個(gè)存儲(chǔ)庫(kù)中恢復(fù)這些數(shù)據(jù)。在這種情況下,由于吞吐量不足,便成了一個(gè)真正的問題。只有在將數(shù)據(jù)分發(fā)到多個(gè)存儲(chǔ)庫(kù)之后,才能夠及時(shí)恢復(fù)數(shù)據(jù),因?yàn)槠髽I(yè)用戶可以同時(shí)在多個(gè)驅(qū)動(dòng)器上運(yùn)行恢復(fù)。
實(shí)踐步驟五 實(shí)施更完善的實(shí)踐方案
實(shí)施更完善的實(shí)踐方案。這意味著您企業(yè)應(yīng)該運(yùn)行多個(gè)測(cè)試。您企業(yè)絕不會(huì)完全意識(shí)到一個(gè)恢復(fù)過程具體會(huì)涉及到多少的遷移片斷,直到您真正執(zhí)行了一次恢復(fù)過程之后。也許最復(fù)雜的是那些涉及從地理上分散的備份中所執(zhí)行的恢復(fù)。在這些情況下,您需要運(yùn)行恢復(fù)測(cè)試來確保您所想要的一切都將發(fā)生。
大多數(shù)情況下,我在測(cè)試過程中會(huì)遇到一些我從來沒有考慮過有發(fā)生可能性的問題。有一次,我遇到了一個(gè)軟件許可的問題。在測(cè)試期間恢復(fù)應(yīng)用程序之后,應(yīng)用程序軟件必須核實(shí)其許可授權(quán)。在遠(yuǎn)程預(yù)警(call-home)過程中,授權(quán)軟件檢測(cè)到自從我在測(cè)試服務(wù)器上運(yùn)行應(yīng)用程序以來,托管軟件的服務(wù)器的IP地址發(fā)生了變化。然后其使軟件許可無效。雖然這很不方便,但是這成為了一個(gè)生產(chǎn)問題,因?yàn)樗管浖S可證在測(cè)試和生產(chǎn)中運(yùn)行的軟件的副本無效。這種疏忽破壞了生產(chǎn)環(huán)境。
從測(cè)試開始自信地恢復(fù)您企業(yè)的環(huán)境。
這導(dǎo)致了我如何進(jìn)行災(zāi)難恢復(fù)測(cè)試方面的變化。現(xiàn)在,當(dāng)我提出測(cè)試環(huán)境時(shí),我會(huì)關(guān)閉出站的網(wǎng)絡(luò)流量。在這段時(shí)間里,我會(huì)看看有什么流量是出站的,以確保沒有軟件試圖遠(yuǎn)程報(bào)障預(yù)警,可能會(huì)在測(cè)試或生產(chǎn)環(huán)境中無意中造成中斷。這可能代表了我在一定程度上的偏執(zhí),我不一定告訴其他人也要這么極端。然而,一朝被蛇咬十年怕井繩。我個(gè)人發(fā)現(xiàn)在恢復(fù)過程中軟件許可是一個(gè)問題。
企業(yè)需要執(zhí)行測(cè)試的另一個(gè)很好的例子是確保數(shù)據(jù)可以恢復(fù)。我曾經(jīng)供職過的一家公司在其微軟SQL服務(wù)器上創(chuàng)建了一款“X”驅(qū)動(dòng)器或文件共享。然后每周執(zhí)行一次將數(shù)據(jù)備份到該 “X”驅(qū)動(dòng)器上。然而,我對(duì)此其實(shí)并不知道,而公司的另一位同事是知道這款“X”驅(qū)動(dòng)器的,并清楚其用來干什么的,所以他決定用它來在兩臺(tái)SQL Server數(shù)據(jù)庫(kù)服務(wù)器之間執(zhí)行一些復(fù)制,其在那時(shí)的運(yùn)行良好。
但過了一段時(shí)間后,公司更改了備份程序,并決定其SQL 服務(wù)器不再需要這些數(shù)據(jù)庫(kù)服務(wù)器上的“X”驅(qū)動(dòng)器。 我對(duì)系統(tǒng)進(jìn)行了評(píng)估,并將“X”驅(qū)動(dòng)器放在整個(gè)環(huán)境中。而我們結(jié)束時(shí),那位在在兩臺(tái)SQL Server數(shù)據(jù)庫(kù)服務(wù)器之間執(zhí)行復(fù)制任務(wù)的同時(shí)開始沖著我們咆哮:“為什么復(fù)制被中斷了?”
總之,這些情況說明了為什么測(cè)試如此重要。除了環(huán)境中經(jīng)常發(fā)生的變化之外,總是存在一些細(xì)微的差別,例如“X”驅(qū)動(dòng)器無法使用,這使得按照用戶的期望執(zhí)行恢復(fù)很難,除非您企業(yè)經(jīng)常執(zhí)行恢復(fù)測(cè)試。