失效链接处理 |
OpenStack Queens HA部署方案 PDF 下载
本站整理下载:
提取码:b6zj
相关截图:
主要内容:
1、基础知识
1.1、高可用(HighAvailability,简称 HA)
高可用性是指提供在本地系统单个组件故障情况下,能继续访问应用的能力,无论这
个故障是业务流程、物理设施、IT 软/硬件的故障。最好的可用性,就是你的一台机器宕机
了,但是使用你的服务的用户完全感觉不到。你的机器宕机了,在该机器上运行的服务肯定
得做故障切换(failover),切换有两个维度的成本:RTO(RecoveryTimeObjective)和 RPO
(RecoveryPointObjective)。RTO 是服务恢复的时间,最佳的情况是 0,这意味着服务立即
恢复;最坏是无穷大意味着服务永远恢复不了;RPO 是切换时向前恢复的数据的时间长度,
0 意味着使用同步的数据,大于 0 意味着有数据丢失,比如“RPO=1 天”意味着恢复时使用
一天前的数据,那么一天之内的数据就丢失了。因此,恢复的最佳结果是 RTO=RPO=0,但
是这个太理想,或者要实现的话成本太高,全球估计 Visa 等少数几个公司能实现,或者几
乎实现。
对 HA 来说,往往使用共享存储,这样的话,RPO=0;同时往往使用 Active/Active(双
活集群)HA 模式来使得 RTO 几乎 0,如果使用 Active/Passive 模式的 HA 的话,则需要将
RTO 减少到最小限度。HA 的计算公式是[1-(宕机时间)/(宕机时间+运行时间)],我们常常
用几个 9 表示可用性:
2 个 9:99%=1%*365=3.65*24 小时/年=87.6 小时/年的宕机时间
4 个 9:99.99%=0.01%*365*24*60=52.56 分钟/年 5 个 9:99.999%=0.001%*365=5.265 分钟/年的宕机时间,也就意味着每次停机时间
在一到两分钟。
11 个 9:几乎就是几年才宕机几分钟。据说 AWSS3 的设计高可用性就是 11 个 9。
1.1.1 服务的分类
HA 将服务分为两类:
有状态服务:后续对服务的请求依赖于之前对服务的请求。
无状态服务:对服务的请求之间没有依赖关系,是完全独立的。
1.1.2HA 的种类
HA 需要使用冗余的服务器组成集群来运行负载,包括应用和服务。这种冗余性也可以
将 HA 分为两类:
Active/PassiveHA:集群只包括两个节点简称主备。在这种配置下,系统采用主和备
用机器来提供服务,系统只在主设备上提供服务。在主设备故障时,备设备上的服
务被启动来替代主设备提供的服务。典型地,可以采用 CRM 软件比如 Pacemaker
来控制主备设备之间的切换,并提供一个虚机 IP 来提供服务。
Active/ActiveHA:集群只包括两个节点时简称双活,包括多节点时成为多主
(Multi-master)。在这种配置下,系统在集群内所有服务器上运行同样的负载。以
数据库为例,对一个实例的更新,会被同步到所有实例上。这种配置下往往采用负
载均衡软件比如 HAProxy 来提供服务的虚拟 IP。
1.1.3 云环境的 HA
云环境包括一个广泛的系统,包括硬件基础设施、IaaS 层、虚机和应用。以 OpenStack
云为例:
云环境的 HA 将包括:
应用的 HA
虚机的 HA
云控制服务的 HA
物理 IT 层:包括网络设备比如交换机和路由器,存储设备等
基础设施,比如电力、空调和防火设施等
本文的重点是讨论 OpenStack 作为 IaaS 的 HA。 1.2、灾难恢复(DisasterRecovery)
几个概念:
灾难(Disaster)是由于人为或自然的原因,造成一个数据中心内的信息系统运行严
重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的
时间的突发性事件,通常导致信息系统需要切换到备用场地运行。
灾难恢复(DiasterRecovery)是指当灾难破坏生产中心时在不同地点的数据中心内
恢复数据、应用或者业务的能力。
容灾是指,除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点
受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达
到更高的可用性,许多用户甚至建立多个冗余站点。
衡 量 容 灾 系 统 有 两 个 主 要 指 标 : RPO ( RecoveryPointObjective ) 和 RTO
(RecoveryTimeObject),其中 RPO 代表了当灾难发生时允许丢失的数据量,而 RTO
则代表了系统恢复的时间。RPO 与 RTO 越小,系统的可用性就越高,当然用户需要
的投资也越大。
|