全部产品
云市场

集群规格选型

更新时间:2019-10-18 17:10:37

选择的逻辑

阿里云HBase支持自由组合Master,Core节点规格,数量和盘的种类。需要用户根据业务特征比如 QPS、存储量、读写请求、相应延迟,稳定性相关来自由搭配。主要需要选择的是:

  • Master机器的规格
  • Core节点的规格和数量
  • 盘的大小和种类

关于HBase版本的选择,可以参照HBase版本选择章节

规格

  • 独享规格:完全没有争抢的规格,资源保障稳定,延迟敏感的业务请务必使用独占 且 SSD云盘。
  • 通用规格:>=8cpu之上,不提供通用。通用会有一定的争抢。业务生产集群不建议使用通用规格

Master选择

Master节点不带存储,默认是主备保障单点容灾。Master节点上会部署HBase的Master,HDFS的Namenode和Zookeeper等,是集群中重要节点。如果master的CPU不够或者内存不够,会严重制约HBase的性能。

core的规模 master选择
< 4台 4c8g
4 <= core数 < 8 8c16g (小规模集群推荐Master规格)
8 <= core数 <16 8c32g
大于16台 16c64g 或者以上

注意:Master的规格不仅受到Core节点数量的影响,还和集群上表的数量和Region的数量有关,如果集群的表数量或者region数量非常多,Master节点也需要适当选择高规格

Core选择

core阶段选择:4cpu8g起步,最大32cpu128g

Core节点即HBase的RegionServer。需要根据业务的请求量以及请求的大小来选择合适的Core节点规格。

注意:请求量的多少并不是选择Core节点规模的唯一标准,比如一个业务的请求量每秒只有数百,通常4c8g的core节点就足够,但是如果用户请求的一行非常大,几KB甚至数MB,或者SCan请求中有复杂的filter,或者请求的cache命中率很低,每个请求都会请求磁盘,或者集群上的表和region非常多,选择4c8g的core节点可能会导致业务不稳定和延迟上涨

下表给出一些简单的建议,但是评估Core节点的规格需要综合多方面考虑。如果需要容量评估的帮助,请在钉钉上联系云HBase答疑钉钉号或者发起工单咨询。

TPS+QPS core的个数及选择 建议
0 ~ 1000 2台 4c16g 推荐的最低规格,适合低负载访问。同时每台Core节点上的region不宜超过600个。 云HBase中能够买到的最低core节点为4c8g,但不推荐4c8g规格,8GB的内存过小,在面对高峰和大KV时容易出现OOM等不稳定现象
1000 ~ 2w 2~3台 8c32g 8c32g是我们推荐的适合中低负载的规格,价格相比8c16g贵的不多,但内存翻倍,稳定性更好
2w 以上 8c32g/16c32g/32c64g 或者以上 按照实际请求量选择Core节点的数量,如果是在线型业务,适当选择大内存机型来增加cache命中率来提高性能。如果有MR/Spark等离线大负载任务要运行或者TPS/QPS非常高,需要适当选择大CPU机器

选择高配置机器还是更多Core节点?

HBase支持水平无限扩展,当出现负载过高,延迟变高,不稳定,可以通过水平增加Core节点解决。但是由于业务设计的问题或者使用问题,很可能出现单机热点,因此Core节点的规格决定了单机抗热点的能力。因此把Core节点的规格选择的特别低,只通过水平扩展Core节点的方式,在面对风险时的稳定性会没有高配机型来得强。如果有瞬时的大请求打过来,或者偶发的热点流量(在一个region里),低配的机器可能会出现负载过高或者OOM影响整体的稳定性。

因此,我们建议Core节点的规格要根据业务事先做好评估,选择合适规格的Core节点

如果事先选择的Core节点或者Master节点规格无法满足要求,我们还将提供原地升配的功能,将Core/Master的配置升级到合适规格,详情请钉钉上联系云HBase答疑钉钉号或者发起工单咨询。

存储介质

存储介质分为3个大类,云盘,本地盘和冷存储。

  • 云盘: 云盘的特点是灵活和高可靠。云盘本身有副本冗余,完全屏蔽了硬件细节,不会因为坏盘等原因丢失数据。并且可以自由扩容,是业务的首选存储介质。云盘分为SSD云盘和高效云盘。
  • 本地盘: 本地盘即真实的物理盘,特点是价格比云盘便宜,但是本地盘大小与机型强绑定,不能对单块磁盘扩容,只能通过增加Core节点来增加存储容量,而且本地盘机型ECS也不支持升配,灵活性没有云盘强。同时,本地盘如果出现坏盘会对用户产生影响(单块坏盘不会出现丢数据,出现坏盘后,云HBase团队会第一时间处理更换)。本地盘购买的起步较高,适合存储容量大的大客户。
  • 冷存储:阿里云HBase特有存储,基于OSS实现,冷存储可以搭配云盘使用,用户可以将不常用数据存储到冷存储或者使用冷热分离功能自动实现冷数据归档来降低成本。

在选定了存储介质后,集群的存储介质不可以再更改,其中云盘可以通过扩容或者增加Core节点来增加容量,但本地盘只能通过增加Core节点扩容。例外的是冷存储, 冷存储功能不一定需要在开通HBase集群时购买,可以在之后的使用过程中随时开通和扩容

冷热程度 介质类型 业务类型
高性能 SSD云盘/本地SSD盘 适合对延迟要求高的在线业务,如广告,推荐,Feed流,人物画像等业务,SSD盘的延迟低,通常在1~2ms左右,最重要的是毛刺率低。对P99延迟(99%请求的最大延迟)在意的用户首选。
高效能 高效云盘/本地HDD盘 适合对延迟要求一般的在线业务,HDD盘的延迟通常在10ms量级,但毛刺率要比SSD盘要大
冷数据 OSS(冷存储) 准在线业务,或者归档业务。冷存储配合云盘/本地盘写吞吐基本与云盘/本地盘一致。但读冷存储QPS有限制,详见冷存储,读延迟通常在数十ms量级。