做好StarVCenter超融合的3要素

您所在的位置:网站首页 enscape硬件配置 做好StarVCenter超融合的3要素

做好StarVCenter超融合的3要素

#做好StarVCenter超融合的3要素| 来源: 网络整理| 查看: 265

背景:很多用户选择了以超融合架构部署StarVCenter云平台,其中一部分用户并未关注超融合对硬件和网络稳定性的要求,对超融合的运维标准几乎没有敬畏之心,甚至在超融合环境运行过程中很随意地进行重启/关闭物理服务器或断网之类的操作,以致于最后把平台给玩出故障甚致给玩死掉了,这时再去恢复可能就需要专业的工程师介入了。

高效稳定的超融合环境,须包含以下要素:(1)合理的硬件配置;(2)高速冗余的物理网络线路;(3)物理环境整体不间断运行。本文将依次介绍这三个方面的内容。

一、合理的硬件配置

超融合采用一组配置相同(或相近)的服务器,之间用万兆交换机连接,无需专用存储设备,每台服务器配备多块数据磁盘,所有服务器的数据磁盘共同组成“分布式存储”集群,服务器既运行虚拟机又存储数据,虚拟机能在服务器间灵活飘移(业务不中断),任意服务器宕机时云平台和虚拟机均可用。这种部署结构对服务器硬件配置有特定的要求,具体见下表:

设备名称规格数量(台)说明服务器CPU:2颗,每CPU10-40核心/20-80线程,主频2.1-2.3GHz; 6-1000最小:3台

内存:128GB-512GB,DDR4;硬盘(系统磁盘):2块SATA SSD磁盘 (480GB-1TB,2块盘做raid1);

硬盘(缓存磁盘):1-2块PCIe NVMe SSD磁盘 (每块1.2TB);硬盘(数据磁盘):SAS HDD磁盘6-20块(每块2.4-8TB,每节点数据磁盘总量不超过80TB,每块磁盘做raid直通或单盘raid0);

千兆网卡:2块 ,每块2-4网口(1Gb/S);万兆网卡:2块 ,每块2网口(10-40Gb/s,带光模块);

raid卡:支持raid直通/raid0、raid1。

6-1000最小:3台扩展:后期可按需扩充服务器或硬盘(在界面点击添加,自动入池)多集群:每24台划分为1个超融合集群。 容量:存储实际可用容量=数据盘实际总容量/3,因为每个数据默认存3份。千兆交换机24/48口,常规口为全千兆口(1Gb/s)。4‘管理网’、‘业务网’各使用2台交换机(针对业务请求数据流量很高的应用,可将业务网更换为万兆网)。万兆交换机24/48口,常规口为全万兆口(10-40Gb/s),交换容量>2.3Tbps。4‘存储网’2台交换机,存储集群网2台交换机(可选,专用于节点间数据平衡,不影响业务读写性能,I/O性能要求高和数据量大的场景必选)。二、高速冗余的网络线路

合理的物理布线方法可以很大程度上避免因网络故障带来的问题,布线的原则是全线路冗余+必要的高速网。StarVCenter已经在软件层面进行了全冗余设计,最小3节点确保服务器的冗余,再加上网络线路全冗余设计就能确保整套环境软硬件全冗余,做到网卡、线路、硬盘、服务器、交换机任何单点损坏和更换都对平台无感知。

根据上文提供的硬件,本文提出“标准版布线”和“升级版布线”两种方法供参考:

1.StarVCenter超融合接线图示-标准版

大多数情况下,用户都可以选择标准版布线方法,这种布线方法可以将物理网络线路和设备运维带来的影响控制到最小,具体接线方法如下图所示:

建议:为了避免线路混淆不清,导致接线错误,建议上图所示,对每组线路采用不同的颜色的线进行区分,并且在服务器侧和交换机侧接口处打上易于识别的标签。

2.StarVCenter超融合接线图示-升级版

标准版布线方法中,单台物理服务器的业务网最高带宽只有2000Mbps,以单台物理服务器运行30台虚拟机为例,这30台虚拟机若不设网卡限速,将共享2000Mbps,对业务请求数据流量很高的应用可能无法满足。此时可将业务网也升级为万兆网,具体接线方法如下图所示:

建议:为了避免线路混淆不清,导致接线错误,建议上图所示,对每组线路采用不同的颜色的线进行区分,并且在服务器侧和交换机侧接口处打上易于识别的标签。

三、物理环境整体不间断运行

先说说超融合的基本原理和影响其稳定性的因素:

超融合基于CEPH构建分布式存储,其中每台服务器节点都即是计算节点又是存储节点,虚拟机中的数据被拆分成很多小块(Object),每个小块有3份相同的数据强制分布存存放于不同节点上的3块数据磁盘中。这种方案的优势是读写的每份数据都可以通过存储集群中的多节并行处理完成,节越多整体吞吐性能越强;系统将保持对每份数据3副本的一致性和有效状态的核对,并且在节点或硬盘异常时自动修复转移数据,可避免坏盘或坏节点导致丢失数据。导致环境故障的风险因素,从高到低依次为:(1)多台服务器整体掉电;(2)不规范关闭多台服务器且上电启动不规范;(3)随意重启多台服务器(4)不规范断开存储网;(5)页面提示存储告警不及时处理。掉电导致多个节点上的数据磁盘损坏,可能导致部分数据丢失,此时往往需要人工介入;无论中断存储网或关闭服务器都将导致存储节点状态下线,存储将变成告警状态并自动进行数据平衡迁移,若自动数据处理并未完成又接着下线其它存储节点,依次类推,将可能导致多个节点数据版本不一致,必要时须人工介入;磁盘空间不足或自然损坏等自然情况系统均会发起告警,若长期不处理,从而发展为多磁盘异常,也可能需要人工介入。

综上,超融合环境运维须遵从以下几点:

(1)选择标准机房保证稳定供电;(2)配备正规运维工程师;(3)不随意动设备,遵从标准检修扩容流程,采用单点运维原则(仅对单节点安全下线检修,重新上线后待环境显示为正常状态后方可再检修操作另1节点)。参考超融合扩容http://www.starvcs.com/doc/vcenter/ops/StarVCenter-ops6121.html;参考安全上下电流程:http://www.starvcs.com/doc/vcenter/ops/StarVCenter-ops81.html

四、其它建议

若无法满足超融合的三要素,建议采用StarVCenter+FCSAN存储的方案进行替代(方案详见:https://zhuanlan.zhihu.com/p/361993296),这种方案采用专用的存储硬件FCSAN代替分布式存储,这是一种很稳妥的方案,物理服务器不再需要配备缓存磁盘和数据磁盘,仅需系统磁盘即可。更多的硬件配置建议见:http://www.starvcs.com/doc/vcenter/suggest.html



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3