做服务器虚拟化解决方案很多年了,对于集成商而言,有一个问题非常棘手,那就是甲方运维对相关技术不够了解的话,很可能导致项目烂尾。
对于使用者而言,相关虚拟化技术复杂度比传统PC要高出不少,如果没有专业的运维驻场的话,一旦出问题就会很麻烦(有挺多项目的甲方只会简单实用,一出问题就要找集成商技术支持,有时候要等很久,很可能要背锅)
理想情况下,使用者只需要简单了解使用和维护即可,但这要求集成商的方案要非常完善,对于各种各样的问题都要考虑到。
OK,讲了这么多铺垫,现在就讲一下如何解决,我的思路是自动化运维。
我们都知道,机房要24小时值班很大一部分原因是防备突发情况,如断电,温度过高等情况,既然是自动化运维,我们就把这些重要的操作给抽出来,交给机器去做(这篇文章不适用那些管理很完善的机房,有24小时专人值班外加发电机之类的,可能参考意义不大)
我们用这套解决方案,可以大大减少使用者对机房的巡检频率,例如某高校从2-3天巡检一次到1个月巡检一次。
我们现在模拟一下一个VMware vSphere数据中心遇到掉电时管理员的操作流程(假设UPS只能撑30分钟,也没人值班),监测到市电停电后(如果10分钟内市电没有恢复供电)执行以下操作。
1.有顺序地关闭所有虚拟机。关闭依赖较少的虚拟机,如网站WEB服务器 -> 关闭依赖较多的虚拟机,如数据库.
2.有顺序地关闭ESXI,
版权说明:如非注明,本站文章均为 扬州驻场服务-网络设备调试-监控维修-南京泽同信息科技有限公司 原创,转载请注明出处和附带本文链接。
请在这里放置你的在线分享代码