当前位置:网站首页 > 机房维保 正文 机房维保

IDC数据中心IT运维常识

frank 2025-08-31 17:03:01 机房维保 16 ℃ 0 评论

一、服务器操作流程

  1. 服务器重启流程
    确认授权,佩戴防静电手环,核对五要素(机房号、机柜号、机位号、SN号、机器号),确认服务器位置,长按电源键关机,拔掉电源线,长按电源键30秒放电,插电开机并确认进入登录界面。
  2. 服务器到货上架流程
    货车进楼前门口等待,监督运输;与资产验收货物(型号/数量/外观检查),墙电测试;工人使用小推车需一前一后;入机房核对五要素(机房号、、机柜号、机位号、SN号、机器号)上架;验收接线、标签、指示灯;结单。
  3. 服务器单路/双路掉电处理
    • 单路掉电
      • 遵循"二五十原则"(2分钟响应、5分钟到场、10分钟上报);
      • 检查电源接线、PDU供电状态;
      • 电源插拔测试(放电后操作);
      • 更换电源线或电源模块;
      • 全程避免触碰其他电源。
    • 双路掉电
      • 立即上报主管,与基础设施人员赶赴现场;
      • 记录受影响设备。
  4. 交换机整机置换流程
    1. 核对工单六要素(含授权),准备工具;
    2. 新交换机Console口连接笔记本,刷入配置脚本(CRT软件),验证配置后保存;
    3. 下架旧机:拍照记录接线顺序,断开连线/电源;
    4. 上架新机:连接所有线缆,等待5-10分钟检查指示灯;
    5. 结单并记录新旧SN/PN。
  5. 更换AOC线缆流程
    佩戴防静电手环;核对六要素;按标签确认线缆;检查指示灯;更换后测试网络;记录新旧SN;旧件入防静电袋。

二、硬件知识与维护

  1. 硬件厂商

    • 内存:三星、镁光、金士顿、芝奇、英睿达、长江存储
    • 硬盘:东芝、三星、西部数据、希捷、金士顿
    • 服务器:华为、华三、浪潮、思科、戴尔、超巨变
  2. 硬盘类型与参数

    • 机械硬盘

      • 优点:容量大、成本低、数据可恢复
      • 缺点:读写慢、怕震动
      • 参数:转速、缓存、接口(SAS/SATA)
    • 固态硬盘

      • 优点:读写快、抗震
      • 缺点:价格高、寿命较低
      • 参数:接口(NVMe/M.2/PCIE)
    • 文件格式:EXT4、exFAT、FAT32、NTFS

      四种格式对比表格

      特性EXT4exFATFAT32NTFS
      主要系统支持Linux(默认)Windows/macOS/ 安卓所有系统(老设备)Windows(默认)
      单文件最大容量16TB128PB4GB16TB
      分区最大容量1EB128PB32GB256TB
      日志功能支持不支持不支持支持
      权限控制依赖 Linux 权限系统不支持不支持支持(Windows 权限)
      跨平台兼容性差(需工具)极佳极佳差(需工具)
      适用场景Linux 系统盘、服务器存储U 盘 / SD 卡(跨设备共享)老设备、小容量存储Windows 系统盘、内部硬盘

      选择建议

      • U 盘 / SD 卡(跨设备使用):优先选 exFAT,兼顾大容量文件支持和多系统兼容。
      • Windows 系统盘 / 内部 硬盘:选 NTFS,利用权限控制和日志功能提升安全性。
      • Linux 系统盘 / 服务器存储:选 EXT4,匹配 Linux 生态并优化大文件性能。
      • 老设备(如 XP、车载系统):不得已时用 FAT32,但避免存储 4GB 以上文件。
      • SSD 移动硬盘:exFAT 或 NTFS 均可(exFAT 更轻量,NTFS 支持加密)。
  3. 内存参数与区分

    • 参数:DDR代数、容量、频率、时序带宽电压
    • DDR4 vs DDR5
      • DDR4:标签"PC4",防呆口偏侧,电压1.2V
      • DDR5:标签"PC5",防呆口居中,电压1.1V
    • DDR3 vs DDR4
      • DDR3:直线金手指,电压1.5V
      • DDR4:弧形金手指,电压1.2V
  4. 关键操作流程

    • 更换主板
      1. 拆装顺序:风扇→RAID卡→内存→散热器→CPU→主板;
      2. 拍照记录;刷写FRU信息(主板SN/资产标签);
      3. 测试开机后上架。
    • 更换CPU
      • 对齐防呆标志(三角/缺口);
      • 均匀涂抹硅脂;
      • 散热器螺丝按对角线顺序拧紧。
  5. 光纤与光模块

    • 单模 vs 多模

      类型颜色波长传输距离光源
      单模1310/1550nm激光
      多模850nmLED
    • 接口类型:LC(小方口)、SC(大方口)、FC(圆口)

    • 光功率计使用

      • 设置单位(dBm)、波长(λ按钮);
      • 正常光衰>-20dBm。

    实训拆装的服务器是什么厂商,型号,CPU(型号,主频)内存(容量,类型,频率)?

​ 型号:H3C UniServer R4900 G3
​ CPU:intel xeon sil ver 4114 sr3gk 2.20GHZ 10核心 20线程 缓存为 13.75MB L3 Cache

​ 内存:容量4GB 类型Pc4 频率2400

三、Linux系统管理

  1. 常用命令

    ls /path          # 查看目录内容
    cd /path         # 切换目录
    pwd              # 显示当前路径
    cat file         # 查看文件
    mount /dev/sda1  # 挂载硬盘
    free -h          # 内存使用率(人类可读)
    lsblk            # 硬盘分区信息
    route -n         # 查看路由表
    top              # 实时CPU使用率
    ethtool eth0     # 网卡速率(含Speed)
    
  2. 系统配置

    • 修改SSH端口

      vim /etc/ssh/sshd_config  # 修改Port 22 → 保存
      systemctl restart sshd    # 重启服务
      

      SSH 端口号范围为 1-65535,但建议选择:

      1. 非特权端口(1024-65535)
        普通用户无法使用 1-1023 的特权端口,因此推荐选择此范围内的端口(如 222250022)。
      2. 避开常用服务端口
        避免与常见服务冲突,例如:
        • 80/443(HTTP/HTTPS)
        • 21(FTP)
        • 3389(RDP)
        • 5432(PostgreSQL)
      3. 随机化或行业惯例
        • 安全敏感环境可使用高位随机端口(如 45678)。
        • 企业内部可统一使用特定端口(如 2222)以便管理。
    • 设置IP

      vim /etc/sysconfig/network-scripts/ifcfg-eth0  
      # 修改:BOOTPROTO=static, IPADDR=192.168.x.x
      

      修改为静态 IP(示例):

      BOOTPROTO="static"  # 原为dhcp,改为static
      ONBOOT="yes"        # 开机启用此网卡
      IPADDR="192.168.1.100"  # 静态IP地址
      NETMASK="255.255.255.0"  # 子网掩码
      GATEWAY="192.168.1.1"    # 网关
      DNS1="8.8.8.8"           # DNS服务器
      

      重启服务:

      sudo systemctl restart network
      
  3. 故障处理

    • 进入单用户模式
      内核启动界面按 e → 在 linux 行尾添加 init=/bin/bash rwCtrl+X 启动。

    • 注释硬盘
      单用户下执行:

      mount -o remount,rw /      # 挂载根目录可写
      vim /etc/fstab            # 在对应UUID行首加 #
      

四、故障诊断与测试

  1. 最小化测试
    • 步骤
      1. 仅保留:单电源、单CPU(必须插CPU0槽)、单内存;
      2. 短接电源针脚开机;
      3. 逐步添加部件(每次重启);
      4. 若不开机→替换疑似故障部件(内存/CPU)。
    • CPU0槽位必要性:CPU1槽仅在CPU0插入后供电。
  2. 链路故障排查
    • 流程
      1. 重新插拔松动线缆;
      2. 清洁光纤(清洁笔3次以上);
      3. 更换光模块/光纤;
      4. 更换ODF端口。
    • 禁止操作:私自环回测试、同时处理同一设备多条链路。
  3. PXE故障排查
    • 进入方式:开机按 F12
    • 链路问题:更换网线;
    • 端口问题:BIOS中启用PXE功能。

五、存储与RAID

  1. RAID模式对比

    类型读写性能容量利用率容灾能力最少盘数
    RAID0最快100%2
    RAID150%支持1盘损坏2
    RAID5中等(n-1)/n支持1盘损坏3

    RAID(独立磁盘冗余阵列)的作用与核心价值

    一、数据冗余与容错 —— 防止数据丢失

    RAID 最核心的功能是通过多块硬盘的组合,实现数据的冗余备份,避免单盘故障导致数据丢失。

    • 典型场景
      • 企业服务器、数据库存储等对数据可靠性要求极高的场景,若单盘损坏,RAID 可通过冗余数据恢复完整数据。
    • 实现方式
      • RAID 1(镜像):将数据同时写入两块硬盘,两块硬盘互为镜像,任意一块损坏后,另一块可完全替代。
      • RAID 5/6:通过奇偶校验算法(如 XOR)将数据分散存储在多块硬盘中,允许 1 块(RAID 5)或 2 块(RAID 6)硬盘损坏而不丢失数据。
    二、性能提升 —— 读写速度优化

    通过多块硬盘并行处理数据,提升存储系统的吞吐量和响应速度。

    • 典型场景
      • 视频编辑、大数据分析、数据库查询等需要高速读写的场景。
    • 实现方式
      • RAID 0(条带化):将数据分割成多个块,并行写入多块硬盘,理论上读写速度可达单盘的 N 倍(N 为硬盘数量),但无冗余。
      • RAID 10(1+0 组合):先镜像再条带化,同时具备 RAID 1 的冗余和 RAID 0 的速度,适合高并发读写场景(如服务器数据库)。
    三、存储容量整合与管理 —— 逻辑卷抽象

    将多块物理硬盘整合成一个逻辑存储单元,简化管理并灵活扩展容量。

    • 典型场景
      • 数据中心需要统一管理大量硬盘,或需要动态扩容的存储系统。
    • 实现方式
      • 通过 RAID 控制器或软件将多块硬盘组合为一个逻辑卷(如 RAID 5 用 3 块硬盘创建一个卷,容量为 2 块硬盘的总和)。
      • 支持热插拔(Hot Swap),在不中断服务的情况下更换故障硬盘或添加新硬盘。
    四、成本与可靠性的平衡 —— 性价比方案

    RAID 通过不同级别组合,在成本、性能、可靠性之间找到平衡点。

    • 示例对比
      • RAID 0:成本最低(全容量利用),但无容错,适合临时存储或对可靠性要求低的高速场景(如游戏硬盘)。
      • RAID 5:用 N-1 块硬盘的容量换取 1 块硬盘的容错,性价比高,适合中小企业服务器。
      • RAID 1:容量成本翻倍,但可靠性最高,适合金融、医疗等对数据安全性要求极高的场景。
    五、常见 RAID 级别的核心作用对比
    RAID 级别核心作用适用场景优缺点
    RAID 0纯性能提升(条带化),无冗余视频剪辑、游戏存储、临时数据处理速度快,但单盘故障数据全丢,成本最低。
    RAID 1纯数据冗余(镜像),容量减半服务器系统盘、关键数据备份可靠性高,成本高(容量浪费 50%)。
    RAID 5性能 + 冗余平衡(奇偶校验),允许 1 盘故障,容量为 (N-1)/N中小企业服务器、文件存储性价比高,读写性能较好,但重建硬盘时负载高,存在二次故障风险。
    RAID 6比 RAID 5 多一层校验,允许 2 盘故障,容量为 (N-2)/N数据中心、高风险环境安全性更高,适合硬盘数量多的场景,但写入性能略低于 RAID 5。
    RAID 10先镜像后条带化,同时具备高性能和高冗余,容量为 N/2数据库、高并发读写场景综合性能最佳,但成本高(容量浪费 50%),适合关键业务系统。
    六、应用场景总结
    • 个人用户
      • 游戏主机可组 RAID 0 提升加载速度;重要数据备份可组 RAID 1(如双硬盘 NAS)。
    • 企业场景
      • 网站服务器:RAID 5/6 保障数据安全,同时兼顾存储成本;
      • 数据库服务器:RAID 10 平衡读写性能和可靠性;
      • 大数据存储:RAID 0 + 热备盘(牺牲部分容量换速度和容错)。
    • 特殊场景
      • 金融交易系统:RAID 1 + 热备盘,确保零数据丢失;
      • 视频渲染服务器:RAID 0 或 RAID 0+1,最大化读写速度。

    总结

    RAID 的本质是通过硬件或软件层面的磁盘组合策略,解决 “数据安全”“性能瓶颈”“存储管理” 三大核心问题。选择 RAID 级别时,需根据业务对可靠性、速度、成本的需求综合权衡,例如:不能接受任何数据丢失的场景优先 RAID 1/10,而对速度敏感且允许数据丢失的场景可选择 RAID 0。

  2. 配置RAID

    • 开机按 Ctrl+R 进入配置界面;
    • 选择硬盘→初始化(Initialize)→保存。

六、机房管理规范

  1. 操作红线
    • 禁令
      • 禁止脱岗/无工单操作;
      • 禁止未授权人员进出机房;
      • 禁止转借门禁权限。
    • 必须项:操作前核对五要素(机房号、机柜号、SN号、U位、型号)。
  2. 日常流程
    • 巡检重点:温度、设备供电状态、故障灯、门禁/摄像头、安全隐患;
    • 第三方入机房:登记资质、全程随工、制止违规操作;
    • 高温处理:检查盲板位置→联系调低空调温度。
  3. IDC运维职责
    • 服务器/网络设备维护;
    • 故障部件更换(主板/CPU/内存/硬盘);
    • 设备上架/布线验收;
    • 机房巡检与日志记录。

七、网络与协议

  1. 双绞线线序
    • 568A:绿白、绿、橙白、蓝、蓝白、橙、棕白、棕
    • 568B:橙白、橙、绿白、蓝、蓝白、绿、棕白、棕
  2. 交换机与OSI模型
    • 层级:数据链路层(二层交换机),部分支持网络层(三层交换);
    • 远程搭建:Console口连接→CRT配置→向日葵远程协助。
  3. TCP协议
    • 三次握手(建连):
      SYN → SYN-ACK → ACK
    • 四次挥手(断连):
      FIN → ACK → FIN → ACK

八、BMC/IPMI管理

  1. BMC核心功能

    • 远程开关机/监控;
    • 故障诊断;
    • 电源管理。
  2. 关键命令

    1. ipmitool bmc info                # 查看BMC版本
      ipmitool chassis identify        # 点亮UID灯
      ipmitool fru print 0             # 查看FRU信息
      ipmitool fru edit 0 field p 4 SN # 刷写主板SN
      
    管理口是设备专用于配置、监控和维护的独立接口,作用是:
    1. 远程管理设备(初始配置、改参数);
    2. 隔离管理流量与业务流量,保障业务稳定;
    3. 提升安全性(独立网络、权限控制);
    4. 监控设备状态(收日志、固件升级)。

九:补充问题

补充方向1:品牌专项操作
  1. 华三交换机配置差异
    问:你在机房常用华三哪款交换机?如何保存配置?
    考点

    save force  # 华三特有命令(思科为write, 华为为commit)
    
  2. 浪潮服务器BMC特性
    问:浪潮服务器更换主板后,刷新FRU信息与戴尔有何不同?
    考点

    • 浪潮:impi-tool命令参数差异(如ipmitool raw 0x3e 0x49刷写后需验证模式)
    • 戴尔:需用iDRAC图形界面操作
  3. 戴尔服务器诊断工具
    问:如何快速定位戴尔PowerEdge服务器的硬件故障?
    考点

    • 开机按F10进入LC-Lifecycle Controller
    • 故障灯代码:黄灯常亮→内存故障,闪烁→CPU故障

补充方向2:混合环境排障
  1. 多品牌兼容问题
    问:华三交换机连接戴尔服务器时AOC链路不通,如何排查?
    排查链
    IDC数据中心IT运维常识

    备件管理实战

    问:机房里浪潮NF5280M6服务器的内存故障,但只有三星DDR4-3200库存,能否替换?
    考点

    • 查浪潮兼容列表:是否支持第三方内存
    • 看参数:原装为镁光DDR4-2933,需降频使用

补充方向3:厂商工具链(体现技术深度)
  1. 品牌专用工具
    问:你在维护戴尔服务器时,是否用过OpenManage?举例一个应用场景
    答案

    # 场景:批量更新固件
    omconfig system update action=install -firmware=BIOS,1.8.0
    
  2. 华三集群方案
    问:华三IRF堆叠配置中,如何避免脑裂问题?
    考点

    • 必配mad detect(多Active检测)
      :机房里浪潮NF5280M6服务器的内存故障,但只有三星DDR4-3200库存,能否替换?*
      考点

    • 查浪潮兼容列表:是否支持第三方内存

    • 看参数:原装为镁光DDR4-2933,需降频使用


补充方向3:厂商工具链(体现技术深度)
  1. 品牌专用工具
    问:你在维护戴尔服务器时,是否用过OpenManage?举例一个应用场景
    答案

    # 场景:批量更新固件
    omconfig system update action=install -firmware=BIOS,1.8.0
    
  2. 华三集群方案
    问:华三IRF堆叠配置中,如何避免脑裂问题?
    考点

    • 必配mad detect(多Active检测)
    • 交叉线连接mad keepalive端口

版权说明:如非注明,本站文章均为 扬州驻场服务-网络设备调试-监控维修-南京泽同信息科技有限公司 原创,转载请注明出处和附带本文链接

请在这里放置你的在线分享代码
«    2025年9月    »
1234567
891011121314
15161718192021
22232425262728
2930
搜索
最新留言
    文章归档
    网站收藏
    友情链接