MongoDB维护过程中常用问题处理
MongoDB实例监控中,CPU使用率过高问题排查?
- 使用top命令查看当前CPU资源利用情况,若都在正常范围,则考虑是否频繁操作数据库。
- 确定业务是否有很高的操作数据库频率 若通过监控指标或command line发现,业务QPS过高,则需要考虑升级实例配置,否则排查是否有慢查询堆积。
- 确定是否有慢查询堆积 在主节点用慢查询日志(system.profile)找到超过200ms的语句,然后再通过.explain()解析影响行数,分析为什么超过200ms。
container网络入/出流量告警问题?
当出现网络流量过高的情况,通常是因为服务器与服务器之间拷贝数据导致的,拷贝结束,流量即可恢复正常,如果不是数据拷贝,通常是服务器中毒或者受到攻击,在对内或对外大量发包导致,此时,可按照以下方法进行排查
- 如果您使用的是Linux系统的服务器,可以在系统中安装nethogs查看具体的进程占用流量的情况(如nether eth0->查看网卡具体流量)并杀死该进程;对于一些常见的网络问题,如容器之间网络通信问题,您可以使用Tcpdump工具捕获网络流量,来解决这些网络问题.
- 如果您使用的是windows系统,可通过资源监视器(启动任务管理器>资源监视器>网络)看到哪些进程占用网络流量并结束相关进程.
容器down 后排查处理?
当prometheus监控到容器down指标Container Killed告警,说明容器可能失效或终止运行,以异常状态退出或健康检查失败,k8s的核心组件 kubelet会根据设置的pod重启策略自动重启该容器,例如容器运行时内存超出限制,容器以Failed状态终止,kubelet则自动重启该容器。而pod中的守护进程supervisor会保证mongod服务自动重启。
MongoDB监控里Memory使用率过高?
mongo为了优化读写效率,将内存当做缓存,读写次数越多、数据量越大,缓存就越大。
解决办法:
- 控制并发连接数: MongoDB driver在连接mongod时,会维护一个连接池(默认100),当有大量的客户端同时访问同一个mongod时,就要减少每个客户端连接池的大小,可以在配置文件中通过配置net.maxIncomingConnections来限制最大的并发连接数,防止数据库压力过载。或者增大memory资源。
- 是否配置journal mongodb4.0默认开启journal,这样会持久化存储,不过会耗费内存资源,除非正常关闭数据库。可以在配置文件中关闭journal,不会做持久化存储,而是每分钟做一次全量的checkpoint,所以在异常出现的情况下,会丢掉大概一分钟的数据。
存储使用率达到预警值问题?
mongodb删除数据时,不会直接释放磁盘,而是产生很多碎片。这些碎片会被mongodb继续使用,当有新数据插入时,会重复利用这些碎片,不需要新申请磁盘,导致磁盘会处于高水位的使用水平,由于碎片只会被所属的库使用,在新建很多库的情况下,会使磁盘资源越来越紧张。解决方法:
- 使用命令:df -TH,查看系统的空间使用情况,查看是哪个数据盘资源负载过高,理想情况下,考虑提升系统资源,否则按以下方法排查处理。
- 将准备节点清空,重新同步同步 备节点同步的过程中,碎片空间会被清理。备节点同步的是完全的数据和索引。然后再进行一次主备切换,再将主节点数据清空,同步一次,最终让主备节点都达到释放碎片的目的。
- 使用compact命令 compact是mongodb中的压缩命令,可以删除数据产生的碎片。在WiredTiger引擎下,该命令会将整理出的空间释放给操作系统: 进入要执行的数据库:db.runCommand({compact:"库名/集合名",force:true}),在每一个节点上都需要执行,且带force:true参数,否则出错。
- 做repairDatabase 在mongodb数据库中运行db.repairDatabase() , 或者 db.runCommand({ repairDatabase: 1 })、或带几个参数: db.runCommand({ repairDatabase: 1, preserveClonedFilesOnFailure:
, backupOriginalFiles: } ),这是官方认为唯一可以回收磁盘空间的方法,不过,能不用的情况下,尽量不用,会花费很多时间与性能的。