但不是ai说的结论,我把其它服务都关了,依然很高
难绷,要不要试试重启下服务器。
我感觉重启有效果 ![]()
冲突方面的异常有木有
需要确保 TiKV 的 Region 在不同节点之间均匀分布,可以使用 pd-ctl 工具检查和调整 Region 的分布。
119节点负载有问题
119 节点承载服务数量更多,连接数本身偏高。即便连接数持平,该节点执行大事务也会造成负载更高,仅对比连接数意义不大,同时需排查集群是否存在热点问题。
我已经关闭多的工作负载了, 还是高于其他节点
局部热点,组件拆分吧
检查119 节点非 TiDB 进程
重点排查119节点吧
没有非tidb进程了
119 节点集中部署监控、告警、CDC 等多个服务,进程数量多,进程调度队列变长,直接拉高系统 Load。
将 Prometheus、Alertmanager 等监控组件、安全代理进程迁移至独立服务器,解除混合部署。临时停止 119 节点上非核心监控进程,观察负载是否下降,定位高负载来源
反过来问一句,关闭了全部tidb实例后,负载还高吗?我有点怀疑服务器上有隐藏病毒程序了。
操作系统是什么?看着cpu使用率sys和user都不高,有点像操作系统的bug,负载显示异常。