tikv 手动修改系统时间后,tidb prometheus 节点有大量的读IO问题

【TiDB 使用环境】生产环境
【TiDB 版本】tidb-5.4.0
【操作系统】cenos 7.9
【部署方式】AWS EC2 自建 8c 32G 1.5T SSD(什么机器配置、什么硬盘)
【集群数据量】1 套集群
【集群节点数】
3 个 tidb-server
3个 pd-server
3个 tikv-server
2 个tiflash
1个tiup 管理服务器(包括:prometheus、grafana、alertmanager)

【问题复现路径】

【遇到的问题:问题现象及影响】
1、新接手服务器,运维人员手动修改过 3 个 tikv 的 date,
3、tidb-server-01~03 的log 中出现比较频繁的 ERROR

4、tikv-03 的 log 中出现大量的 [WARN] [kv.rs:1092] [“call CheckLeader failed”] [err=Grpc(RemotStopped)] 的告警

5、tiup 管理机有周期性的高IO,经过排查监控如下:
(1)grafana 监控:


(2)top

(3)进程:

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

打算怎么弄?

版本太低了,升级能解决百分之99的问题。

版本低。建议升级到高版本的LTS(长期支持版本)

ng-monitoring-server 主要是存储 topsql 数据,如果确定是它导致的 cpu 高的问题。可以考虑关闭 topsql 功能。

这些报错按理来说和修改操作系统时间没啥关系。

系统时间改变了,会不会刚好到定期清理的周期,在清理过期数据

时间的修改应该印象到kv的时钟了吧

时间不同步引发的“内乱”

应该 配置 NTP: 在所有服务器上配置 chronydntpd ,并设置为开机自启

1 个赞

是的,应该从根上解决这个问题。

正常应该是有部署ntp的,建议先检查一下ntp服务,然后通过ntp服务来保证集群时间的一致性。

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。