tikv 手动修改系统时间后，tidb prometheus 节点有大量的读IO问题

Hacker_zwTwZVZl · 2025 年8 月 21 日 04:05

【TiDB 使用环境】生产环境
【TiDB 版本】tidb-5.4.0
【操作系统】cenos 7.9
【部署方式】AWS EC2 自建 8c 32G 1.5T SSD（什么机器配置、什么硬盘）
【集群数据量】1 套集群
【集群节点数】
3 个 tidb-server
3个 pd-server
3个 tikv-server
2 个tiflash
1个tiup 管理服务器（包括：prometheus、grafana、alertmanager）

【问题复现路径】

【遇到的问题：问题现象及影响】
1、新接手服务器，运维人员手动修改过 3 个 tikv 的 date，
3、tidb-server-01~03 的log 中出现比较频繁的 ERROR

4、tikv-03 的 log 中出现大量的 [WARN] [kv.rs:1092] [“call CheckLeader failed”] [err=Grpc(RemotStopped)] 的告警

5、tiup 管理机有周期性的高IO，经过排查监控如下：
（1）grafana 监控：

（2）top

（3）进程：

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

xfworld · 2025 年8 月 21 日 05:43

打算怎么弄？

像风一样的男子 · 2025 年8 月 21 日 06:37

版本太低了，升级能解决百分之99的问题。

TiDBer_HErMeXDz · 2025 年8 月 21 日 08:30

版本低。建议升级到高版本的LTS（长期支持版本）

nobody · 2025 年8 月 21 日 09:29

ng-monitoring-server 主要是存储 topsql 数据，如果确定是它导致的 cpu 高的问题。可以考虑关闭 topsql 功能。

这些报错按理来说和修改操作系统时间没啥关系。

TiDBer_sheldon · 2025 年8 月 22 日 00:29

系统时间改变了，会不会刚好到定期清理的周期，在清理过期数据

独善其身 · 2026 年2 月 9 日 04:37

时间的修改应该印象到kv的时钟了吧

TiDBer_Ejh0eCXc · 2026 年2 月 9 日 23:13

时间不同步引发的“内乱”

TiDBer_Ejh0eCXc · 2026 年2 月 9 日 23:13

应该 配置 NTP： 在所有服务器上配置 chronyd 或 ntpd ，并设置为开机自启

suyh1988 · 2026 年2 月 10 日 00:43

是的，应该从根上解决这个问题。

Kongdom · 2026 年2 月 10 日 14:48

正常应该是有部署ntp的，建议先检查一下ntp服务，然后通过ntp服务来保证集群时间的一致性。

system · 2026 年2 月 17 日 14:49

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。