【 TiDB 使用环境`】prod
【 TiDB 版本】v5.3.0
【遇到的问题】tidb节点很不稳定,各组件这两天经常down状态,也会自动恢复
【复现路径】 无
【问题现象及影响】
tidb各节点很不稳定,各组件这两天经常down状态,也会自动恢复;
只部署了tikv与pd的节点,比较稳定。
【附件】
请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。
【 TiDB 使用环境`】prod
【 TiDB 版本】v5.3.0
【遇到的问题】tidb节点很不稳定,各组件这两天经常down状态,也会自动恢复
【复现路径】 无
【问题现象及影响】
tidb各节点很不稳定,各组件这两天经常down状态,也会自动恢复;
只部署了tikv与pd的节点,比较稳定。
【附件】
请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。
问题的复现路径是啥~
需要贴一下
做了什么操作引发的这个问题~
这个不用复现,这两天一直如此。 我刚才那有问题的两台CPU升了就好了。 但之前什么原因还是不知道。 目前都没业务,理论不应该有啥负载的。
你这个是TiDB集群的TiKV组件经常重启是吧,PD跟TiDB组件有没有这样?
如果只是TiKV组件出现这样的情况的话,请从两个方面入手:
panic字样,这种属于bug;block cache size监控,看看是否属于OOM只是tidb server节点宕吗? 数据库内有自动统计信息收集、GC等默认任务执行,看下analyze_version变量是不是2,如果是2 按照下面链接操作改成1看看
https://docs.pingcap.com/zh/tidb/v6.0/statistics#统计信息简介
感觉他没描述清楚,从他的贴图来看,不是tidb重启,是tikv重启
tidb各节点很不稳定,各组件这两天经常down状态,也会自动恢复;
只部署了tikv与pd的节点,比较稳定。
看这描述像是tidb server宕
从你提供的信息来看 目前只有tikv 节点down tidb和pd 都正常的是吗?
你看他截图,是191down了,191上是tikv。还有leader的监控,是189跟191上的leader时不时掉到了0
tikv出现back off 属于正常现象 但是pd报错需要排查一下
tidb tikv日志里搜索Welcom 看下前面的日志有什么报错信息
升CPU后就好了 cpu是做什么操作了?
190:主控机器,pd,tikv
189: tidb,pd,tikv
191: tidb,pd,tikv
190基本没出现问题;
189跟191感觉是轮着down(不仅仅是tikv,pd/tidb也会down)
因为从昨天开始出现这个症状的,我只是截取了今天14-15点的日志与监控。
方便在dashboard中将今天13-15点的日志导出来,发在这儿吗?
logs.zip (1.3 MB) 这个是最近一小时的日志;
我去dashboard点SQL语句分析、慢查询的时候,发现有点卡;间隔一会会执行tiup cluster display tidb-prod发现,189跟191的的tidb各down了一次,然后自己正常了。
看来升级CPU只是好了些,本质问题还是没解决