tidb-server 新加几个tidb-server节点请求慢

【TiDB 使用环境】生产环境 /测试/ Poc
【TiDB 版本】8.1.2
【操作系统】
【部署方式】云上部署(什么云)/机器部署(什么机器配置、什么硬盘)
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
问题:tidb-server压力大, 我们新增五个tidb-server ,前端负载均衡权重一样,新加的节点连接跟之前的也一样,但是新加的节点 QPS上不去,负载很低,
缓存也上不去

同时新加的五台都有问题,怀疑是不是tidb-server层的缓存有关系

应用是不是java的?是不是用的连接池? 客户端使用了固定连接池不会立刻连到新节点上的。

2 个赞

忘了说么了哈,
1.重新加入节点之后,业务是有重新reload的哈,而且连接也均衡的
2.新加几个节点qps上不去看着是因为慢查询非常多,导致上不去

那你去新节点看下慢日志,是不是 sql 执行计划走的不好。

看你的描述,感觉是新扩容节点缺少统计信息啥的导致执行计划可能异常。不敢确定。不过看对应于节点慢日志肯定有点用。

或者简单粗暴点将核心用的几个表、慢日志的 sql 相关表统计信息都手动收集一遍看看。

这个当时看过 手动执行sql 是没有问题的,看都能走索引

而且只有新加的tidb-server节点有问题,应该跟统计信息也没啥关系?如果跟统计信息有关系,应该是所有tidb-server节点?

看了对应节点慢的sql 也都是走的point get

然后时间耗时看不出是哪里耗时

就是缓存,不用管会越跑越快的。等到所有节点内存使用率接近平衡就不会慢了


目前都是还是这样 不合理的 持续几个小时了

新扩容的节点的服务器和之前的 cpu 、内存、型号都一样?

  1. pointget 都1.7s,能看看慢在哪儿了吗?
  2. 新加的节点跟之前的比,机器配置,网络环境都一样的吗

新加的机器 同时有五台,五台都出现这种情况,新加的机器类型跟之前的也是一样的 ,节点都在一个机房机柜里

image

发现这个表是0条数据 统计信息也没有问题(也重新收集了)从processlist 看 还是很慢

发下 tidb.log 和 slow log 吧。得看看了。

tidb.log.gz (5.5 MB)
tidbslow.log.gz (29.6 MB)

上传了

1、使用 TiDB Dashboard 的 “Overview”、“SQL Summary”、“Hosts” 页面持续观察各节点性能。
2、启用 Prometheus + Grafana 监控 TiDB 层关键指标(QPS、CPU、内存、连接数、Plan Cache Hit Ratio 等)

你这个确实不正常,内存不应该掉下来才对,pointget也不正常,能不能直接升级规格,低规格节点有点多,感觉节点虚拟化有点问题

dmesg -T 看下呢,是不是内存有问题导致的