tug_twf
(Hacker Fqg5 Vi Rn)
1
【TiDB 使用环境】生产环境 /测试/ Poc
【TiDB 版本】8.1.2
【操作系统】
【部署方式】云上部署(什么云)/机器部署(什么机器配置、什么硬盘)
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
问题:tidb-server压力大, 我们新增五个tidb-server ,前端负载均衡权重一样,新加的节点连接跟之前的也一样,但是新加的节点 QPS上不去,负载很低,
缓存也上不去
同时新加的五台都有问题,怀疑是不是tidb-server层的缓存有关系
应用是不是java的?是不是用的连接池? 客户端使用了固定连接池不会立刻连到新节点上的。
2 个赞
tug_twf
(Hacker Fqg5 Vi Rn)
3
忘了说么了哈,
1.重新加入节点之后,业务是有重新reload的哈,而且连接也均衡的
2.新加几个节点qps上不去看着是因为慢查询非常多,导致上不去
WalterWj
(王军 - PingCAP)
4
那你去新节点看下慢日志,是不是 sql 执行计划走的不好。
看你的描述,感觉是新扩容节点缺少统计信息啥的导致执行计划可能异常。不敢确定。不过看对应于节点慢日志肯定有点用。
WalterWj
(王军 - PingCAP)
5
或者简单粗暴点将核心用的几个表、慢日志的 sql 相关表统计信息都手动收集一遍看看。
tug_twf
(Hacker Fqg5 Vi Rn)
6
这个当时看过 手动执行sql 是没有问题的,看都能走索引
tug_twf
(Hacker Fqg5 Vi Rn)
7
而且只有新加的tidb-server节点有问题,应该跟统计信息也没啥关系?如果跟统计信息有关系,应该是所有tidb-server节点?
tug_twf
(Hacker Fqg5 Vi Rn)
8
看了对应节点慢的sql 也都是走的point get
然后时间耗时看不出是哪里耗时
diwing
(Ti D Ber R Qstj35v)
9
就是缓存,不用管会越跑越快的。等到所有节点内存使用率接近平衡就不会慢了
WalterWj
(王军 - PingCAP)
11
新扩容的节点的服务器和之前的 cpu 、内存、型号都一样?
tug_twf
(Hacker Fqg5 Vi Rn)
13
新加的机器 同时有五台,五台都出现这种情况,新加的机器类型跟之前的也是一样的 ,节点都在一个机房机柜里
tug_twf
(Hacker Fqg5 Vi Rn)
14

发现这个表是0条数据 统计信息也没有问题(也重新收集了)从processlist 看 还是很慢
WalterWj
(王军 - PingCAP)
15
发下 tidb.log 和 slow log 吧。得看看了。
tug_twf
(Hacker Fqg5 Vi Rn)
16
lllzd
(时光旅行者)
18
1、使用 TiDB Dashboard 的 “Overview”、“SQL Summary”、“Hosts” 页面持续观察各节点性能。
2、启用 Prometheus + Grafana 监控 TiDB 层关键指标(QPS、CPU、内存、连接数、Plan Cache Hit Ratio 等)
diwing
(Ti D Ber R Qstj35v)
19
你这个确实不正常,内存不应该掉下来才对,pointget也不正常,能不能直接升级规格,低规格节点有点多,感觉节点虚拟化有点问题