tidb报错:[WARN] [region_request.go:1736] ["tikv reports `ServerIsBusy` retry later"] [reason="tiflash cop pool queued too much, current = 321, limit = 320"]

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
tidb日志报错,已经调整了cop_pool_size,重启了tiflash和应用,但是报错依然存在
[WARN] [region_request.go:1736] [“tikv reports ServerIsBusy retry later”] [reason=“tiflash cop pool queued too much, current = 321, limit = 320”] [ctx=“region ID: 88115350, meta: id:88115350 start_key:"t\200\000\000\000\000\014\321j_r\003\200\000\000\000\0014\330\216\003\254\000\000\000\010\220S\303" end_key:"t\200\000\000\000\000\014\321k" region_epoch:<conf_ver:9461 version:667467 > peers:<id:88115351 store_id:20315681 > peers:<id:88115352 store_id:20314239 > peers:<id:88115353 store_id:20313003 > peers:<id:88115354 store_id:37499124 role:Learner > peers:<id:93655349 store_id:88182654 role:Learner > , peer: id:88115354 store_id:37499124 role:Learner , addr: 192.168.0.198:3930, idx: 0, reqStoreType: TiFlashOnly, runStoreType: tiflash”]

1 个赞

压力太大了吧,扩容或者优化sql吧。

1 个赞

从监控看资源消耗不大,所以想调整coprocessor 数量,调大了cop_pool_size,但是没有效果

1 个赞

cpu和内存在报错的时间还有50% free,32个core,峰值使用率1800%

1 个赞

tiflash内存满了吧,征用严重?

没满,这个报错是队列满了吧,并发的coprocessor进程达到了上限,所以想调高limit,官方文档建议的cop_pool_size和limit的参数都调高了,但是没有生效,上限还是320。涉及到的sql和表比较多,是个批量,快速定位比较困难,扩资源的话,监控数据也没达到扩资源的程度

cop_pool_size的相关参数5.0引入,调完之后show config可以看到参数值和预期一致,cpu使用率有提升,但是大部分是sys,这个报错还在,数值依然320,日志看这个参数无效果

修改一下tiflash的参数再重启试试呢

ANALYZE TABLE试过吗?

已经试过了

有定时任务在跑,健康度没有问题

检查下 TiFlash 的 cop_pool_size 参数