【TiDBer 唠嗑茶话会 180】TiDB 可观测性调研:关于 Top SQL 内存占用和指标需求,来分享你的监控经验吧!

  1. TopSQL 的数据保存期限大家一般会设置多久?
    一个月
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    平均耗时,等待时间,io读
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
  1. TopSQL 的数据保存期限大家一般会设置多久?
    一个月左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有
TopSQL 的数据保存期限大家一般会设置多久?
一般都是当天,甚至几个小时。有7天内查询的能力
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
内存,cpu吧
有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
无

TopSQL 的数据保存期限大家一般会设置多久?
直接用的默认值。

除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
事务锁、内存

有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
事务锁相关id和sql

TopSQL 的数据保存期限大家一般会设置多久?
30天

除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
语句执行次数,执行时间,执行计划

有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
可以考虑跟mysql慢查询日志一样增加一个扫描行数和实际返回行数

  1. TopSQL 的数据保存期限大家一般会设置多久?
    30天,多多益善。

  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    会看总执行时间,执行次数,单次平均执行时间,报错次数,锁等待时间,调度等待时间,io等待时间。执行计划,历史执行计划。

  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    那肯定是AI功能,top sql的优化建议,加什么索引或修改分区键或改写建议

  • TopSQL 的数据保存期限大家一般会设置多久?
    一个月
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    SQL 锁
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    向量数据优化,oracle 有这方面
  1. TopSQL 的数据保存期限大家一般会设置多久?
    两周左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有

界面很好,需要补充极端情况的问题,sql太长等等

  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一周左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    执行时间,死锁等。
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    这个暂时还没关注到。

目前的TOP SQL功能是重要的sql性能分析工具,运维中用的频率很高,功能很好,有以下使用希望能进一步优化:

  1. TOP SQL中希望像sql语句分析和慢查询中一样,完整的展示sql的执行计划。
  2. 不仅展示TOP 5,希望可以在页面增加一个自定义TOP 几 的按钮,目前大多数场景下TOP 5够用,但是偶尔可能需要看TOP 10和TOP 20等,目前的方法只能手动去执行http 接口语句,不太方便。

. 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?
基础设施监控、应用性能监控、日志管理、告警系统
. 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?
图表类型希望包含折线图、柱状图、热力图
. 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?
线上业务响应延迟,因缺乏分布式追踪与日志、监控数据的联动功能,仅通过 TopSQL 发现某查询耗时高,但无法快速定位该 SQL 是由哪个应用服务、哪个业务接口发起,需手动排查大量日志,导致问题定位耗时超 1 小时

  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一个月左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    SQL 锁问题
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    向量数据优化,oracle 有这方面
  1. TopSQL 的数据保存期限大家一般会设置多久?
    一个月
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有

TopSQL 的数据保存期限大家一般会设置多久?
看数据量,半年或一年
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
语句执行频次、响应时间、CPU消耗
有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
暂时没有

你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?
多数情况下其提供的SQL执行耗时、平均响应时间、调用频率等基础性能数据准确
除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?
设施监控、APM、日志管理、分布式追踪、告警系统

默认设置
sql的来源最好能体现

  1. TopSQL 的数据保存期限大家一般会设置多久?
    1周左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    内存、锁、高频sql
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    针对复杂、响应耗时较长的sql优化、索引优化一类的信息

TopSQL 的数据保存期限大家一般会设置多久?
30天
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
cpu,io,锁

默认设置,每秒执行次数,每次执行平均耗时毫秒,每次执行实际返回行数。优化建议提示