【TiDBer 唠嗑茶话会 180】TiDB 可观测性调研:关于 Top SQL 内存占用和指标需求,来分享你的监控经验吧!

  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一周左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    执行时间,死锁等。
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    这个暂时还没关注到。

TopSQL 的数据保存期限大家一般会设置多久?
默认

除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
锁、IO繁忙程度

有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
分区状态 索引状态

  • TopSQL 的数据保存期限大家一般会设置多久?
    一般半个月就够了吧
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    觉得可以列一下,平均时间,最大时间,扫描数据量,执行计划等
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有

1.TopSQL 的数据保存期限大家一般会设置多久?
15天
2.除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
IO,平均执行时间,最大执行时间,数据量,执行计划
3.有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
针对复杂、响应耗时较长的sql优化,索引建议等
4,. 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?
折线图、柱状图、热力图,完整的sql语句及相关信息。

1.TopSQL 的数据保存期限大家一般会设置多久?
默认值
2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
语句执行次数和单次响应时间 ,以及活动占比,
3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
希望能根据等待事件、主机等排序,并能下钻显示执行计划等

TopSQL 的数据保存期限大家一般会设置多久?
一般设置一个周左右
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
SQL 锁、慢SQL
有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
向量数据优化

TopSQL 的数据保存期限大家一般会设置多久? 10天,一般一周内看一下,看有无有优化的SQL;
平时比较关注CPU、IO和网络吞吐量

  1. 界面:简洁但藏得深
  2. 数据:CPU 准,TiKV 盲区
  3. 联动:想要一键跳转
  4. 展示:火焰图+对比+导出
  5. 血案:热区/大事务漏检
  6. 告警:静态阈值误报多
  7. 效率:分钟定位,缺历史、缺指标
1 个赞
  • 在使用 dashboard 中的 Topsql 功能时,你觉得操作界面是否简洁直观?有没有遇到过界面交互不流畅、功能入口难找、配置难的情况?
  • 你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?
    使用频率相对高,能初步满足需求,但希望可以提供更多观测指标
  • 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?
    sql 语句分析,建议 sql 语句分析 增加“选择列”,展示 CPU 使用信息
  • 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?
    希望是图表
  • 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?
    比如 tidb cpu 高,还是内存使用等,当前在 TOP SQL 无法展示
  • 你认为当前的可观测性功能在告警方面表现如何?告警规则是否灵活易配置,告警信息是否清晰、及时,有没有出现过误报或漏报的情况?
    基本满足使用
  • 从整体使用体验来看,你觉得可观测性相关功能在帮助你提升工作效率、保障系统稳定运行方面,效果如何?还有哪些方面需要改进?
    希望提供更多的展示维度,比如展示实例、展示不同角色如 tidb 等,当前展示的信息还是太少了
  1. TopSQL 的数据保存期限大家一般会设置多久?
    1个月

  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    SQL执行耗时、事务、锁情况

  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂无

  1. 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?
    之前出现过一条语句导致整个集群出现问题,因为消耗完了集群资源,所有看到很多sql都是慢sql,导致不好找到问题所在

有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!),再补充几条:
1、等待事件,不一定用等待事件实现,但是希望有一种办法可以在集群整体缓慢的情况下直接定位根因SQL(当前dashboard里可以查看每个tidb节点的某时刻资源消耗最大的SQL占比,但是面对单集群几十个TIDB节点的情况下没有高效确定的办法)。
2、单条SQL执行次数统计,可以按照分钟、小时,统计某条SQL的执行次数,以便快速定位数据库高消耗与业务变动的关系。类似这样:

3、针对unified read pool cpu的使用率,化为百分比的数值,当前CPU使用数/最大可使用的cpu数。

有没有大伙帮忙解答下Top SQL遇到的问题?

  1. TopSQL 的数据保存期限大家一般会设置多久?
    没单独设置,用的默认值。
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    事务锁、内存
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    事务锁,可以看到锁进程语句和被锁进程语句
  1. 在使用 dashboard 中的 Topsql 功能时,你觉得操作界面是否简洁直观?有没有遇到过界面交互不流畅、功能入口难找、配置难的情况?

    当前的直观感受就是显示的信息较少

  2. 你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?

    平时有点忽略这个功能。 主要集中精力分析SQL优化, 做binding.

  3. 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?

    更方便的按照时间段来分析SQL,比如某个时间点高并发次数,资源消耗等帮助分析功能。最好,可以有优化建议。

TopSQL 的数据保存期限大家一般会设置多久?
一个月
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
线程池相关
有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
暂无

  1. 在使用 dashboard 中的 Topsql 功能时,你觉得操作界面是否简洁直观?有没有遇到过界面交互不流畅、功能入口难找、配置难的情况?
    界面简洁,操作流畅没怎么卡过,没配置过,就打开就用了,很简单。
  2. 你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?
    经常用来定为热点问题,数据基本准确,详细的执行情况还得去慢查询里,或者 SQL 语句分析里看
  3. 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?
    经常会和流量可视化一起分析热点问题,现在只能手工对,希望能联动,更简单的定位问题根因。
  4. 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?
    感觉可以针对场景去做各种联动吧。
  5. 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?
    还好。
  6. 你认为当前的可观测性功能在告警方面表现如何?告警规则是否灵活易配置,告警信息是否清晰、及时,有没有出现过误报或漏报的情况?
    没有 SQL 级别的告警,当然在数据库层面做 SQL 级别的告警也不太好。
  7. 从整体使用体验来看,你觉得可观测性相关功能在帮助你提升工作效率、保障系统稳定运行方面,效果如何?还有哪些方面需要改进?
    肯定会提升效率,这是数据库的好用重要一环。感觉可以调研一下各类数据库,取其精华
  • TopSQL 的数据保存期限大家一般会设置多久?
    没设置过,不关心这个指标

  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    io高的

你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?
不常用,更多是看sql语句分析

  1. 在使用 dashboard 中的 Topsql 功能时,你觉得操作界面是否简洁直观?有没有遇到过界面交互不流畅、功能入口难找、配置难的情况?
    较为简洁,没卡顿过
  2. 你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?
    使用频率相对高,能初步满足需求
  3. 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?
    sql 语句和运行效能分析
  4. 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?
    数据聚合,图形辅助
  5. 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?
  6. 你认为当前的可观测性功能在告警方面表现如何?告警规则是否灵活易配置,告警信息是否清晰、及时,有没有出现过误报或漏报的情况?
    基本满足使用
  7. 从整体使用体验来看,你觉得可观测性相关功能在帮助你提升工作效率、保障系统稳定运行方面,效果如何?还有哪些方面需要改进?
    希望提供更多的展示维度,比如展示实例
1 个赞
  1. TopSQL 的数据保存期限大家一般会设置多久?
    30天
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    当前会话可以加进去
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    基本可以了