如果你是开发工程师,你觉得你会动手结合 AI 及 TEM 运维平台,去做哪些“简单且有效果、容易实现”智能运维的功能开发?
痛点:TiDB 组件多(PD, TiKV, TiDB, TiFlash),告警风暴频繁。运维人员收到大量“CPU高”、“延迟高”的邮件/短信,难判断哪个是根源。
解决方式:
输入:将同一时间窗口内的多条原始告警(Prometheus alerts)、相关组件的错误日志片段、以及当前的拓扑状态作为Context投喂给 LLM。
处理:让 LLM 基于内置的 TiDB 故障知识库RAG,识别告警之间的因果关系(例如:TiKV Disk Full导致了PD Leader…