博客 - 数智福建，AI共生｜TiDB福州站活动观后感：当“减法哲学”击穿数据架构——为什么砍掉 Flink 反而让团队更强大？

吴炳锡老师的分享，与其说是一次技术方案迁移，不如说是一场深刻的数据团队“认知革命”。其核心冲击力并非来自 TiDB、TiCDC 或 Databend 这些具体工具，而在于一个反直觉的结论：解决复杂系统问题，有时最有效的路径是“做减法”，而非“做加法”。

长期以来，Flink 作为实时计算的“标准答案”，被无数团队奉为圭臬。我们陷入一种“技术正确”的迷思：数据实时性要求越高，系统就必须越复杂，技术栈就必须越“硬核”。游戏团队的遭遇——运维成本高、故障难排查、扩展成本高、团队频繁加班——并非个例，而是这种迷思下的必然产物。他们曾认为“没做好，就是人没招够”，将问题归咎于人力资源，而非架构本身。

新方案的精髓，正在于对这套“Flink 中心论”的彻底解构。它将链路从“Flink Job 集群 + Kafka + 各类存储”的庞然大物，简化为 “TiDB → TiCDC → S3 → Databend → UDF → TiDB” 的清晰管道。这种简化不是功能的阉割，而是将复杂性从“运行时”转移到“配置时”和“开发时”。

从“维护集群”到“维护 SQL”：Flink 的运维，本质是维护一个分布式的、有状态的、内存计算引擎。你需要懂 JVM、调优 Checkpoint、处理背压、管理集群资源。而新方案中，核心逻辑由 SQL 和 Python UDF 表达。运维的焦点变成了 SQL 的执行性能、Task 的调度状态、UDF 服务的可用性。后者对大多数数据工程师而言，门槛更低，更贴近业务逻辑本身。

从“代码碎片化”到“逻辑集中化”：散落在各处的 Java/Scala Job，如同一个个黑盒，修改一处可能牵动全身。而基于 Databend 的 Task 和 Stream，将相关逻辑聚合在统一的 SQL 环境中。一个业务需求（如“新用户奖励发放”）的所有处理步骤——过滤、转换、去重、写回——都可以在一个或几个紧密关联的 SQL 片段中完成，可读性、可维护性呈指数级提升。

从“被动救火”到“主动掌控”：凌晨被背压或 OOM 告警惊醒的噩梦，源于对运行时复杂系统的失控感。新方案将延迟控制在了秒级（甚至亚秒级），故障定位从“翻 GC Log”变成了“查 Task 执行历史 SQL”。当系统足够简单，问题的根因往往一目了然，团队的掌控感和安全感随之增强。

这场变革最深刻的启示在于：技术的价值，最终要由“人的体验”来度量。一个让团队持续加班、人人自危的架构，无论技术多“先进”，都是失败的。吴炳锡老师团队的“战果”——新 Pipeline 上线从 1-2 天缩至 1-2 小时，凌晨告警近乎消失——其背后是团队从“运维机器”到“业务赋能者”的角色转变。他们节省下来的不仅是加班时间，更是创造力与创新精力。这提醒每一位技术决策者：在评估架构时，除了吞吐量、延迟、可用性等硬指标，“团队幸福感”与“心智负担”，或许才是衡量系统长期健康度的“软指标”。