TIDB+Flink构建离线实时数仓,如果不用kafka,有更好的策略吗
没有遇到 不使用kakfa的情况。。。如果不使用kafka,谈实时数仓,就比较勉强了。
因为,每一层需要落盘,所以感觉需要配置的任务有些负载
KAFKA 可以做到 “异步处理,应用解耦,流量削锋”;作为数仓的接入层,还是比较常用的;并且目前几乎所有的数据同步工具,都支持写入Kafka;
基本不用kafka 这个目前生产不选择。用ELK
流式数仓不怎么清楚,之前尝试过tidb实时推doris,用的第三方cdc工具;
如果是ticdc,原厂强烈建议中间加个kafka做缓冲 ![]()
TiCDC 可以直接对接 Flink吗
好的,谢谢你
如果生产环境 有数据要提为 向量库 作数据分析 有建议用什么工具吗
要不就中间再加一个MySQL一类的关系型数据库作为中转点
Kafka 在数仓中主要承担实时数据传输、缓冲、解耦的核心角色, 为啥不用呢?
有明确的性能指标(如 TPS、延迟要求)或数据源类型(如多源异构数据)吗?
这种场景感觉还是消息队列比较适合
可以用 Flink CDC 直接连接 TiDB,跳过消息队列。
那就加ELK简单处理。