背景:mysql 数据要归档到tidb,不要求实时,每天0点归档一次,归档后的表名字和原来也是不一样的,大家有建议方案嘛,DM感觉很重,不太适合和脚本集成在一起
pt-archive 是不是也不太好用了,另外MySQL的环境是云数据库哦
tidb 也用云上的,然后在用云上的工具不就好了
tidb是自建的
数据同步就那么几种方式。DM不用话,定时如果能区分数据,就是Kettle或者datax以及其他一些开源的工具,数据要是没法区分,那就只能找一些cdc的工具实时解析然后看tidb端怎么写入吧。
- 分批归档:按时间或主键范围过滤数据,避免一次性导出全表
- 幂等写入:TiDB 目标表设置唯一键,使用
INSERT ... ON DUPLICATE KEY UPDATE避免重复数据 - 资源控制:避开业务高峰(0 点执行),设置合理的批次大小和超时时间
- 表名处理:归档后直接导入到 TiDB 的新表,或导入后通过 RENAME 改名
请问pt-archiver从mysql归档到tidb遇到什么问题了吗?最近也想搞一下
怕不兼容,我感觉是兼容的,我最近正在搞呢
1 个赞
听话,用DM 已经很合适了
云上不是有像dts一类的工具吗
其他工具datax kettle
datax不能做增量同步吧
LOAD DATA`就可以.
如果你有 TB 级别的数据需要导入,LOAD DATA 可能不是最优解。建议使用官方工具 TiDB Lightning 或 SQL 语句 IMPORT INTO (v7.5+ 引入),它们的性能更强,且具备断点续传等特性
可以, 比如符合时间增量的要求
dataX呢,感觉你这个已经是跨云跨数据库了,实在不行就用etl工具试试分批同步
还是用DM吧,虽然有点重,但兼容性好些
datax可以增量同步吗
这些都是离线归档的吧,如果要实时归档有什么好办法
实时那就用dsj
好吧,这个是收费的了
使用etl工具吧,比如datax之类的,再结合airflow设置调度;或者搜索下ninedata(可视化界面配置,也可以设置定时)