导入数据冲突源头到底在哪里?

冲突数据,即两条或两条以上的记录存在 PK/UK 列数据重复的情况。当数据源中的记录存在冲突数据,将导致该表真实总行数和使用唯一索引查询的总行数不一致的情况。冲突数据检测支持以下策略:

  • remove:推荐方式。记录并删除所有的冲突记录,以确保目的 TiDB 中的数据状态保持一致。
  • none:关闭冲突数据检测。该模式是两种模式中性能最佳的,但是可能会导致目的 TiDB 中出现数据不一致的情况。
    使用 Physical Import Mode - v6.5 | TiDB 文档中心
    在 v5.3 之前,TiDB Lightning 不具备冲突数据检测特性,若存在冲突数据将导致导入过程最后的 Checksum 环节失败。开启冲突检测特性的情况下,只要检测到冲突数据,TiDB Lightning 都会跳过最后的 Checksum 环节(因为必定失败)。
    文档所示,这里冲突是dumpling导出时的问题还是在导入时的问题?源库的PK和UK不可能会有重复数据吧

在tikv上对同一个kv修改是需要顺序写入修改的吧

导入过程才有数据冲突的问题

是什么原因会导致冲突呢?逻辑导入我看文档里也说会有冲突

只是说遇到冲突的场景,冲突的原因可能会有很多,比如导出之后数据又被修改了

物理导入期间修改了数据?

不一定是物理模式导入时,普通模式也有冲突数据检测,这里只是说明了lightning在导入时遇到冲突数据的行为

  • 快速初始化平凯数据库集群:TiDB Lightning 提供的快速导入功能可以实现快速初始化平凯数据库集群的指定表的效果。请注意,使用快速初始化平凯数据库集群的功能对平凯数据库集群的影响极大,在进行初始化的过程中,平凯数据库集群不支持对外访问。
    这是文档里写的,这里快速初始化应该就是物理模式操作,不可能会修改数据。

用最新的v8.5.5试试