大家有在TIDB 里面建超过100亿行表的场景吗?【业务场景讨论】

【TiDB 使用环境】生产环境
【TiDB 版本】
【部署方式】机器部署
【操作系统/CPU 架构/芯片详情】大概三台机器,8c这样子
【机器部署详情】CPU大小/内存大小/磁盘大小

业务场景:
构建股票因子库

数据量估算:
每只股票假如有3000因子,每天会更新一个因子版本

数据量算法估算
股票数每只股票因子数近5年天数
500030005*360=270亿行

如果做宽表,每个因子转化成列,会有几千列:
算法为:
50005360=900万行

业务上,会有增加因子的操作,历史日期因子也可能会更新,

如果是窄表,那就是涉及到新增行,更新行

如果是宽表,那就是涉及到新增列(空列),新增行,更新行

并发预计不高

大家有过TIDB 单表管理超过100亿行吗?讨论一下 :smile_cat:

这个是个人搞量化分析吗?如果是为了做量化分析,事务操作不多的话,可以考虑hbase,tidb说实话有些慢哦

1 个赞

关键看你要咋用这些数据,光存储肯定是没问题,TiDB 还是做 TP 和 HTAP 好些,纯 AP 不好用,性价比也不高

你的要求只能上tiflash了把。但是你机器的配置貌似也跟不上。

看了下,数据建模采用宅表比较合适

数据库类型的话
优选是时序数据库,兼容支持日线因子,更细粒度因子

次选是列式数据库

TiDB 单表从技术上完全可以承载 100 亿行数据,但你当前的业务场景(股票因子库)和部署架构,需要重点解决表结构设计、存储性能和运维成本的问题,否则会面临严重的性能和稳定性风险。

1 个赞

是的,扩容肯定会能用,但是感觉列式数据库对这种场景可以高压缩,应该更合适一点

3000个因子的数据从什么地方获取啊?

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。