大数据单表存储方案

2024-07-29 03:06:08 219人阅读

背景：

10w+用户

每个用户每天会产生有效记录1000条，记录组成＝用户ID、时间戳、字段1、字段2、字段N

每条记录长度约为1K

每个用户每天累计产生数据量＝1000K,即1M

每月产生数据量为：30M

每年产生的数据量为：360M，记录数＝10003012＝36w条

这些数据的特点是：一次写入，多次读取，中间不做任何修改！

需求：

每个用户产生的数据，需要保存5年以上，能够支持随时查询，每次查询的时间跨度不超过3天。

问题：

思路1：关系型数据库存储

优点：

缺点：

思路2：海量小文件+关系型数据库存储

一、数据生产与写入

二、数据导出

三、数据查询

四、文件存储结构

每100个目标占用一个目录，即一个目录中会有100个子目录，如下所示：

目录结构

PS：只所以让每个目录中所包括的目录或文件个数不超过100，原因是：无论是linux还是windows下，目录中的子目录或文件个数超过100时，会影响OS效率。

优点：

缺点：

各位看完上面的内容，那么现在问题来了，您感觉哪种方案更可谱呢？还是您有更好的方案或建议，如果能给俺一点指教，俺将感激不尽！

大数据单表存储方案

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们