首页 > 代码库 > 用 mongodb 储存多态消息/提醒类数据(转)

用 mongodb 储存多态消息/提醒类数据(转)

原文:http://codecampo.com/topics/66

前天看到 javaeye 计划采用mongoDB实现网站全站消息系统,很有同感,mongodb 很适合储存消息类数据。之前讨论了如何构建一个微博型广播,这次讨论一下怎么储存消息/提醒类数据。

下面的内容不涉及关于海量数据储存的问题,只讨论数据模式。

1. 需求

消息/提醒类数据有不少例子,比如豆瓣的好友广播(我说、电影/书籍已读状态、网址推荐等),Twitter 的推信息 Tweet,SNS 的好友状态。

这类信息的一个特点是模式多变,豆瓣的好友广播有好几种模式,“我说”以用户发布的文本为主;动作消息(上传了什么)不带文本,但是需要关联别的数 据,例如书本,图片;推荐消息则要带文本和关联数据。Twitter 推信息则需要保存多样的信息,比如 mention 到的用户、回复到哪条推、附带的 url、地理位置,但这些数据有时是为空的。可以在这里看读取一个 twitter 消息会带有多少内容。

总的来说,关键词就是“多变”,并且随着应用的升级,状态信息还会增加更多模式和更多的项。

2. 使用 Mongodb 储存多态的消息

现在直接拿 CodeCampo 的例子来说明怎么用 Mongodb 储存这类多态的数据。Campo 的代码使用 Ruby on Rails 和 mongoid,完整的代码可以在 github 仓库 看到。

CodeCampo 中对消息的定义是建议用户立即查看,阅后即焚,并且过期会被删除的,所以设计为内嵌入 user 文档中储存,并且有数量限制(自动删除最旧的)。如果需要持久的储存消息(比如微博消息),可以用引用(DbRef)取代内嵌(Embed),将 notification 单独储存在一个 collection。

2.1 mongodb 中的模式

理想中 mongodb 会这样保存 notification 的数据。(注:Notification::Follower 和 Notification::Other 并未实现,只是用作举例)

> db.users.findOne(){    _id : ObjectId(...),    ...    notifications : [        {            _id : ObjectId(...),            _type : ‘Notification::Mention‘,            replyer_id : ObjectId(...),            topic_id : ObjectId(...),            reply_id : ObjectId(...),            text : ‘@rei some message‘        }        {            _id : ObjectId(...),            _type : ‘Notification::Follower‘,            follower_id : ObjectId(...)        }        {            _id : ObjectId(...),            _type : ‘Notification::Other‘,            Other_column : ‘value‘        }    ]}

2.2 用 Mongoid 实现

如果你熟悉 Mongodb,应该对怎么操作上面的文档有了大概的想法。这里展示一下用 mongoid 实现这样的数据结构的方法(如果你不熟悉 mongoid,可能需要看它的文档,特别是继承章节。)

首先建立一个 Notification::Base 用于和 User 建立关联。

class Notification::Base  include Mongoid::Document  include Mongoid::Timestamps  field :text  embedded_in :user, :inverse_of => :notificationsend

当别的类继承 Notification::Base,会继承其所有关联定义。

然后在 User 中定义 embed。

Class User  include Mongoid::Document  include Mongoid::Timestamps  ...  embeds_many :notifications, :class_name => ‘Notification::Base‘  ...end

现在,可以用 @user.notifications.create(attributes) 的方法建立一个消息提醒了。但默认使用的 Notification::Base 并不是最终需要创建的消息类型,所以继续新建一个 Notification::Mention。

class Notification::Mention < Notification::Base  referenced_in :topic  referenced_in :reply  referenced_in :reply_user, :class_name => ‘User‘end

注意这个 Mention 类中并没有定义和 user 的 embed 关系,但因为它继承了 Notification::Base,所以将 Base 的模块和 embed 关联一并继承了。Mention 类只需要定义自有部分的逻辑。

现在,创建一个 Mention 消息的 Ruby 代码会是这样:

@user.notifications.create({:reply_user_id  => user_id,                            :topic_id       => topic_id,                            :reply_id       => reply_id,                            :text           => ‘summary text‘,                            Notification::Mention)

保存到 mongodb 中的数据如下

> db.users.findOne(){    _id : ObjectId(...),    ...    notifications : [        {            _id : ObjectId(...),            _type : ‘Notification::Mention‘,            replyer_id : ObjectId(...),            topic_id : ObjectId(...),            reply_id : ObjectId(...),            text : ‘summary text‘        }        ....    ]}

保存的数据跟理想中的一样。需要新增消息类型,就仿照 Notification::Mention,建立新的 Notification::Base 子类就可以了。

3. 用 SQL 数据库如何实现?

豆瓣和 Twitter 都是使用 MySQL 储存广播和推数据,那么他们是怎么实现这样多态的数据结构呢?我并不知道他们的内部情况,不过 SQL 如何实现多态也有不少文章(例如铁道书里面介绍 ActiveRecord 就支持多态和继承),这里举一些方案做对比。

alt text

3.1 单表继承

简单的说就是把一个表映射到不同的模型上。怎么做到的呢?方法是在一个表内保存整个继承体系涉及的所有字段。例如

notifications(id, type, user_id, reply_id, topic_id, replyer_id, text, ...)

区别消息类型的字段就是 type,在应用层根据 type 的不同应用不同的逻辑。但是,即使某类消息(例如 follower 提醒)并不使用所有的字段,它都需要以数据库一行记录的方式保存在库中。

显而易见,这样会带来大量的空字段,影响表的纯洁性。即使尝试对一些字段进行合并重用,随着应用的发展,渐渐还是会带来维护和迁移的麻烦。需要指出的是,即使用方法2的多态关联,也有可能为了减少表的数量而渐渐走入字段重用的歧路。

3.2 多态关联

另一种实现异构对象聚合的方法是多态关联。它的原理是用一张表某个字段多态的引用多个表。例如:

notifications(id, user_id, type, entry_id)mention_nofitications(id, reply_id, topic_id, replyer_id, text)follower_notifications(id, follower_id)other...

关联的逻辑依赖 notifications 的 type 和 entry_id 字段,type 的值可以取 “mention”、"follower"等等消息的类型,从而选择读取哪一个 xxx_notifications 表的数据。

多态关联很好的维护了表的纯洁性,但有一个缺点就是无法使用 JOIN 查询,会导致 N + 1 查询问题(也许SQL专家可以告诉我怎么在一个查询查出不同类型的消息,但可以预计SQL的逻辑比较复杂,而且JOIN的表太多也会影响效率)。

如果使用这种方法,最好给数据库加上一个缓存层,缓存取出的完整消息数据,减少数据库查询。Twitter 有一个 Row Cache 层,估计就是用来干这事。

3.3 序列化后保存

还有一种方案是将各种字段序列化后储存,每次读取出来先反序列化后判断内容类型。这样就可以节省很多表字段,也避免 N + 1 查询的问题。

notifications(id, user_id, serialized_entry)

这种方案其实也不错,一个缺点是不便于做后续处理,比如用序列化来保存一个推特信息的 mention 用户ID,那么就无法反过来查询有哪条信息 mention 了某用户。这样就要把需要查询的信息独立为字段,无法避免一些情况下空字段的问题。

4. 总结

比较了上面几种多态数据的实现方案之后,还是认为 MongoDb 的方案较为优雅。SQL 数据库在储存复杂结构的数据时,通常需要一个缓存层来掩护。而 MongoDb 内建对复杂结构的储存支持,开发的难度就小一些(少一个层,少一个烦恼)。所以用 MongoDb 开发 web 程序,真的能减少不少技术成本。

限于视野,可能有些好的方法我未曾见过和想过,欢迎留言告诉我这些方法。