首页 > 代码库 > 位置预测系列(二)

位置预测系列(二)

Mining User Mobility Features for Next Place Prediction in Location-based Services

这篇论文主要是预测用户在基于位置的社交网络中的下一次签到地点,是ICDM‘12年录用的一篇文章。
1.1 论文概要
在这篇文章中,作者首先将位置预测问题阐述为位置排名问题,即把用户所在城市内的所有签到场所作为候选集,然后根据一定的规则将候选集中的场所进行排名。排名的规则所追求的目标就是尽可能的将用户下一次签到地点排在最前面。然后,作者提取了一些跟用户的下一次签到地点有关的特征(称为移动预测特征集),即影响位置排名的因素。
对于候选集中的每一个位置,所提取的移动预测特征集为:
1)用户自身的移动特征:位置被用户访问的次数;位置所属的类型被用户访问的次数;位置被用户的好友们访问的次数。
2)全局的移动特征:此位置的流行度(截止到当前,位置被所有用户访问的次数);此位置距离用户当前签到位置的地理距离;此位置与用户当前签到位置间存在多少可签到场所;据所有用户统计,从用户当前签到位置所属的类型到此位置所属类型的转移次数;从用户当前位置到此位置的转移次数。
注:全局的移动特征不依赖用户个人的任何先验信息。
3)时间维度上的特征:此位置所属的位置类型在一天中每个小时上的流行度(即这种类型的位置在一天中各个小时内被所有用户访问的次数);此位置所属的位置类型在一周中每个小时上的流行度 ;此位置在一天中每个小时上的流行度;此位置在一周中每一天上的流行度。
在对各个特征单独进行评估的时候,作者发现位置的流行度和用户自身对不同类型的位置的偏好的程度是位置排名因素中最重要的两个。最后,作者将排名问题转化为了分类问题(见文献1),采用了监督学习的方法训练了决策树模型和线性回归模型,并将训练后的模型用于解决位置排名问题。得出的结论是综合考虑了所有的因素后,位置排名的效果会更好。并且,决策书模型优于线性回归模型。这个结论说明了用户的签到行为是受到多个因素驱使的,而不仅仅是单独一个因素。
1.2 读后感
优点:
1)作者采用了用户所在城市的所有签到场所作为位置预测的候选集,并且在位置预测过程中,充分考虑了不依赖用户自身先验签到行为的全局移动特征。这使得本文所提供的方法能够规避新用户所遭遇到的冷启动问题。
2)将位置预测问题转化为了一个分类问题。整个解决过程就是传统的特征提取->模型训练->模型测试
缺点:
1)模型的训练问题。由于用户自身的签到先验信息是在不断累积的,这就要求每隔一段时间要重新对模型进行训练。然而,作者对此丝毫未提。
2)模型的精度问题。在基于位置的社交网络里面,用户的轨迹记录是由用户主动参与签到才形成的。这就导致了用户移动轨迹很大部分是没有记录的,即用户本身的移动模式是隐藏了。基于这个事实,对LBS用户进行位置预测,精度一般都会是很低的。文献2已经证明了对LBS用户进行位置预测,精度不会超过40%。在这种极限预测精度就很低的情况下,还对LBS用户做位置预测的意义又是什么呢(这是一个令人头疼的问题)。作者在文中对模型预测的低精度问题只字未提。
3)模型的成本问题。对于将一个城市的全部签到场所作为位置预测的候选集导致的模型成本开销,作者也是丝毫未提。对候选集的优化应该顺手的事,但是作者像是在有意规避。
1.3 总结
总之,作为一篇数据挖掘论文被ICDM录用还是够格的。以一种纯数据挖掘的角度(特征提取->模型训练->模型测试)来进行位置预测研究还是比较有独创性的。此外,对于所有用户进行统计得到的信息,即全局特征信息,对于解决新用户所遭遇的冷启动问题也是很有帮助的。
参考文献
文献1Learning to Order Things
文献2PAKDD‘2014 Analyzing Location Predictability on Location-Based Social Networks