首页 > 代码库 > 微博传播数量和传播深度的预测--基于pyspark和某个回归算法

微博传播数量和传播深度的预测--基于pyspark和某个回归算法

8-28决定参加一下这个千万条的数据处理任务,因为场景和自己做过的一个回归分析预测差不多,第一天开始在小规模的数据上做准备工作。

 

## 第二次大修改版本
### date 20160829
原始数据处理,得到用户粉丝关系,微博转发在每个时间段的量,微博转发的总体深度
下一阶段目标,建立模型,实现基于时间序列的预测

 

## 第三次大修改版本
### date 20160830
将这些运算转移到Linux平台上,因为有的迭代完全让我的电脑的内存受不了
这次版本的主要的目的是计算出某个微博的深度的时间序列的变化

 

## 第四次大修改版本
### date 20160831
从原始数据提取出随着时间变化的序列的深度和转发的次数的测试工作完成了
本次修改两个任务:第一将函数按照两个部分分别整合起来; 第二将采样数据替换成原始测试数据跑一遍,完成基本的数据处理
下一次版本的主要目的是,通过这些已知的关系,搭建数据预测的模型,用训练数据训练,用测试数据测试,然后修正参数,得到最好的模型

 

## 第五次大修改版本
### date 20160901
今天上午遇到的严重的问题是内存不够,因为我把计算过程中,尤其是初始数据的RDD也缓存起来了,这很大,所以不够用了。
更改只缓存重要的结果,例如,时间序列的,转发次数和转发深度这一些RDD,这样程序差不多能完全执行下来。
只是第二个计算深度的版本还是有些问题,需要在以后用到的时候进一步修改,尤其是针对特定的时间段,谁在转发,转发的人最大的粉丝个数。

这个版本主要解决的问题是将计算的结果保存到文件中,方便回归模型调用文件中处理好的数据进行训练和预测。
首先计划实现某一个时间段的预测,其他的整体的预测还是以后再做。

 

## 第六次大修改版本
### date 20160901
今天下午最大的收货是看到了曙光

但是成功距离我以前想的还是有一段距离的
本次版本将完整计算出所有需要的数据,保存到文件中,希望今天能完成

 

待续

微博传播数量和传播深度的预测--基于pyspark和某个回归算法