首页 > 代码库 > 【数据挖掘技术】回归
【数据挖掘技术】回归
回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多的使用逻辑斯蒂回归,它包括响应预测、分类划分等内容。
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量和自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
再用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
对多元线性回归方程的参数估计,是基于下列假设的:
- 输入变量是确定的量,不是随机变量,而且输入的变量间线性无关,即无共线性;
- 随机误差的期望值总和为零,即随机误差与自变量不相关;
- 随机误差呈现正态分布。
如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。
逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来说,凡是预测“二选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以使用逻辑斯蒂回归。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量和自变量的关系了,具体公式如下:
log(p(y=1)/1-p(y=1))=b0+b1*x1+b2*x2+...+bk*xk
与多元线性回归所采用的最小二乘法的