首页 > 代码库 > logistic学习笔记

logistic学习笔记

1、 logistic回归与一般线性回归模型的区别:

(1)     线性回归的结果变量 与因变量或者反应变量与自变量之间的关系假设是线性的,而logistic回归中 两者之间的关系是非线性的;

(2)     前提假设不同,在线性回归中,通常假设,对于自变量x的某个值,因变量Y的观测值服从正态分布,但在logistic回归中,因变量Y 服从二项分布或者多项分布;

(3)     logistic中不存在线性回归中的残差项。

2、 模型选择:

      模型选择在实际应用过程中非常有用,一般把与模型有关的数据分为3部分,训练数据,验证数据和测试数据,如下图所示:

 

Training set

Validation set

Test set

 

      其中训练数据和验证数据都是已有的样本数据,即已观察到了的数据。测试数据是未来实际应用中产生的数据,是事先不知道的。

      模型选择问题就是说怎样验证一个模型是否好。模型的好坏最终是要看它在测试数据集上的表现。因此在未观测到测试数据时,我们只能用验证数据集来代替它进行测试。一般采用的方法为交叉验证,比如说LOOCV,即留一法交叉验证,类似的还有k折交叉验证。交叉验证的主要目的是防止训练出来的模型过拟合。但是在当今由于数据都是海量的,交叉验证方法使用越来越少了,因为如果训练数据集非常大的话,一般不会产生过拟合现象。

  还有一些方法是不需要通过验证而直接来评价模型好坏的,比如是AIC,BIC,MDL,SRM等。

3、 统计结果关注的参数:

      在商业实践中,对以上统计量最为关注的是C统计量,其次是似然卡方统计量,然后才是HL统计量,对AIC 和RSQUARE 极少关注,这一点和多元线性回归有很大的不同,根本原因是多元线性回归是一个预测模型,目标变量的值具有实际的数值意义;而logistic是一个分类模型,目标变量的值是一个分类标识,因此更关注观测值和预测值之间的相对一致性,而不是绝对一致性。

4、 logistic回归与SVM的区别与联系:

      两种方法都是常见的分类算法,分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器)。

      从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。两者的根本目的都是一样的。此外,根据需要,两个方法都可以增加不同的正则化项,如l1,l2等等。所以在很多实验中,两种算法的结果是很接近的。
    但是逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些。但是SVM的理论基础更加牢固,有一套结构化风险最小化的理论基础,虽然一般使用的人不太会去关注。还有很重要的一点,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算量。

5、 先验概率与后验概率

      先验概率 ( Prior probability)先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率.

6、 医学疾病研究中选择logistic回归模型的合理性:

(1)     模型判断你没病但是你有病的概率很小;Logistic的优势在于logistic很好的控制住了FPR,所以在两类错误代价不一致时,如何选取还得仔细分析。

7、ROC曲线的来源及定义

     现代分类器很多都不是简单地给出一个01 的分类判定,而是给出一个分类的倾向程度,比如贝叶斯分类器输出的分类概率。对于这些分类器,当你取不同阈值,就可以得到不同的分类结果及分类器评价指标。我们还可以看到,随着阈值的减小(更多的客户就会被归为正例),recall1-Specificity也相应增加(也即Specificity相应减少)。那么我们要动态的评价,一个合理的办法就是把基于不同的阈值而产生的一系列recallSpecificity描绘到直角坐标上,就能更清楚地看到它们的对应关系。由于recallySpecificity的方向刚好相反,我们把sensitivity1-Specificity描绘到同一个图中,它们的对应关系,就得到了传说中的ROC曲线,全称是receiver operating characteristic curve,中文叫“接受者操作特性曲线”。