首页 > 代码库 > 第五章:挖掘建模【未完,待续】

第五章:挖掘建模【未完,待续】

5.1 分类与预测

           分类主要是预测分类标号(离散属性);而与预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值;

       5.1.1 实现过程

                 分类 --- 构造一个分类模型,输入样本的属性值,输出对应的类别。分类建立在已有类标记的数据集上。有监督的学习

                 预测 --- 建立两种或两种以上变量间相互依赖的函数模型,然后进行预测。

         5.1.2 常用的分类与预测方法

                  回归分析;决策树; 人工神经网络; 贝叶斯网络; 支持向量机

         5.1.3 回归分析

                 主要的回归模型:线性回归; 非线性回归; Logistic回归; 岭回归; 主成分回归;

                 线性回归: 可用最小二乘法求模型系数;【适用范围:因变量与自变量都是线性关系

                 非线性回归: 如果非线性关系可用通过简单的函数转换为线性关系,用线性回归思想求解;如果不能转换,用非线性最小二乘方法求解;【适用范围:因变量与自变量不都是线性关系

                 Logistic回归:广义线性回归模型的特例, 利用Logistic函数将因变量的取值范围控制在0和1直接,表示取值为1的概率;【适用范围:因变量一般有1和0(是,非)两种取值

                 岭回归:改进的最小而成估计的方法;【适用范围:参与建模的自变量间之间具有多重共线性

                主成分回归:最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间之间具有多重共线性;【适用范围:参与建模的自变量间之间具有多重共线性

         5.1.4 决策树

        5.1.5 人工神经网络

        5.1.6 分类与预测算法评估:

         评估指标;

         绝对误差与相对误差;   平均绝对误差;       均方误差 ;       均方根误差 ;       平均绝对百分误差

         Kappa统计:用于比较两个或多个观测者对同一事物,或者观测者对同一事物的两次多多次观测结果是否一致。取值范围【-1, 1】

        识别准确度: Accuracy = (TP + FN) /( TP + TN + FP + FN) *100%  【注: TP(true positives):  正确的肯定 :表示正确的肯定的分类数】

           识别精确度: Precision = TP / (TP + FP)  *100%                                  【注:  FP(false positives): 错误的肯定:表示错误的肯定的分类数】

           反馈率:       Recall = TP /( TP + TN ) *100%                                        【注:  FN(false negatives): 错误的否定:表示错误的否定的分类数】

           ROC曲线

           混淆矩阵

       5.1.7 Python分类预测模型特点

            Python 步骤:

            建立一个对象 ---- 通过fit()方法对模型进行训练 ---- 通过predict()方法预测结果 ---- 通过score()方法对模型评估

5.2 聚类分析

        5.2.1 常用聚类方法:

            划分(分裂)方法;层次分析方法;基于密度的方法;基于网格的方法;基于模型的方法

       5.2.2 K-means聚类方法:

       5.2.3 聚类分析算法评估:

       5.2.4 Python 主要聚类分析方法:

            Python 步骤:

            先用对应的函数建立模型 ---- 利用.fit()方法对模型进行训练 ---- 利用.label_方法给出样本标签/或用.predict()方法预测新的输入的标签

5.3 关联规则

       5.3.1 常用的关联规则算法

       5.3.2 Apriori算法

 

5.4 时序模式

      5.4.1 时间序列算法

      5.4.2 时间序列的预处理

      5.4.3 平稳时间序列分析

     5.4.4 非平稳时间序列分析

     5.4.5 Python主要时序模式算法

5.5 离散点检测

      5.5.1 离群点检查方法

      5.5.2 基于模型的离群点检查方法

     5.5.3 基于聚类的离群点检查方法

第五章:挖掘建模【未完,待续】