首页 > 代码库 > 大数据风控模型

大数据风控模型

基本流程:

数据收集、数据建模、构建数据画像、风险定价。

数据收集:网络行为数据、企业服务范围内行为数据、用户内容偏好数据、用户交易数据、授权数据源、第三方数据源、合作方数据源、公开数据源。

数据建模:文本挖掘、自然语言处理、机器学习、预测算法、聚类算法。

数据画像:基本属性、购买能力、行为特征、兴趣爱好、心理特征、社交网络。

风险定价:申请模型、行为监控模型、违约模型、催收策略模型。

 

目前国内90%以上的建模团队使用logistic回归做评分卡,少数使用决策树。

 

应用案例:

1、欺诈风险用到的模型:社会关系网络模型。

    通过每笔案件之间的关系,判断新案件是欺诈申请的可能性。

2、信用风险主要用到的模型:logistic回归建立评分卡。

    量化新申请人可能违约的概率,根据评分高低制定不同的授信规则和催收策略。

3、贷后管理用到的模型:也是行为评分卡。

    例如额度调整和客户风险分池管理等。

 

注意:

用户数据需要进行规整处理,转化为相同维度的特征向量,然后算法才能派上用场。

对于结构化数据而言,特征提取工作往往都是从给数据打标签开始的。比如购买渠道,年龄性别等等。

对于已经打好的标签,根据不同的分析场景进行离散化,或将分类类型的标签拆成多个0/1标签,就可以进行一些机器学习的建模,比如聚类、分类、预测、关联性分析,最终生成的向量维度在数千个。

 

实际建模案例:http://blog.csdn.net/l18930738887/article/details/50662900

 

大数据风控模型