数据分析常用分析方法

常用分析方法

逻辑回归分析

逻辑回归分析概述

  1. 回归

    假设现在有一些数据点,我们用一条直线对这些点进行拟合,这个拟合过程叫做回归

  2. 逻辑回归定义

    是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性

  3. 逻辑回归应用

    根据用户特征分析是否为潜在客户、根据客户行为分析是否为流失用户等等

逻辑回归分类:二项分类逻辑回归,多项分类逻辑回归

底层原理:假设因变量y服从伯努利分布Sigmoid映射函数的映入

逻辑回归概述

Logistic回归虽然名字 叫“回归”,但却是一种分类学习方法

类比线型回归,将一个0与1的二元变量映射到一个从负无穷的连续型变量的取值区间

逻辑回归算法流程

收集数据

  • 采用任意方法收集数据

准备数据

  • 由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳

分析数据

  • 采用任意方法对数据进行分析

训练算法

  • 大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数

使用算法

  • 第一用来预测

  • 第二寻找因变量的

二项逻辑回归基本操作

  • Step1:导入数据

  • Step2:添加节点。【输出】- 【表格】、【字段选项卡】-【类型】

  • Step3 :建模、【ogisticL】节点,进行参数设置

多项逻辑回归分析

  • 多项Logistic回归分析:当目标变量为多分类变量时;用采用多项Logistic回归分析方法。多项Logistic回归模型的基本思路类似于二项Logistic回归模型,其研究目的是分析目标变量各类别与参照类别的对比情况

关联分析

关联分析概述

  • 最早用于研究超市顾客购买商品之间的规律,称为购物篮分析。

  • 目的:寻找事物之间的联系规律,发现他们之间的关联关系。

  • 关联关系包括:简单关联关系、序列关联关系

  • 关联关系的主要技术是关联规则

简单关联规则

  • 简单关联规则,属于无指导学习,能够有效揭示数据中隐含的关联特征,一般不直接用于分类预测

  • 简单关联规则的算法

    Modeler中的简单关联规则算法:Apriori、GRI、Carma

简单关联规则分析对象

事务:简单关联规则分析对象,可理解为一种商业行为等

  • 事务(T):由事务标识(TID)和项目集合(简称项集)X组成

  • 事务标识唯一确定一个事务

  • I为包含K个项目的全体,即I={i1,i2,......ik}。事务T ⊆ I ,项集 X ⊆ I。

  • 如果项集X中包含P个项目,则称集合X为P-项集

事务数据的存储格式

事务数据的存储格式:事务表、事实表

简单关联规则的一般表示形式

X→Y(规则支持度,规则置信度)

x为规则的前项,可为项目或项集或包含逻辑与(∩)或(∪)非(┐)的逻辑表达式

y为规则的后项,一般为一个项目,表示某种结论或事实

  • 面包→牛奶

  • 性别(女)∩ 收入(>5000)→品牌(A)

简单关联规则有效性

有效性的测度指标

规则置信度指标(Confidence):对准确度的测量,描述了包含项目X的事务中同时包含项目Y项的概率,反映X出现条件下Y出现的可能性

条件概率 C x →y = |T(x ∩ y)| / |T(x)|

规则支持度(Support)测度了简单关联规则的普遍性,表示项目x 和项目y项同时出现的概率

S x →y = |T(x ∩ y)| / |T( )|

置信度高说明x 出现则y出现的可能性高

面包→牛奶(S = 85%,C=90%),表示购买面包则同时购买牛奶的可能性为90%

Apriori算法

最早的Apriori算法是Agrawal和SRIKant1994提出的,后经不断完善,现已成为数据挖掘中简单关联规则技术的核心算法。SPSS Modeler采用的是ChristianBorgelt对Apriori算法的改进算法

Apriori算法特点

  • 只能处理分类型百年来,无法处理数值型变量

  • 数据可以按事务表方式存储,可以以按事实表方式存储

  • 算法是为提高关联规则的产生效率而设计的

Apriori算法

产生频繁项集:所谓频繁项集是指,某个项集是频繁的、那么它的所有自己也是频繁的

如果{0,1}是频繁的,那么{0},{1}也是频繁的

寻找频繁项集:Apriori寻找频繁项集的策略是自底向上,即从不包含少量项目的项集开始依次向包含多个项目的项集搜素

时间序列分析

时间序列概述

时间序列是指按时间顺序排列的一组数据序列,是一个变量在一定时间段内不同时间点上观测值的集合

根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段

时间序列分类 绝对数时间序列 、 相对数时间序列 、平均数时间序列

时间序列分析

时间序列分析是一种根据时间序列揭示系统动态和规律的统计方法

依据时间序列分析的特征。产生了与之相应使用的方法

时间序列分析的主要目的是根据已有的历史数据对未来进行预测

移动平均法

趋势变化分 指数平滑法

模型拟合法

确定性变化分析 周期变化分析 季节指数法

循环变化分析 残余法

时间序列分析

随机性变化分析 AR 、MA 、ARIMA模型

时间序列预测步骤

确定时间序列的类型,即分析时间序列的构成要素(长期趋势/季节变动/循环变动/不规则变动)

选择合适的方法建议预测模型,专家模型指数平滑法、ARIMA模型

评价模型的准确度,确定最优额型参数,比如固定的R平方值、Ljung-Box统计量

按要求进行时间序列预测

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>