数据分析常用分析方法
常用分析方法
逻辑回归分析
逻辑回归分析概述
-
回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合,这个拟合过程叫做回归
-
逻辑回归定义
是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性
-
逻辑回归应用
根据用户特征分析是否为潜在客户、根据客户行为分析是否为流失用户等等
逻辑回归分类:二项分类逻辑回归,多项分类逻辑回归
底层原理:假设因变量y服从伯努利分布Sigmoid映射函数的映入
逻辑回归概述
Logistic回归虽然名字 叫“回归”,但却是一种分类学习方法
类比线型回归,将一个0与1的二元变量映射到一个从负无穷的连续型变量的取值区间
逻辑回归算法流程
收集数据
-
采用任意方法收集数据
准备数据
-
由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳
分析数据
-
采用任意方法对数据进行分析
训练算法
-
大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数
使用算法
-
第一用来预测
-
第二寻找因变量的
二项逻辑回归基本操作
-
Step1:导入数据
-
Step2:添加节点。【输出】- 【表格】、【字段选项卡】-【类型】
-
Step3 :建模、【ogisticL】节点,进行参数设置
多项逻辑回归分析
-
多项Logistic回归分析:当目标变量为多分类变量时;用采用多项Logistic回归分析方法。多项Logistic回归模型的基本思路类似于二项Logistic回归模型,其研究目的是分析目标变量各类别与参照类别的对比情况
关联分析
关联分析概述
-
最早用于研究超市顾客购买商品之间的规律,称为购物篮分析。
-
目的:寻找事物之间的联系规律,发现他们之间的关联关系。
-
关联关系包括:简单关联关系、序列关联关系
-
关联关系的主要技术是关联规则
简单关联规则
-
简单关联规则,属于无指导学习,能够有效揭示数据中隐含的关联特征,一般不直接用于分类预测
-
简单关联规则的算法
Modeler中的简单关联规则算法:Apriori、GRI、Carma
简单关联规则分析对象
事务:简单关联规则分析对象,可理解为一种商业行为等
-
事务(T):由事务标识(TID)和项目集合(简称项集)X组成
-
事务标识唯一确定一个事务
-
I为包含K个项目的全体,即I={i1,i2,......ik}。事务T ⊆ I ,项集 X ⊆ I。
-
如果项集X中包含P个项目,则称集合X为P-项集
事务数据的存储格式
事务数据的存储格式:事务表、事实表
简单关联规则的一般表示形式
X→Y(规则支持度,规则置信度)
x为规则的前项,可为项目或项集或包含逻辑与(∩)或(∪)非(┐)的逻辑表达式
y为规则的后项,一般为一个项目,表示某种结论或事实
-
面包→牛奶
-
性别(女)∩ 收入(>5000)→品牌(A)
简单关联规则有效性
有效性的测度指标
规则置信度指标(Confidence):对准确度的测量,描述了包含项目X的事务中同时包含项目Y项的概率,反映X出现条件下Y出现的可能性
条件概率 C x →y = |T(x ∩ y)| / |T(x)|
规则支持度(Support)测度了简单关联规则的普遍性,表示项目x 和项目y项同时出现的概率
S x →y = |T(x ∩ y)| / |T( )|
置信度高说明x 出现则y出现的可能性高
面包→牛奶(S = 85%,C=90%),表示购买面包则同时购买牛奶的可能性为90%
Apriori算法
最早的Apriori算法是Agrawal和SRIKant1994提出的,后经不断完善,现已成为数据挖掘中简单关联规则技术的核心算法。SPSS Modeler采用的是ChristianBorgelt对Apriori算法的改进算法
Apriori算法特点
-
只能处理分类型百年来,无法处理数值型变量
-
数据可以按事务表方式存储,可以以按事实表方式存储
-
算法是为提高关联规则的产生效率而设计的
Apriori算法
产生频繁项集:所谓频繁项集是指,某个项集是频繁的、那么它的所有自己也是频繁的
如果{0,1}是频繁的,那么{0},{1}也是频繁的
寻找频繁项集:Apriori寻找频繁项集的策略是自底向上,即从不包含少量项目的项集开始依次向包含多个项目的项集搜素
时间序列分析
时间序列概述
时间序列是指按时间顺序排列的一组数据序列,是一个变量在一定时间段内不同时间点上观测值的集合
根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段
时间序列分类 绝对数时间序列 、 相对数时间序列 、平均数时间序列
时间序列分析
时间序列分析是一种根据时间序列揭示系统动态和规律的统计方法
依据时间序列分析的特征。产生了与之相应使用的方法
时间序列分析的主要目的是根据已有的历史数据对未来进行预测
移动平均法
趋势变化分 指数平滑法
模型拟合法
确定性变化分析 周期变化分析 季节指数法
循环变化分析 残余法
时间序列分析
随机性变化分析 AR 、MA 、ARIMA模型
时间序列预测步骤
确定时间序列的类型,即分析时间序列的构成要素(长期趋势/季节变动/循环变动/不规则变动)
选择合适的方法建议预测模型,专家模型指数平滑法、ARIMA模型
评价模型的准确度,确定最优额型参数,比如固定的R平方值、Ljung-Box统计量
按要求进行时间序列预测