|
相关阅读:回归分析在游戏分析中的应用(一)
上一篇介绍了一元线性回归模型,即一个自变量和因变量之间的线性关系,在实际分析过程中简单的一元线性回归模型不能完全解决问题。在介绍多元回归模型前,我们思考两个问题。
1、什么时候需要多元回归而不是一元回归?
已选择的那个自变量不能完全解释因变量的差异,必须新增变量才能解释这部分差异。换句话说,两个变量综合起来可以比任何一个变量单独估计能更好的估计Y(因变量)。
2、多元回归的自变量应如何选择?
从众多因素中选择哪几个放到模型里呢,其中遵循的原则是这些因素之间是独立的或者不相关,但是都与Y(要研究的变量)有较强的相关性。
举个例子,拿DMP进行精准投放来说,DMP最大优势是拥有用户的丰富的标签,其中包括性别、受教育程度、年龄、地区、地区收入、收入等属性。再收集这些用户在游戏中的付费情况,我们就可以预测和研究用户的哪些标签对用户付费产生影响比较大。然后在接下来的投放中,更清楚对哪类用户群进行精准营销,才能最大化游戏收入。
一般一个模型的建立需要下面几个步骤:
Step1:确定研究目的
用户哪些属性对游戏花费支出影响比较大,并建立模型。
Step2:数据收集和整理
收集游戏中用户的ID、性别、收入、所在地区平均收入、受教育程度和游戏花费。像性别、受教育程度是分类变量,需要使用虚拟编码。如0代表男,1代表女。受教育程度分为0:小学及以下1:中学2:本科3:研究生以上等。
Step3:确定回归模型中自变量(哪些解释因素)
影响游戏花费支出的因素选择标准按照刚提出问题2的准则:变量 (x1…xn)之间是独立的,不能有相关关系,即使有相关关系,也应该比研究变量(Y)的相关性弱。
通过对地区平均收入、月收入和游戏消费支出之间的相关性分析,发现地区平均收入与月收入相关性达到0.99,属于强相关,不能同时纳入模型中。再分别与游戏支出做相关分析后,地区平均收入跟游戏支出相关性更强。那么就选择地区平均收入到模型中。
相关系数如下图所示:
Step4:建立模型。由于自变量含有分类变量(教育程度),所以选择线性模型做分析。鉴于SPSS分类变量分析稍微复杂,本案例选择在SAS中实现。录入数据后,选择分析->ANOVA->线性模型。如下图:
运行结果如下:
R2=0.697,说明此模型只能解释70%的游戏支出,F检验结果显示该线性模型也是显著的。通过最后一个系数表我们可得到这么一个表达式:
Y(游戏支出)=828.57+57.6×地区收入-894.5(if 教育程度为0)-544.3(if 教育程度为1)-309.3(if 教育程度为2).
通过这个研究我们发现影响用户游戏花费主要因素是地区平均收入和教育程度。同时可以预测出一个中学水平,地区年平均收入5w的用户,在游戏中每年支出大概是828.57+57.6×5-544.3=572(元)。
由于这里标签比较少,可以直接使用变量。假如样本标签复杂,涉及几十个上百个变量的情况下则需要进行因子分析,通过降维再利用因子进行回归。
仍需要强调一点的是,虽然回归模型是因果分析的工具,但是该方法不能必然的得到因果关系。回归模型除了能帮助预测,同时也能更好的理解解释变量与被解释变量之间的关系,这才是我们应用回归的目的所在。
TalkingData投稿
|
|