按照跨行业数据挖掘标准过程(CRISP-DM)来看,首先我们要解决从哪些角度去剖析这个“他们是谁?”,是从流失,还是从付费,还是从整个生命进程去审视,进而总结要进行分析的要素和目的,比如购买特征、消费心理特征、流失特征等等;其次,从这些要分析的特征入手,从数据源开始抽取数据,比如针对流失玩家特征我们可能抽取玩家最后一次登录所使用的地图,武器,所在等级,消费变化率,总在线时长,总游戏时长,是否为回流玩家、付费频率、最后一次使用的模式等等;第三,把准备的数据进行合并(文件),生成新的字段(字段,预测),排序选择(记录),使之符合我们要进行的建模和分析的需要(比如关联购买分析时对数据就有格式的要求);第四,就是建模技术的应用(监督性&非监督性),比如Neural Networks, Rule Induction (decision trees), Linear Regression, and Logistic RegressionKohonen networks, Two Step, and K-means belong to this category等等。这个阶段是最关键的阶段,如果错误的使用模型,最终的结果肯定是错误的,针对玩家的特征提取非常要注意这个阶段的问题。