K |
您所在的位置:网站首页 › rfm的作用 › K |
1 项目介绍
携程作为中国领先的综合性旅行服务公司,每天向超过2.5亿会员提供全方位的旅行服务,在这海量的网站访问量中,我们可分析用户的行为数据来挖掘潜在的信息资源,用K-means对用户进行画像,并针对不同的用户类别,提出可行的营销建议。 2 数据准备2.1数据集来源: 数据集包括:训练集和测试集。训练集为2016.05.15-2016.05.21期间一周的访问数据,测试集为2016.05.22-2016.05.28期间一周的访问数据。本篇文章主要讨论的是聚类分析,所以只用训练集。 2.2 字段描述
通过描述统计观察发现,delta_price1、delta_price2、lowestprice、customer_value_profit、ctrip_profits这几个变量最小值为负值,需要对其处理。同时,结合四分位和极值,发现有极大或极小的异常值,如decisionhabit_user、historyvisit_avghotelnum等,较多字段都存在异常值,对所有字段一并进行处理。 for col in ['delta_price1','delta_price2','lowestprice']: df.loc[df[col] |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |