K

您所在的位置:网站首页 rfm的作用 K

K

2024-07-16 21:19| 来源: 网络整理| 查看: 265

1 项目介绍

携程作为中国领先的综合性旅行服务公司,每天向超过2.5亿会员提供全方位的旅行服务,在这海量的网站访问量中,我们可分析用户的行为数据来挖掘潜在的信息资源,用K-means对用户进行画像,并针对不同的用户类别,提出可行的营销建议。

2 数据准备

2.1数据集来源:

数据集包括:训练集和测试集。训练集为2016.05.15-2016.05.21期间一周的访问数据,测试集为2016.05.22-2016.05.28期间一周的访问数据。本篇文章主要讨论的是聚类分析,所以只用训练集。

2.2 字段描述 在这里插入图片描述

3 数据处理 3.1 导入数据 #导入基础包 %matplotlib inline import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 #读取数据 df=pd.read_csv('./userlostprob_train.txt',sep='\t') df.describe() 3.2 一致化处理

在这里插入图片描述 通过查看数据类型,发现所有字段中只有d、arrival两个字符串格式,分别代表预定时间和入住时间,都为yyyy-mm-dd日期形式,将其相减可得到“提前预定的天数”,得到新的衍生变量特征

# 转为日期型格式 df['arrival']=pd.to_datetime(df['arrival']) df['d']=pd.to_datetime(df['d']) # 相减得到“提前预定天数”列 df['day_advanced']=(df['arrival']-df['d']).dt.days # 删除原有列 df=df.drop(['d','arrival'],axis=1) 3.3 异常值处理

通过描述统计观察发现,delta_price1、delta_price2、lowestprice、customer_value_profit、ctrip_profits这几个变量最小值为负值,需要对其处理。同时,结合四分位和极值,发现有极大或极小的异常值,如decisionhabit_user、historyvisit_avghotelnum等,较多字段都存在异常值,对所有字段一并进行处理。

for col in ['delta_price1','delta_price2','lowestprice']: df.loc[df[col]


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3