怎样用户数据?浅析用户数据的几大思维

动态 未结 置顶 精帖
用户
悬赏:60飞吻

通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。

下面是社群会员的作业,通过给出项目的修改意见,通过本项目提高你的分析思维。


一.数据介绍

该数据集是由 Machine LearninRepository 在基于一个英国电商公司从2010年月12号到2011年9月12号的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是来自不同国家的的分销商。

数据来源: kaggle

数据集大小:4198764*8

数据集字段含义: InvoiceNo(发票号码), StockCode(货物代码),Description(货物描述), Quantity(数量), InvoiceDate(发票日期), UnitePrice(单价), CustomerID(客户账号),Country(客户所在国家)

通过下面步骤来分析该数据集:

二. 提出问题

根据对数据的初步了解发现数据主要包括用户类数据和产品类数据。

用户类数据包括用户ID ,用户的所在国家,用户的购买次数(订单数),用户的购买时间,用户购买量。

产品类数据主要包括产品ID, 产品的描述, 产品的单价。

根据思维导图提出以下问题:

1.客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?

2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?

3.客户在哪时间段比较活跃?

4.top 10 畅销产品有哪些? 季节的变化是否对产品的销售有影响?那个季度或者月份的销售额最好?

5.最畅销产品单价分布区域?

三.清洗数据

1.选择子集

只选择对数据分析有意义的字段,无意义的字段进行暂时隐藏。通过观察发现每一个产品都有独特的StockCode(货物代码), 可以将该列进行隐藏。

2.列名重命名

下载的数据列名是英文,为了方便分析,将列名更改成大众所熟悉的中文名称。

3.删除重复值

根据唯一的列来删除重复值,5226个重复值被删除

4.缺失值处理和异常值处理

零值和负值:在单价列中,我发现存在15879 行0值和负值,不符合数据销售逻辑。 通过对货物描述的查看, 发现大部分的单价为0的记录是对有缺陷货物的处理或者是礼品。 此类数据对所提出问题的分析无用,所以进行删除。

在数量列中, 发现有9288 个记录是负值, 发票号由首字母和数字组成,推测此类记录为退货记录. 决定此类数据进行单独存储。

空值: 通过filter 功能发现, 客户ID缺失的客户主要集中在UK,France, HongKon, Israel, Bahrain, Portugal, Swithzerland, Eire 和不确定国家。查看数据集发现,客户缺失数集的同一商品的单位价格高于有客户账号的价格, 在这里推测无账户进行的交易为零售交易。所以我将这一部分的数据移除出另外的表中。

5.一致化处理

1)货号

通过过滤货号发现, 总共由三个列别组成, 纯数字类, 数字加字母类别,纯字母类。

通过查看描述发现:纯数字类为不同的商品,数字加字母类为同种类商品的不同颜色或者形状,纯字母类为邮寄费或者银行费用等。所以,纯字母类别的数据与我们研究的问题无关,可以删除。并将数字类货号转化成文本形式。

2)发票号

发票号不需要进行计算直接转换成文本格式。选中发票号全列,右击编辑格式,选择文本格式。

6.补充必要数列

计算公司的季度以及月度销售额,所以需要增加每张发票每个商品的合计额。 通过插入函数,计算数量和单价的合计。并双击单元格右下角,运用到全列。

三.构建模型

数据清洗完以后,就可以根据前面提出的问题和分析思路来分析了。

1、客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?

回答这个问题需要使用RFM模型对所有的客户进行客户价值分类。RFM模型:

R(Recency):是指最近一次消费

F(Frequency):是指消费频率

M(Monetary):是指消费金额

首先计算出R值,F值和M值。 客户最近一次购买产品距离2011 年12月9号的天数,此时间段购买的次数 , 以及单个客户的购买总额。 其次,再对各个值进行标准化。

其次,再设置R、F、M值的参考值。 在此次分析中我选择了平均值为参考值。 然后, 将标准化的的R、F、M值与其参考值进行比较, 大于为1,小于为0. 最后,对客户价值进行分类。

客户价值分类,模型按 (2*2*2) 分为以下标准的8类。

通过对数据按照上面所说方式建模得出以下模型:

【作业点评】选择哪个图表的判断标准是能不能一眼看的懂这张图形的含义。这里图表选择条形图不对,因为很难一下子区别出来。因为这里图表是对RFM模型可视化,像这种存在前后转换关系的,如果用条形图不排序,就很难区分出来。但是如果排序的话,就会打乱前后转换关系前后顺序。单一对比,用条形图和柱形图都没事,如果涉及前后转化关系,条形图就不合适了。这里更适合的是三维象限图,如果你会做的,是更好的。如果不会坐,也可以选择用柱形图。

通过上面图表可以看出,该电商缺乏有价值的客人。重要价值客户, 交易金额大, 交易频繁且最近交易的客人只占27位, 占比0.62%。

重要唤回,挽留和深耕客户占比很低,总占比不到1%; 而一般维持客户却占比百分之30.41%,此类客人虽然交易次数较多但是贡献不大。

由此说明该电商缺乏交易累积金额较高的客户。但值得庆幸的是, 该电商吸引新客户的能力较强且具备比较大的潜力客户的基础。新客户占总比百分之38.55%, 潜力客户占总比百分之15.38%。

通过对模型的分析,我建议该电商可以针对不同的客户群体进行针对性市场调研,根据调研结果的市场营销活动。

例如:对重要价值,唤回,挽留和深耕客户,需要提升公司的服务质量和产品质量 以及价格优势等,刺激其购买冲动,增加客户忠诚度。对于一般维持客户和潜力客户, 通过市场促销手段提升客户的交易额度,让其转化为重要客户。 对于流失的客户,需要进行回访,找到其流失原因。

【作业点评】这块的建议数据支撑在哪里?你提到了市场营销活动,但是没从数据上看到哪里体现出了市场营销活动出问题了。客户占比,是怎么得出他们的占比是不好的?是和谁对比得出的结果

回帖
  • 消灭零回复
[打开调试信息]