通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。
下面是社群会员的作业,通过给出项目的修改意见,通过本项目提高你的分析思维。
一.数据介绍
该数据集是由 Machine LearninRepository 在基于一个英国电商公司从2010年月12号到2011年9月12号的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是来自不同国家的的分销商。
数据来源: kaggle
数据集大小:4198764*8
数据集字段含义: InvoiceNo(发票号码), StockCode(货物代码),Description(货物描述), Quantity(数量), InvoiceDate(发票日期), UnitePrice(单价), CustomerID(客户账号),Country(客户所在国家)
通过下面步骤来分析该数据集:
二. 提出问题
根据对数据的初步了解发现数据主要包括用户类数据和产品类数据。
用户类数据包括用户ID ,用户的所在国家,用户的购买次数(订单数),用户的购买时间,用户购买量。
产品类数据主要包括产品ID, 产品的描述, 产品的单价。
根据思维导图提出以下问题:
1.客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?
2.客户分布在哪些国家?客户最多的国家?客户主要分布区域?
3.客户在哪时间段比较活跃?
4.top 10 畅销产品有哪些? 季节的变化是否对产品的销售有影响?那个季度或者月份的销售额最好?
5.最畅销产品单价分布区域?
三.清洗数据
1.选择子集
只选择对数据分析有意义的字段,无意义的字段进行暂时隐藏。通过观察发现每一个产品都有独特的StockCode(货物代码), 可以将该列进行隐藏。
2.列名重命名
下载的数据列名是英文,为了方便分析,将列名更改成大众所熟悉的中文名称。
3.删除重复值
根据唯一的列来删除重复值,5226个重复值被删除
4.缺失值处理和异常值处理
零值和负值:在单价列中,我发现存在15879 行0值和负值,不符合数据销售逻辑。 通过对货物描述的查看, 发现大部分的单价为0的记录是对有缺陷货物的处理或者是礼品。 此类数据对所提出问题的分析无用,所以进行删除。
在数量列中, 发现有9288 个记录是负值, 发票号由首字母和数字组成,推测此类记录为退货记录. 决定此类数据进行单独存储。
空值: 通过filter 功能发现, 客户ID缺失的客户主要集中在UK,France, HongKon, Israel, Bahrain, Portugal, Swithzerland, Eire 和不确定国家。查看数据集发现,客户缺失数集的同一商品的单位价格高于有客户账号的价格, 在这里推测无账户进行的交易为零售交易。所以我将这一部分的数据移除出另外的表中。
5.一致化处理
1)货号
通过过滤货号发现, 总共由三个列别组成, 纯数字类, 数字加字母类别,纯字母类。
通过查看描述发现:纯数字类为不同的商品,数字加字母类为同种类商品的不同颜色或者形状,纯字母类为邮寄费或者银行费用等。所以,纯字母类别的数据与我们研究的问题无关,可以删除。并将数字类货号转化成文本形式。
2)发票号
发票号不需要进行计算直接转换成文本格式。选中发票号全列,右击编辑格式,选择文本格式。
6.补充必要数列
计算公司的季度以及月度销售额,所以需要增加每张发票每个商品的合计额。 通过插入函数,计算数量和单价的合计。并双击单元格右下角,运用到全列。
三.构建模型
数据清洗完以后,就可以根据前面提出的问题和分析思路来分析了。
1、客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?
回答这个问题需要使用RFM模型对所有的客户进行客户价值分类。RFM模型:
R(Recency):是指最近一次消费
F(Frequency):是指消费频率
M(Monetary):是指消费金额
首先计算出R值,F值和M值。 客户最近一次购买产品距离2011 年12月9号的天数,此时间段购买的次数 , 以及单个客户的购买总额。 其次,再对各个值进行标准化。
其次,再设置R、F、M值的参考值。 在此次分析中我选择了平均值为参考值。 然后, 将标准化的的R、F、M值与其参考值进行比较, 大于为1,小于为0. 最后,对客户价值进行分类。
客户价值分类,模型按 (2*2*2) 分为以下标准的8类。
通过对数据按照上面所说方式建模得出以下模型:
【作业点评】选择哪个图表的判断标准是能不能一眼看的懂这张图形的含义。这里图表选择条形图不对,因为很难一下子区别出来。因为这里图表是对RFM模型可视化,像这种存在前后转换关系的,如果用条形图不排序,就很难区分出来。但是如果排序的话,就会打乱前后转换关系前后顺序。单一对比,用条形图和柱形图都没事,如果涉及前后转化关系,条形图就不合适了。这里更适合的是三维象限图,如果你会做的,是更好的。如果不会坐,也可以选择用柱形图。
通过上面图表可以看出,该电商缺乏有价值的客人。重要价值客户, 交易金额大, 交易频繁且最近交易的客人只占27位, 占比0.62%。
重要唤回,挽留和深耕客户占比很低,总占比不到1%; 而一般维持客户却占比百分之30.41%,此类客人虽然交易次数较多但是贡献不大。
由此说明该电商缺乏交易累积金额较高的客户。但值得庆幸的是, 该电商吸引新客户的能力较强且具备比较大的潜力客户的基础。新客户占总比百分之38.55%, 潜力客户占总比百分之15.38%。
通过对模型的分析,我建议该电商可以针对不同的客户群体进行针对性市场调研,根据调研结果的市场营销活动。
例如:对重要价值,唤回,挽留和深耕客户,需要提升公司的服务质量和产品质量 以及价格优势等,刺激其购买冲动,增加客户忠诚度。对于一般维持客户和潜力客户, 通过市场促销手段提升客户的交易额度,让其转化为重要客户。 对于流失的客户,需要进行回访,找到其流失原因。
【作业点评】这块的建议数据支撑在哪里?你提到了市场营销活动,但是没从数据上看到哪里体现出了市场营销活动出问题了。客户占比,是怎么得出他们的占比是不好的?是和谁对比得出的结果
Copyright ©2015~2025 www.kingtall.com 网站ICP备案号:粤ICP备14001765号-1