淘宝用户行为分析

基于阿里云天池-淘宝用户行为数据集

Posted by Kai Liang on November 15, 2020 · 1 min read

淘宝用户行为分析

项目代码(SQL)-GitHub

项目代码(Python)-GitHub

1 - 项目简介

1.1 项目背景

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

数据集地址:User Behavior Data from Taobao

关于数据集中每一列的详细描述如下:

列名 中文列名 说明
user_id 用户ID 整数类型,序列化后的用户ID
item_id 商品ID 整数类型,序列化后的商品ID
category_id 商品类目ID 整数类型,序列化后的商品所属类目ID
behavior_type 行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
timestamp 时间戳 行为发生的时间戳

用户行为类型共有四种,它们分别是:

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品


1.2 分析目标

  • 用户数据指标
    • 日新增用户
    • 活跃率
    • 用户留存
    • 用户价值分析 (RFM)
  • 行为数据指标
    • 流量指标 (PV, UV)
    • 转化率
  • 产品数据指标
    • 付费率
    • 复购率
    • 热销商品

TODO: upload analysis



Cover Photo by Glenn Carstens-Peters on Unsplash