KuaiRec | 快手首个稠密为99.6%的数据集 | 相关介绍、下载、处理、使用方法

1. 数据集介绍

KuaiRec是中科大与快手团队合作产出的一个稠密度高达99.6%(一般推荐系统公开数据集的稠密度在1%以下)的数据集。
本文将对KuaiRec的构建过程、相关实验、数据信息及处理使用方法等内容进行说明。
在这里插入图片描述
上图(b)为KuaiRec数据集,右下角的小矩阵是收集到的全曝光数据集;
通常来说,我们使用大矩阵训练,用小矩阵测试。
在这里插入图片描述
上图为属性信息,主要包含item feature社交网络两部分。

1.1 相关链接:

论文:https://arxiv.org/abs/2202.10842
数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
代码:https://chongminggao.github.io/KuaiRec/
Example:http://m6z.cn/5U6xyQ
作者主页:https://chongminggao.me/

1.2 构建方法

  • 所有数据均来源于2020年7月5日至2020年9月5日快手APP上的交互记录;
  • 用户和视频均带有快手平台标记的“高质量”标签
  • 对于缺失值(即用户未观看的其余视频),团队操纵在线推荐规则将这些视频强制推荐给用户,此过程持续了15天。
  • 小矩阵的密度为99.6%,而非100%,是因为有部分用户显式的屏蔽过某些视频作者,导致无法将这些视频曝光给用户。

1.3 代表性验证

  • Kolmogorov–Smirnov假设检验来验证了收集到的小矩阵中的用户与视频快手数据中的用户与视频有着同样的分布。即验证了小矩阵中的用户和视频具有代表性。

1.4 相关实验

作者选择用这个数据集来探究对话推荐系统中的一些关键问题,包括两方面:

  1. 首先,部分观察到的数据(有偏差和无偏差)如何影响 CRS 的评估
  2. 我们能否通过估计缺失值(即矩阵补全)来改进对部分观测数据的评估

除此之外,作者还探究了两个因素在评估中的影响

  1. 观测数据的密度:从全曝光小矩阵中采样出不同密度的数据,使得观测密度在区间:{10%,20%,…, 100%}中。
  2. 曝光偏差的种类:通过随机性采样,基于流行商品的采样,以及基于正样本的采样,分别用以模拟部分曝光中的无偏数据、流行偏差、以及正样本偏差。

2. 数据集下载

数据下载链接:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
下载并解压数据集后,data文件夹中保存的是大矩阵和小矩阵,以及属性信息。

2.1 big matrix

big matrix:即图(b)中的蓝色部分,包含了7176名用户对10729个视频的12530806条交互记录,density为13.4%
在这里插入图片描述

2.1 small matrix

small matrix:即图(b)中的红色部分,包含了1411名用户对3327个视频的4676570条交互记录,density为99.6%.
在这里插入图片描述

2.3 item_feat

item_feat:每个视频最多包含4个tags(如体育、游戏…),共有31种tags。
在这里插入图片描述

2.4 social_network

social_network: 用户社交网络数据;小矩阵中共有146名用户有社交关系,大矩阵中共有472名用户有社交关系。
在这里插入图片描述


loaddata.pyStatistic_KuaiRec.ipynb都是作者提供的加载数据集的代码
在这里插入图片描述

2.5 注意点

  1. video_id = 1225是空缺值,这个video不存在任何交互记录~(写代码的时候才发现,所以没有修复了),处理时需要注意一下
    如,负采样时:
        neg = item + 1
        while neg <= max_item:
            if neg == 1225:  # 1225 is an absent video_id
                neg = 1226

3. 数据集处理

3.1 数据集读取

  1. filePath改成数据集路径
filePath= "../environments/KuaishouRec/data/big_matrix.csv" # 写自己的路径
df_big = pd.read_csv(filePath)

注意一下,图中的photo_id就是csv文件中的video_id~(我下载的是老版本数据,当时还没有修改列名)
在这里插入图片描述

  1. 指定读取列,如只需要u,i,r数据:
df_big = pd.read_csv(filePath, usecols=['user_id', 'photo_id',  'watch_ratio'])

在这里插入图片描述

3.2 划分训练集测试集

因为作者给出的是一个大数据集,并没有划分训练集和测试集,需要我们自己划分;调用sklearn.model_selection import train_test_split库就可以轻松划分了。

from sklearn.model_selection import train_test_split
import os
import pandas as pd


DATAPATH = "../environments/KuaishouRec/data"
filePath = os.path.join(DATAPATH, "big_matrix.csv")
trainpath = os.path.join(DATAPATH, "train_big_matrix.csv")
testpath = os.path.join(DATAPATH, "test_big_matrix.csv")

# 开始读取
df_big = pd.read_csv(filePath, usecols=['user_id', 'video_id',  'watch_ratio'])
# watch_ratio控制范围
df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5
x_train,x_test=train_test_split(df_big,test_size=0.2,random_state=2022)

x_train.sort_values("user_id", inplace=True)
x_test.sort_values("user_id", inplace=True)

# save
x_train.to_csv(trainpath, index=False)
x_test.to_csv(testpath, index=False)

print("split dataset completed")

3.3 拼接物品属性

  1. 先读取item feature,维度为 item_num*2
 data_feat = pd.read_csv(os.path.join(DATAPATH, 'item_feat.csv'))
    print("number of items:", len(data_feat))
  1. 我们想转换成 item_num*4,因为每个物品最多有4个tag;因此建立一个列表list_feat,再将物品feature读进去;最后将其转换为dataframe结构。
    data_feat = pd.read_csv(os.path.join(DATAPATH, 'item_feat.csv'))
    print("number of items:", len(data_feat))
    list_feat = [0] * len(data_feat)
    for i in range(len(data_feat)):
        list_feat[i] = data_feat[str(i)]['feature_index']

    df_feat = pd.DataFrame(list_feat, columns=['feat0', 'feat1', 'feat2', 'feat3'], dtype=int)
  1. 这里要注意一下缺失值处理哦!因为本身就有feature0,因此我们将NAN的feature置为-1,最后再统一加一。
    df_feat.index.name = "video_id"
    # 本身就有feature=0的值,所以设置为-1,再整体加一
    df_feat[df_feat.isna()] = -1
    df_feat = df_feat + 1
    df_feat = df_feat.astype(int)

在这里插入图片描述
4. 最后我们将物品属性矩阵与大矩阵组合起来:

    # 把大矩阵和item特征组合起来
    df_big = df_big.join(df_feat, on=['video_id'], how="left")
    df_big.loc[df_big['watch_ratio'] > 5, 'watch_ratio'] = 5

    user_features = ["user_id"]
    item_features = ["video_id"] + ["feat" + str(i) for i in range(4)] + ["photo_duration"]
    reward_features = ["watch_ratio"]

3.4 转换成稀疏矩阵

这部分是将大矩阵处理成(u,i,r)形式。

  1. 首先将video_id user_id转成离散形式
lbe_video = LabelEncoder() # 弄成离散的
lbe_video.fit(df_big['video_id'].unique())

lbe_user = LabelEncoder()
lbe_user.fit(df_big['user_id'].unique())
  1. 利用csr_matrix进行转化
 # 类似(u,i,r)
 mat = csr_matrix(
            (df_big ['watch_ratio'],
             (lbe_user.transform(df_big ['user_id']), lbe_photo.transform(df_big ['video_id']))),
            shape=(df_big ['user_id'].nunique(), df_big ['video_id'].nunique())).toarray()

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>