电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie

article/2025/10/12 16:13:29

数据集:

1.Netflix

描述:包含Netflix48万多个随机选取的匿名用户,对于17千多部电影的1兆多个电影评分

时间:1988.10~2005.11

 

内容:

包括training setmovie titlesprobe setqualifying set等文件。

Trainning set包含4个特征值:电影ID、用户ID、评分(1~5)、日期;

Movie titles包含3个特征值:电影ID、上映年份、电影标题;

Probe set用于测试,包含2个特征值;电影ID、用户ID

引用的论文:

[1]Matrix factorization techniques for recommender systems.2009

[2]Modeling relationships at multiple scales to improve accuracy of large recommender systems.2007

[3]Factorization meets the neighborhood a multifaceted collaborative filtering model

 

 

2.MovieLens

描述:按大小分成3部分

 

100k943个用户对于1682电影的100,000个评分;每个用户至少评级20部电影;包含用户的人口统计信息(年龄,性别,职业,邮编)

时间:1997.9.19~1998.4.22

包含u.datau.infou.itemu.genreu.useru.occupation几个文件

U.data: 用户id 、项目 id 、 评分、 时间戳

U.info: 用户数量、项目数量、评分数量

U.item: 电影id、电影标题、上映日期、光碟上映日期、IMDb URL、流派

U.genre: 流派

U.user: 用户id、年龄、性别、职位、邮编

 

1M 6,040个用户对于3,900部电影的1,000,209个评分

时间:2000

包含ratings.datusers.datmovies.dat

Ratings.dat: 用户id、电影id、评分(1~5)、时间标签

Users.dat 性别、年龄、职位、邮编

Movies.dat: 电影id、标题、流派

 

100M71567个用户对于10681部电影的10000054个评分

包含 movies.dat, ratings.dat 和 tags.dat.

Tags.dat:用户id、电影id、标签(tag)、时间戳

 

 

3.LDOS-CoMoDa

(1)基本情况


(2)统计情况:

用户年龄段大多数集中在1635岁之间;

大多数电影得到23个评分;

 


 

文件每一行结构如下:

UserID,itemID,rating,age,sex,city,country,time,daytype,season,location,weather,social,endEmo,dominantEmo,mood,physical,desicion,interaction,director,

movieCountry,movieLanguage,movieYear,genre1,genre2,genre3,actor1,actor2,actor3,budget

来源:http://212.235.187.145/spletnastran/raziskave/um/comoda/comoda.php

 

每列的数值范围:

LDOS - CoMoDa dataset_____________________

Data fields:versionDate: date of the dataset versionuserID (15 - 200, some missing)itemID (1 -4138, some missing)rating (1-5)user's ageuser's sex (1=male, 2= female)user's cityuser's countrytime (1-4)daytype (1-3)season (1-4)location (1-3) weather (1-5)social (1-7) endEmo(1-7)dominantEmo (1-7) mood (1-3) physical (1-2) decision (1-2) interaction (1-2)movie directormovie's countrymovie's languagemovie's yeargenre1genre2genre3actor1actor2actor3movie's budget 


 上下文属性:_______________________

Context variables:time : Morning, Afternoon, Evening, Nightdaytype : Working day, Weekend, Holidayseason : Spring, Summer, Autumn, Winterlocation : Home, Public place, Friend's houseweather : Sunny / clear, Rainy, Stormy, Snowy, Cloudysocial : Alone, My partner, Friends, Colleagues, Parents, Public, My familyendEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, NeutraldominantEmo : Sad, Happy, Scared, Surprised, Angry, Disgusted, Neutral mood : Positive, Neutral, Negativephysical : Healthy, Ill decision : User decided which movie to watch, User was given a movieinteraction : first interaction with a movie, n-th interaction with a movie Context values in the database corespond to this order.(for example: daytype-> 1 = Working day, 2 = Weekend, 3 = Holiday

_______________________

Missing value:-1

 

 

4.AdomMovie



http://chatgpt.dhexx.cn/article/B3BWjoY3.shtml

相关文章

从IMDB上爬取MovieLens数据集中的详细电影信息

文章目录 基于协同过滤的电影推荐系统数据集HTML页面分析爬虫代码运行时间百度网盘链接 基于协同过滤的电影推荐系统 用这个数据集实现了一个小型的电影推荐网站,GitHub代码 数据集 数据集是MovieLens提供的ml-latest-small https://grouplens.org/datasets/mov…

数据分析实例:MovieLens电影数据分析

数据分析实例:MovieLens电影数据分析 数据准备 数据集来源:grouplens.org/datasets/movielens/ 下载 ml-1m.zip,read me 中有电影评分介绍 MovieLens 1M电影分级。 稳定的基准数据集。 6000个用户观看4000部电影时获得100万个评分。 发布2…

Spark Hive实现基于协同过滤的电影推荐(MovieLens数据集)

这篇文章记录一下我之前做过的通过Spark与Hive实现的基于协调过滤的电影推荐。这篇文章只能提供算法、思路和过程记录,并没有完整的代码,仅尽量全面地记录过程细节方便参考。 一、数据获取 数据集是从下面这个地址下载的,数据集主要内容是关…

基于用户的协同过滤Movielens电影推荐系统简单实例

基于用户的协同过滤Movielens电影推荐系统简单实例 一、Movielens数据集 1. MovieLens数据集的下载(Download) 1) 从网站下载数据 链接: https://grouplens.org/datasets/movielens/. 有好几种版本,对应不同数据量,…

ML之GB:基于MovieLens电影评分数据集利用基于图的推荐算法(Neo4j图数据库+Cypher查询语言)实现对用户进行Top5电影推荐案例

ML之GB:基于MovieLens电影评分数据集利用基于图的推荐算法(Neo4j图数据库Cypher查询语言)实现对用户进行Top5电影推荐案例 目录 基于MovieLens电影评分数据集利用基于图的推荐算法(Neo4j图数据库Cypher查询语言)实现对用户进行Top5电影推荐案例 1、定义数据集 1.…

从IMDB上爬取MovieLens-1m的补充数据(电影海报和简介)

文章主要内容 本人是想做推荐算法相关的一名在校生,目前想做多模态融合,而MovieLens-1m数据集只有电影信息和用户信息,于是有想法能否在原有的电影推荐公开数据集中而外获取电影海报(图片信息)和电影简介(…

对Movielens数据集进行评分预测

对Movielens数据集进行评分预测 实验源码:lab3代码.ipynb 实验环境:vscode colab 数据解释: movies.dat的数据如下 1::Toy Story (1995)::Animation|Childrens|Comedy 2::Jumanji (1995)::Adventure|Childrens|Fantasy 3::Grumpier Old…

ML之KG:基于MovieLens电影评分数据集利用基于知识图谱的推荐算法(networkx+基于路径相似度的方法)实现对用户进行Top电影推荐案例

ML之KG:基于MovieLens电影评分数据集利用基于知识图谱的推荐算法(networkx基于路径相似度的方法)实现对用户进行Top电影推荐案例 目录 基于MovieLens电影评分数据集利用基于知识图谱的推荐算法(networkx基于路径相似度的方法)实现对用户进行Top电影推荐案例 # 1、定…

利用pandas对MovieLens电影数据分析

掌握pandas基本语法操作「pandas基础入门中有详细语法格式」后,就可以利用pandas做一些简单实例的数据处理。 Movie电影数据分析 首先需要下载电影数据集MovieLens,这个数据集中包含用户数据;电影数据;电影评分表。电影数据中包…

MovieLens数据集处理

有一个定律,对于内容的访问遵循80/20原则,也就是20%的内容,会占有80%的访问量。就是zipf分布[1]。  根据MovieLens的数据集中的ratings.dat,我做了数据处理,获取得分最高的2000个条目。 ml-pro.py import os import …

推荐系统笔记(二):常用数据集Movielens学习

介绍 movielens数据集是电影推荐数据集,数据集有多种大小和目的使用的数据集。按照使用目的可以分为两类,一类数据集适用于推进最新研究的数据,一类数据集是用于高校研究和教育科研使用的数据集。本次介绍三个数据集的使用和处理。 数据集下…

java读取movielens数据txt

各位好,我是菜鸟小明哥,movielens数据是常见的推荐方面的开源数据集,另一个推荐方面的数据集是新闻MIND,本文将从movielens再次出发,做基础的推荐方法,比如基本的基于标题的相似性,word2vector&…

推荐系统数据集之MovieLens

1.概述 MovieLens其实是一个推荐系统和虚拟社区网站,它由美国 Minnesota 大学计算机科学与工程学院的GroupLens项目组创办,是一个非商业性质的、以研究为目的的实验性站点。GroupLens研究组根据MovieLens网站提供的数据制作了MovieLens数据集合&#xff…

【工具】Movielens数据集详细介绍

MovieLens数据集 MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。 下载地址 http://files.grouplens.org/datasets/movielens/ 介绍 下面以ml-100k数据集为例进行介绍: 最主要用的是u.data(评分) | u.item…

movielens数据集简述

一、movielens数据集 ratings数据: 文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下: userId, movieId, rating, timestamp userId: 每个用户的id movieId: 每部电影的id rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars) timestam…

Movielens数据集详细介绍

MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。下载地址为:http://files.grouplens.org/datasets/movielens/ 下面以ml-100k数据集为例进行介绍: 最主要用的是u.data(评分) | u.item(电影信息) …

movielens数据集介绍及使用python简单处理

0 前言 个性化推荐中,电影推荐研究时常使用movielens上的数据集。该网站的数据集主要分两部分, 一是用于推进最新研究进展的数据集。当前最新的是发布于2019年12月份的25M数据集。 二是用于高校、组织科研的数据集。该类数据集按其是否带有标签、时间…

mui用ajax上拉加载更多,mui上拉加载更多下拉刷新数据的封装过程

辗转用mui做了两个项目,空下来把mui上拉加载更多,下拉刷新数据做了一个简单的封装,希望可以帮助到需要的朋友 demo项目的结构 直接贴代码了 index.html mui上拉刷新下拉加载都这里了,两个方法搞定mui上拉刷新下拉加载demo--封装 l…

如何实现上拉加载和下拉刷新

下拉刷新和上拉加载这两种交互⽅式通常出现在移动端中 本质上等同于PC⽹⻚中的分⻚,只是交互形式不同 开源社区也有很多优秀的解决⽅案,如 iscroll 、 better-scroll 、 pulltorefresh.js 库等等 这些第三⽅库使⽤起来⾮常便捷 我们通过原⽣的⽅式实现…

ComposeUI——下拉刷新+上拉加载(一、简单封装)

前言:ComposeUI是将来开发的趋势,本人也在对它进行学习,会把踩过的坑一一记录下来,希望能对大家有帮助。话不多说,直接开干。 目录 下拉刷新 1、引入依赖库 2、使用方法 上拉加载 1、先看用法(结合下…