ML之RS：基于用户的CF+LFM实现的推荐系统(基于相关度较高的用户实现电影推荐)-重庆市软件正版化服务平台

政策资讯

Policy Information

ML之RS：基于用户的CF+LFM实现的推荐系统(基于相关度较高的用户实现电影推荐)

来源：重庆市软件正版化服务中心 | 时间： 2022-09-19 | 浏览量： 66421 |

ML之RS：基于用户的CF+LFM实现的推荐系统(基于相关度较高的用户实现电影推荐)

输出结果

实现代码

输出结果

实现代码


ML之RS：基于CF和LFM实现的推荐系统
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings('ignore')
np.random.seed(1)
 
plt.style.use('ggplot')
 data = pd.read_csv('ml-20m/ratings_smaller.csv', index_col=0)
 movies = pd.read_csv('ml-20m/movies_smaller.csv')
 
1、导入数据集
data = pd.read_csv('ml-latest-small/ratings.csv')
movies = pd.read_csv('ml-latest-small/movies.csv')
movies = movies.set_index('movieId')[['title', 'genres']]
 
2、观察数据集
 How many users?
print (data.userId.nunique(), 'users')
 
 How many movies?
print (data.movieId.nunique(), 'movies')
 
 How possible ratings?
print (data.userId.nunique() * data.movieId.nunique(), 'possible ratings')
 
 How many do we have?
print (len(data), 'ratings')
print (100 * (float(len(data)) / (data.userId.nunique() * data.movieId.nunique())), '% of possible ratings')
 
 
 
 Number of ratings per users
fig = plt.figure(figsize=(10, 10))
ax = plt.hist(data.groupby('userId').apply(lambda x: len(x)).values, bins=50)
plt.xlabel("ratings")
plt.ylabel("users")
plt.title("Number of ratings per user")
plt.show()
 
 Number of ratings per movie
fig = plt.figure(figsize=(10, 10))
ax = plt.hist(data.groupby('movieId').apply(lambda x: len(x)).values, bins=50)
plt.xlabel("ratings")
plt.ylabel("movies")
plt.title('Number of ratings per movie')
plt.show()
 
 Ratings distribution评分分布
fig = plt.figure(figsize=(10, 10))
ax = plt.hist(data.rating.values, bins=5)
plt.xlabel("ratings")
plt.ylabel("numbers")
plt.title("Distribution of ratings")
plt.show()
 
 Average rating per user
fig = plt.figure(figsize=(10, 10))
ax = plt.hist(data.groupby('userId').rating.mean().values, bins=10)
plt.xlabel("Average rating")
plt.ylabel("numbers")
plt.title("Average rating per user")
plt.show()
 
 Average rating per movie
fig = plt.figure(figsize=(10, 10))
ax = plt.hist(data.groupby('movieId').rating.mean().values, bins=10)
plt.title('Average rating per movie')
plt.show()
 
 Top Movies，genres电影类型
average_movie_rating = data.groupby('movieId').mean()
top_movies = average_movie_rating.sort_values('rating', ascending=False).head(10)
pd.concat([movies.loc[top_movies.index.values],
           average_movie_rating.loc[top_movies.index.values].rating], axis=1)
 
 Robust Top Movies - Lets weight the average rating by the square root of number of ratings让平均评分进行加权数的平方根
top_movies = data.groupby('movieId').apply(lambda x:len(x)**0.5 * x.mean()).sort_values('rating', ascending=False).head(10)
pd.concat([movies.loc[top_movies.index.values], 
           average_movie_rating.loc[top_movies.index.values].rating], axis=1)
 
controversial_movies = data.groupby('movieId').apply(lambda x:len(x)**0.25 * x.std()).sort_values('rating', ascending=False).head(10)
pd.concat([movies.loc[controversial_movies.index.values], 
           average_movie_rating.loc[controversial_movies.index.values].rating], axis=1)

产品推荐

更多 >

WPS 365 一站式数字办公套件

WPS 365是金山办公推出的“数字办公全家桶”、一站式数字办公套件。既包含WPS Office套装、云盘、在线文档、轻维表、表单、脑图等内容创作工具，也包含企业IM、音视频会议等协作软件，助力企业高效协同办公。 2023年4月1日，金山办公宣布旗下全新产品WPS 365正式上线。通过统一工具、统一协作、统一管理的数字办公理念匹配业务发展，实现整个组织高效协作和安全管控。

1条评论

万里安全数据库V1.0

万里安全数据库GreatDB V1.0产品通过中国信息安全测评中心第一批“安可”测评，是“国货国用”、国资委79号文要求2027年全面完成国产替代的国产数据库厂商，也是入围国家信创目录中唯一采用 MySQL 技术路线的国产数据库厂商。

0条评论

中望CAD平台软件V2025 国产正版制图软件

中望软件是可信赖的All-in-One CAx解决方案提供商,科创板上市企业,掌握二三维CAD、CAM、CAE核心技术及产品开发能力,产品有中望CAD,中望3D,中望电磁,中望结构仿真.提供建筑设计软件与机械设计制图软件。

0条评论

金山终端安全系统V9.0杀毒软件（防病毒+漏洞+优化等）

金山终端安全系统V9.0是专门为政府、军工、能源、教育、医疗及集团化企业设计的终端安全管理平台。

0条评论