rating

02爬取豆瓣最受欢迎的250部电影

故事扮演 提交于 2020-08-15 01:45:10
# 爬取豆瓣最受欢迎的250部电影,并写入Excel表格中 import requests,xlwt from bs4 import BeautifulSoup # 请求豆瓣网站,获取网页源码 def request_douban(url): try : # 请求url headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"} response = requests.get(url,headers = headers) # 判断网页的返回码是不是200 print(response.status_code) if response.status_code == 200: return response.text except requests.RequestException: return None book = xlwt.Workbook(encoding = "utf-8",style_compression = 0 ) # 先定义一个Excel表格,写好名称,图片等信息 sheet = book.add_sheet("豆瓣电影Top250",cell

投稿、接收双Double,史上最火ECCV你中了么?

社会主义新天地 提交于 2020-08-14 20:56:09
     作者 | 蒋宝尚   编辑 | 丛 末   经历了程序主席一度失联,线上线下两难抉择的ECCV 2020终于迎来了放榜。据官方邮件介绍,这届会议 共收到5025份有效投稿,共接收1361篇,录取率为27% 。   1361篇稿件里面,还有104篇oral 以及161篇 Spotlight,分别占比2%和5%。   另外,在邮件中组委会还明确了ECCV线上举行的消息:由于新冠病毒的大流行,我们不得不采取线上举办的形式,但是和线下举办类似,我们依然将论文分为了三部分:oral、spotlight以及实体会议论文海报展示。    1    经历程序主席集体失联的ECCV   ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议之一,另外两个是 ICCV 和 CVPR 。每年的录取率稳都在20%以上。   这次相比ECCV 2018年 776 篇的录用数量,ECCV2020的录用数量多了一倍。投稿数量对比2018年的2439篇,今年的5025篇有效投稿也多了接近一倍。所以相比 ECCV 2018,今年不管投稿论文,还是录用论文,数量呈显著增长趋势。   不过,对比ECCV 2018 的录用比31%,2020年的录取率还是保守了点。   除了录取率比较保守,ECCV 2020

用Spark学习矩阵分解推荐算法

拥有回忆 提交于 2020-08-13 20:57:11
    在 矩阵分解在协同过滤推荐算法中的应用 中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概述     在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法。而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵:$$M_{m \times n}=P_{m \times k}^TQ_{k \times n}$$     其中k为分解成低维的维数,一般远比m和n小。如果大家对FunkSVD算法不熟悉,可以复习对应的原理篇。 2. Spark推荐算法类库介绍     在Spark MLlib中,实现的FunkSVD算法支持Python,Java,Scala和R的接口。由于前面的实践篇我们都是基于Python,本文的后面的介绍和使用也会使用MLlib的Python接口。     Spark MLlib推荐算法python对应的接口都在pyspark.mllib.recommendation包中,这个包有三个类,Rating, MatrixFactorizationModel和ALS。虽然里面有三个类,但是算法只是FunkSVD算法。下面介绍这三个类的用途。     Rating类比较简单,仅仅只是为了封装用户,物品与评分这3个值

十个便捷的单行代码编程技巧

假如想象 提交于 2020-08-13 07:11:03
1、对列表/数组中的每个元素都乘以2 // www.1b23.com Range是半开区间 int [] ia = range(1, 10).map(i -> i * 2).toArray(); List<Integer> result = range(1, 10).map(i -> i * 2).boxed().collect(toList()); 2、计算集合/数组中的数字之和 range(1, 1000).sum(); range(1, 1000).reduce(0, Integer::sum); Stream.iterate(0, i -> i + 1).limit(1000).reduce(0, Integer::sum); IntStream.iterate(0, i -> i + 1).limit(1000).reduce(0, Integer::sum); 3、验证字符串是否包含集合中的某一字符串 final List<String> keywords = Arrays.asList("brown", "fox", "dog", "pangram"); final String tweet = "The quick brown fox jumps over a lazy dog. #pangram http://www.rinkworks.com/words

2020暑假训练日记

ⅰ亾dé卋堺 提交于 2020-08-11 21:02:44
\[\Huge\text{愉快的暑假} \] 目录 7.1 7.2 低效的一天。顺便聊聊后面的计划 7.3 模拟赛。又双叒叕水群浪费了很多时间 7.4 CF智商场惨遭碾压,大号灰飞烟灭 7.5 订正CF。加没做啥事。 7.6 巨难的模拟赛,遗憾的vp 7.7 遗憾的vp * 2 7.8 补CF题 7.9 计划出了一点小意外...于是玩了一天提答 7.14 恢复训练 7.16 做题。效率仍有待提高 7.17 AK div3 (快乐 7.18 快乐的一天,曲折而成功的vp 7.19 div2涨分 7.20 南外训练开始! 7.21 杭电多校 爆炸 7.24 CF小掉分 7.25 补补题,vp手速太慢 7.26 听课,vp划水爆炸 7.27 NOI模拟赛,晚上补题 7.1 上午回学校口语考试。( “语考试”是谁? )。考试结束已经13:00了。号家军赶去参加模拟赛,留我一个人在校园里瞎逛,原希望“偶遇”syn,未成功。2:10左右回到家。睡了个午觉。4:30起床。总而言之今天4:30以前啥也没干。 起床后,吃晚饭前,做了上一场div3的 E1 Reading Books (easy version) ,是简单贪心。想继续贪心搞一下 E2 ,但是WA了。后来看了一眼题解才明白E2需要 枚举 “a=1,b=1”这类东西的数量,然后快速计算代价。我想到了用二分来计算代价。于是写了这个题。

电影推荐系统项目的数据处理部分

瘦欲@ 提交于 2020-08-11 15:04:06
目录 项目架构 前期工作:数据加载 离线推荐 统计推荐 ALS离线推荐 实时推荐 这个项目的整体业务逻辑是通过Spring进行搭建,并部署在Tomcat上的。业务产生的数据一部分被存储到mongoDB并用于spark sql和ml的离线计算。另一部分被传送到Flume,经kafka到达spark streaming进行实时计算。还有一部分数据存储到redis,同样运用到spark streaming上。本文主要关注spark相关的部分。项目的原始实现主要基于RDD,而且有不少低效的代码实现。本文在此基础上对80%的spark相关代码进行了重写,使新的实现在运行效率上提高了两倍以上、内存使用减少了几倍、代码量也减少近一半。 项目架构 综合业务:Spring、Tomcat 数据存储:业务数据MongoDB、搜索服务数据ES、缓存数据Redis 离线和实施推荐:Spark DF、ML、Streaming 消息服务:Kafka 【数据加载】 数据加载服务,主要用于项目的数据初始化,用于将三个数据集(Movies【电影的数据集】、Rating【用户对于电影的评分】、Tags【用户对于电影的标签】)初始化到Mongodb数据库以及ElasticSearch里面。 【离线推荐】 通过Azkaban周期性的调度【离线统计服务】和【离线推荐服务】。 【离线统计服务】 最热电影统计算法 =>

基于Python和Tensorflow构建完整的电影推荐算法

时间秒杀一切 提交于 2020-08-10 07:05:03
第一步:收集和清洗数据 数据链接: https://grouplens.org/datasets/movielens/ 下载文件:ml-latest-small import pandas as pd import numpy as np import tensorflow as tf 导入ratings.csv文件 ratings_df = pd.read_csv('./ml-latest-small/ratings.csv') ratings_df.tail() #tail命令用于输入文件中的尾部内容。tail命令默认在屏幕上显示指定文件的末尾5行。 结果: 导入movies.csv文件 movies_df = pd.read_csv('./ml-latest-small/movies.csv') movies_df.tail() 结果: 将movies_df中的movieId替换为行号 movies_df['movieRow'] = movies_df.index #生成一列‘movieRow’,等于索引值index movies_df.tail() 结果: 筛选movies_df中的特征 movies_df = movies_df[['movieRow','movieId','title']] #筛选三列出来 movies_df.to_csv('./ml-latest

使SPI MRAM MR10Q010适应在3.3vI/O系统中的操作

倖福魔咒の 提交于 2020-08-10 05:01:36
Everspin MR10Q010该存储器1Mb串行MRAM具有四个串行I/O路径,旨在提高读/写速度并减少时钟周期。具有用于Quad SPI操作的完整命令集,包括读写操作,其中在所有四个I/O上输入地址和数据以减少时钟周期。 Everspin代理 英尚微电子提供产品相关技术支持及应用解决方案。 Everspin MR10Q010 四路SPI串行MRAM需要3.3v Vdd电源,并设计为可在1.8v总线I/O上运行。可以通过电平转换器将MR10Q010连接到总线,从而使MR10Q010适应在3.3v数据总线上运行。线性稳压器可用于提供MR10Q010所需的1.8v电源。 用于MR10Q010 Quad SPI MRAM的I/O适配器板 MR10Q010评估板使用德州仪器(TI)的TXB0108双向电平转换器和TPS73018低压降稳压器。该板的设计使其可以连接到当前由SPI或Quad SPI EEPROM占用的板位置或插座,并可以在现有系统中运行。所有 MRAM 和EEPROM引脚的测试点都位于板上。 用于评估在3.3vI/O数据总线系统中运行的MR10Q010。 8引脚DIP站点,允许安装为子板以代替现有的8引脚SPI或Quad SPI EEPROM。 MR10Q010从板载稳压器获得1.8v电源。 所有MR10Q010和E2PROM引脚均可通过0.1英寸间距的通孔连接点进行评估

基于用户的协同过滤来构建推荐系统

白昼怎懂夜的黑 提交于 2020-08-10 03:57:14
1.概述 之前介绍了如何构建一个推荐系统,今天给大家介绍如何基于用户的协同过滤来构建推荐的实战篇。 2.内容 协同过滤技术在推荐系统中应用的比较广泛,它是一个快速发展的研究领域。它比较常用的两种方法是基于内存( Memory-Based )和基于模型( Model-Based )。 基于内存:主要通过计算近似度来进行推荐,比如基于用户( Used-Based )和基于物品( Item-Based )的协同过滤,这两个模式中都会首先构建用户交互矩阵,然后矩阵的行向量和列向量可以用来表示用户和物品,然后计算用户和物品的相似度来进行推荐; 基于模型:主要是对交互矩阵进行填充,预测用户购买某个物品的可能性。 为了解决这些问题,可以通过建立协同过滤模型,利用购买数据向客户推荐产品。下面,我们通过基于用户的协同过滤(基于内存),通过实战来一步步实现其中的细节。基于用户的系统过滤体现在具有相似特征的人拥有相似的喜好。比如,用户A向用户B推荐了物品C,而B购买过很多类似C的物品,并且评价也高。那么,在未来,用户B也会有很大的可能会去购买物品C,并且用户B会基于相似度度量来推荐物品C。 2.1 基于用户与用户的协同过滤 这种方式识别与查询用户相似的用户,并估计期望的评分为这些相似用户评分的加权平均值。实战所使用的Python语言,这里需要依赖的库如下: pandas numpy sklearn

韶华

拜拜、爱过 提交于 2020-08-09 19:52:20
The truth shall make you free 2020.8.4 白天啥也没干,xxy挂了 晚上63级来了,xxy复活了 2020.8.3 今天早上忘了钥匙了,然后三区的三个孩子就被困在机房外 然后老吕来了,他也没拿钥匙,然后又等了几分钟 一区的孩子来了,然后就进去了 晚上,一区和二区的63级来了,三区人呢??(小问号,大疑惑 三区的来了 我直接抗议,他们一来就去小机房,这什么待遇(LKp我可要生气了 鼻炎又犯咋办?? 2020.8.2 今天早上又迟到了几分钟 我很好奇为什么女生这么喜欢逛街呢 我.....蚊子咬了我十几个包,淦 今天晚上打比赛AtcoderABC174,又没AK 2020.8.1 今天好像是 扒衣见君节 八一建军节诶 今天早上就返校了, 不仅活动没肝完,我还困的一批,咖啡续命.jpg 下午2:27,龙和利利来了,然后问我们今天中午去吃饭了么,嗯,然后问我们这是什么菜 "这是什么菜,芸豆??" "不是,辣子鸡" "只有辣椒奥" "嗯" 下午2:34,ct和zyg来了,然后龙让zyg猜刚刚问我们的那个菜... 下午2:35,ly和nj来了,然后龙让ly猜刚刚问我们的那个菜... 下午2:36,除了lmc, wmz, sxy的来全了,机房里有8个老师,3个学生,吓死,躲在角落瑟瑟发抖.jpg 下午2:40,就差sxy, lmc,11个老师就全了