散点图

协同过滤推荐算法的原理及实现

我是研究僧i 提交于 2019-11-26 21:14:11
一、协同过滤算法的原理及实现 协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是 基于用户 的协同过滤算法(user-based collaboratIve filtering),和 基于物品 的协同过滤算法(item-based collaborative filtering)。简单的说就是:人以类聚,物以群分。下面我们将分别说明这两类推荐算法的原理和实现方法。 1.基于用户的协同过滤算法(user-based collaboratIve filtering) 基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购买了x,y,z三本图书,并且给出了5星的好评。那么A和B就属于同一类用户。可以将A看过的图书w也推荐给用户B。 1.1寻找偏好相似的用户  我们模拟了5个用户对两件商品的评分,来说明如何通过用户对不同商品的态度和偏好寻找相似的用户。在示例中,5个用户分别对两件商品进行了评分

线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现

风流意气都作罢 提交于 2019-11-26 15:33:31
目录 数据导入 单变量线性回归 绘制散点图 相关系数R 拆分训练集和测试集 多变量线性回归 数据检验(判断是否可以做线性回归) 训练线性回归模型 先甩几个典型的线性回归的模型,帮助大家捡起那些年被忘记的数学。 ● 单变量线性回归: h(x)=theta0 + theta1* x 1 ● 多变量线性回归: h(x)=theta0 + theta1* x 1 + theta2* x 2 + theta3* x 3 ● 多项式回归: h(x)=theta0 + theta1* x 1 + theta2* (x2^2) + theta3* (x3^3) 多项式回归始终还是线性回归,你可以令x2=x2^2,x3=x3^3,简单的数据处理一下就好了,这样上述多项式回归的模型就变成多变量线性回归的模型了。 数据导入 下面我们要开始用数据说话了,先来看看数据源是什么样子吧。 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pandas import DataFrame,Series from sklearn.cross_validation import train_test_split from sklearn.linear_model import LinearRegression

学习笔记(二)数据挖掘概念与技术

时间秒杀一切 提交于 2019-11-26 14:59:03
1中心趋势度量:均值(mean)、中位数、众数 截尾均值:丢掉高低极端值后的均值 加权算术均值(加权平均): 中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。 用插值法计算中位数的近似值: median= 其中 是中位数区间的下界,N是整个数据集中值的个数, 是低于中位数区间的所有区间的频率和, 是中位数区间的频率,而width是中位数区间的宽度。 众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数) 对于适度倾斜(非对称)的单峰数值数据,有经验关系: ,就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。 中列数(midrange):是数据集的最大和最小值的平均值 。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同 2度量数据散布:极差、四分位数、方差、标准差和四分位数极差 (1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成 基本上 大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1 (2)五数概括、盒图与离群点 识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1

为什么你成不了数据分析高手?可能是缺少这个思维

徘徊边缘 提交于 2019-11-26 10:29:30
在讲前三章基础思维的时候,有读者反映文章过于理论,没有实际的操作讲解,那么今天我就在讲解数据思维的同时也会附上案例教程,以供大家参考学习。 话不多说,我们今天要讲的是 矩阵思维 ,其实矩阵思维不仅仅是用在数据分析领域,在财务、业务、销售、自媒体甚至生活中都有很广泛的应用,比如我们经常听到的自媒体矩阵、线下实体矩阵、流量矩阵等等,甚至有可能在你小区卖早点的都会搞营销矩阵。 比如说,安索夫矩阵思维,根据产品和市场将思维分为四种: 市场渗透、市场开发、产品延伸、多元化经营 。这不仅可以应用在企业经营上,更可以套用在个人的职业发展上,比如: 市场渗透:.吃透数据分析,让自己成为公司的数据分析专家 产品延伸:你的数据分析能力被别的产品小组发现了,也请你为他们做数据分析 市场开发:你在数据分析技能不断长进的同时,还掌握了行为设计 多角化:你的数据分析和行为设计能力达到了业界认可,有外企邀请你为他们做指导 其实,在百度百科中,矩阵更多是一种数学概念,而在数据分析中,它更多的是代表一种营销思维。有的人用它来设计产品,推行多元化品牌;有的人用它来聚集流量,占领细分市场。除了安索夫矩阵,今天我要介绍的则是数据分析中另一个十分常用的模型——波士顿矩阵。 一、什么是波士顿矩阵? 波士顿矩阵也已经是老生常谈了,具体的定义我们也不用太过钻研,我们只要明白波士顿矩阵关注的核心就是两个维度——