mean

机器学习小组第二期第三周:简单的数据预处理和特征工程

寵の児 提交于 2020-03-17 06:13:17
目录 1.归一化 1.1.最值归一化(normalization) 1.2.均值方差归一化(standardization) 1.3.Sklearn中的归一化 2.缺失值处理 2.1.确定缺失值范围 2.2.填充缺失内容 2.2.1.平均值填充法 2.2.2.中位数填充法 2.2.3.条件平均值填充法 2.2.4.模型预测填充法 2.2.4.1.kNN 2.2.4.2.Regression 2.2.5.利用sklearn填补缺失值 3.处理分类型特征:编码与哑变量 4.处理连续型特征:二值化与分段 1.归一化 问题 :在量纲不同的情况下,不能反映样本中每一个特征的重要程度。 方案 :数据归一化,即标准化。把所有的数据都映射到同一个尺度(量纲)。 归一化可以提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。(一个特例是决策树,对决策树不需要归一化,决策树可以把任意数据都处理得很好。) 数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括 中心化 处理和 缩放 处理。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。 归一化之后的数据服从正态分布。 1.1.最值归一化(normalization) 把所有数据映射到0-1之间。使用范围

Finding the mean of a subset

女生的网名这么多〃 提交于 2020-03-16 07:05:06
问题 I have made a subset from the dataframe 'Indometh' called 'indo': indo Subject time conc 1 1 0.25 1.50 13 2 0.50 1.63 24 3 0.50 1.49 25 3 0.75 1.16 34 4 0.25 1.85 35 4 0.50 1.39 36 4 0.75 1.02 46 5 0.50 1.04 57 6 0.50 1.44 58 6 0.75 1.03 I want to find what the average concentration for the subset is. I have used code but to no avail: mean(subset(indo, conc >1 & conc <2)) I know summary(indo) will show the mean of the concentration but wanted to know if there was another way I could do this

golang与node.js的http对比测试

╄→尐↘猪︶ㄣ 提交于 2020-03-12 17:26:51
去年的时候,曾经简单对比了一下golang和nodejs的http模块的性能,见: golang与node.js的http对比测试 那时golang还没发布go1,http模块比nodejs差得很远。 go1出来已经有一段时间了,我知道go的http模块性能已经有比较大的提升,但是最近依然见到有人提起去年写的那篇文章,为避免产生对golang的误解,对于go1的最新测试结果如下。 测试是在Ubuntu 12.04 64位系统下进行的: qleelulu@nb:~$ uname -a Linux nb 3.2.0-25-generic #40-Ubuntu SMP Wed May 23 20:30:51 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux qleelulu@nb:~$ sudo dmidecode | grep CPU Socket Designation: CPU Version: Intel(R) Core(TM) i5 CPU M 480 @ 2.67GHz (注:双核4线程) go的版本: qleelulu@nb:~$ go version go version go1 nodejs的版本: qleelulu@nb:~$ node -v v0.8.6 单CPU测试 nodejs是单进程,只使用一个CPU

深度学习 损失函数

僤鯓⒐⒋嵵緔 提交于 2020-03-09 16:36:49
分类问题和回归问题是监督学习的两大类。 分类问题常用的损失函数为交叉熵函数(cross entropy) tensorflow实现过程: # y为正确结果,y_pred为预测结果 loss = -tf.reduce_mean(y*tf.log(tf.clip_by_value(y_pred, 1e-10, 1.0))) 回归问题常用的损失函数为均方误差(MSE,mean squared error) # y为正确结果,y_pred为预测结果 loss = tf.reduce_mean(tf.square(y-y)) 来源: CSDN 作者: 雪易 链接: https://blog.csdn.net/qq_40041064/article/details/104752719

预测海藻的数量

老子叫甜甜 提交于 2020-03-09 10:51:44
问题描述与目标 希望通过建立预测模型预测河流中有害海藻的数量。同时了解藻类的频率和水样的某些化学性质以及其他特征。 数据说明 本文采用R语言里面自带的海藻数据样本共200个,有以下几种因素影响海藻的生长,用summary对数据进行整合,如图所示。 图 每个记录有11个变量,其中3个变量是名义变量,它们分别描述水样收集的季节、收集河流的大小和河水速度。余下的8个变量是所观察水样的不同化学参数,即最大pH值、最小含氧量(O2)、平均氯化物含量(cl)、平均硝酸盐含量(NO3)、平均氨含量(NH4)、平均正磷酸含量(PO4)、平均磷酸盐含量(PO4)、平均叶绿素含量。与这些参数相关的是7种不同有害藻类在相应水样中的频率数目。并未提供所观察藻类的名称的有关信息。 数据处理 画出海藻mxPH的频数直方图、密度图。 图 我们可以从图中得到一些信息。左边的MxPH的直方图,同时显示了变量分布的核密度。右边是QQ图,绘制正态分布的散点图,虚线显示95%置信区间,可以看出上图符合正态分布。 为了了解不同河流区域PH值在不同水体中分布情况 图 但是我们从图一可以看出有许多没有用的数据,因此我们必须对数据进行清洗。剔除掉无效数据184组数据。因所以需要对数据进行填补。 填补缺失数据最简便和便捷的方法是使用一些代表中心趋势的值。代表中心趋势的值反映了变量分布的最常见值。有多个代表数据中心趋势的指标

数据分析—统计分析

落花浮王杯 提交于 2020-03-09 10:04:04
统计指标对定量数据进行统计描述,常从 集中趋势 和 离中趋势 两个方面进行分析 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline 1、集中趋势度量 指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 —— 统计平均数 算数平均数、位置平均数 (1)算数平均数 data = pd.DataFrame({'value':np.random.randint(100,120,100), 'f':np.random.rand(100)})data['f'] = data['f'] / data['f'].sum() # f为权重,这里将f列设置成总和为1的权重占比print(data.head())print('------')​# 创建数据​mean = data['value'].mean()print('简单算数平均值为:%.2f' % mean)​# 简单算数平均值 = 总和 / 样本数量 (不涉及权重)​mean_w = (data['value'] * data['f']).sum() / data['f'].sum()print('加权算数平均值为:%.2f' % mean_w)​# 加权算数平均值 = (x1f1 + x2f2 + ...

推荐系统和搜索引擎的比较

痴心易碎 提交于 2020-03-08 04:27:24
比较 推荐系统 搜索引擎 获取信息的方式不同 被动;模糊 主动;明确 个性化程度 高 低 服务特性 持续服务 (“好”的推荐系统往往让用户停留更多的时间,带来的增量点击,推荐成功数,成交转化提升量等) 快速满足 (“好”的搜索算法是需要让用户获取信息的效率更高、停留时间更短。) 特点 (用户存在大量的需求是比较难用精炼的文字组织的:一方面用户不愿意,另一方面搜索对语义的理解还无法足够深入) 满足难以文字表述的需求 (所以有了“相关推荐”、“猜你喜欢”) 推荐引擎又称为无声的搜索。 主流的搜索引擎仍然是以 文字 (最简洁、直接)构成查询词,搜索查询词也大都是比较短小的 相关理论 长尾理论阐述了推荐系统发挥的价值 (每一个人的品味和偏好都并非和主流人群完全一致,Chris指出:当我们发现得越多,我们就越能体会到我们需要更多的选择。) 马太效应:头部内容吸引了绝大部分点击 评价方式 相对宽泛,当应用于Top-N结果推荐时,MAP(Mean Average Precison)或CTR(Click Through Rate,计算广告中常用)是普遍的计量方法;当用于评分预测问题时,RMSE(Root Mean Squared Error)或MAE(Mean Absolute Error)是常见量化方法。 基于Cranfield评价体系,并基于信息检索中常用的评价指标

回归结果评估指标

拟墨画扇 提交于 2020-03-07 21:53:11
1 MAE(平均绝对误差,Mean Absolute Error), MAE 表示数据点与拟合点之间的距离绝对值之和的平均值。 2 MSE(均方误差,Mean Squared Error) 为数据点到拟合直线之间的距离的平方之和的平均值。 3 R2(决定系数) R2越趋近于1,说明模型越好 SST = np . sum ( ( y_test - np . mean ( y_test ) ) ** 2 ) SSE = np . sum ( ( y_test - y_pred ) ** 2 ) R2 = 1 - SSE / SST 4 RMSE(Root Mean Squared Error,均方根误差),MSE开根号 5 Rp: 皮尔逊相关系数(Person’s Correlation Coefficient,PCC) 6 SSE(误差平方和) 来源: CSDN 作者: 深蓝17 链接: https://blog.csdn.net/weixin_42812146/article/details/104720622

评价指标RMSE、MSE、MAE、MAPE、SMAPE 、R-Squared——python+sklearn实现

久未见 提交于 2020-03-07 07:07:14
MSE 均方误差(Mean Square Error) RMSE 均方根误差(Root Mean Square Error) 其实就是MSE加了个根号,这样数量级上比较直观,比如RMSE=10,可以认为回归效果相比真实值平均相差10 MAE 平均绝对误差(Mean Absolute Error) MAPE 平均绝对百分比误差(Mean Absolute Percentage Error) SMAPE 对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error) scikit-learn中实现: # MSE, MAE, R2, RMSE法一 from sklearn.metrics import mean_squared_error #MSE from sklearn.metrics import mean_absolute_error #MAE from sklearn.metrics import r2_score#R 2 #调用 mean_squared_error(y_test,y_predict) mean_absolute_error(y_test,y_predict) np.sqrt(mean_squared_error(y_test,y_predict)) # RMSE r2_score(y_test,y_predict)

用R理解统计学

若如初见. 提交于 2020-03-07 06:58:37
1、随机变量( random variable)概念的引入 该数据来自杰克逊实验室。2组数据,每组12只老鼠,一组普通食物,另一组高脂肪(hf)饮食。几周后,科学家们称了每只老鼠的体重,得到了这个数据: dir <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/" filename <- "femaleMiceWeights.csv" url <- paste0(dir, filename) dat <- read.csv(url) library(dplyr) control <- filter(dat,Diet=="chow") %>% select(Bodyweight) %>% unlist #其中%>%相当于管道符,fileter相当于Excel中按关键词行筛选,select为列筛选,只保留你提到的变量 treatment <- filter(dat,Diet=="hf") %>% select(Bodyweight) %>% unlist print(mean(treatment)) print(mean(control) ) obsdiff <- mean(treatment) - mean(control) #3.020833 print(obsdiff)