mean | 易学教程

机器学习小组第二期第三周：简单的数据预处理和特征工程

阅读更多关于机器学习小组第二期第三周：简单的数据预处理和特征工程

目录 1.归一化 1.1.最值归一化(normalization) 1.2.均值方差归一化(standardization) 1.3.Sklearn中的归一化 2.缺失值处理 2.1.确定缺失值范围 2.2.填充缺失内容 2.2.1.平均值填充法 2.2.2.中位数填充法 2.2.3.条件平均值填充法 2.2.4.模型预测填充法 2.2.4.1.kNN 2.2.4.2.Regression 2.2.5.利用sklearn填补缺失值 3.处理分类型特征：编码与哑变量 4.处理连续型特征：二值化与分段 1.归一化问题：在量纲不同的情况下，不能反映样本中每一个特征的重要程度。方案：数据归一化，即标准化。把所有的数据都映射到同一个尺度（量纲）。归一化可以提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树，对决策树不需要归一化，决策树可以把任意数据都处理得很好。）数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化处理和缩放处理。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理。归一化之后的数据服从正态分布。 1.1.最值归一化(normalization) 把所有数据映射到0-1之间。使用范围

Finding the mean of a subset

阅读更多关于 Finding the mean of a subset

问题 I have made a subset from the dataframe 'Indometh' called 'indo': indo Subject time conc 1 1 0.25 1.50 13 2 0.50 1.63 24 3 0.50 1.49 25 3 0.75 1.16 34 4 0.25 1.85 35 4 0.50 1.39 36 4 0.75 1.02 46 5 0.50 1.04 57 6 0.50 1.44 58 6 0.75 1.03 I want to find what the average concentration for the subset is. I have used code but to no avail: mean(subset(indo, conc >1 & conc <2)) I know summary(indo) will show the mean of the concentration but wanted to know if there was another way I could do this

golang与node.js的http对比测试

阅读更多关于 golang与node.js的http对比测试

去年的时候，曾经简单对比了一下golang和nodejs的http模块的性能，见： golang与node.js的http对比测试那时golang还没发布go1，http模块比nodejs差得很远。 go1出来已经有一段时间了，我知道go的http模块性能已经有比较大的提升，但是最近依然见到有人提起去年写的那篇文章，为避免产生对golang的误解，对于go1的最新测试结果如下。测试是在Ubuntu 12.04 64位系统下进行的： qleelulu@nb:~$ uname -a Linux nb 3.2.0-25-generic #40-Ubuntu SMP Wed May 23 20:30:51 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux qleelulu@nb:~$ sudo dmidecode | grep CPU Socket Designation: CPU Version: Intel(R) Core(TM) i5 CPU M 480 @ 2.67GHz (注：双核4线程) go的版本： qleelulu@nb:~$ go version go version go1 nodejs的版本： qleelulu@nb:~$ node -v v0.8.6 单CPU测试 nodejs是单进程，只使用一个CPU

深度学习损失函数

阅读更多关于深度学习损失函数

分类问题和回归问题是监督学习的两大类。分类问题常用的损失函数为交叉熵函数（cross entropy） tensorflow实现过程： # y为正确结果，y_pred为预测结果 loss = -tf.reduce_mean(y*tf.log(tf.clip_by_value(y_pred, 1e-10, 1.0))) 回归问题常用的损失函数为均方误差（MSE，mean squared error） # y为正确结果，y_pred为预测结果 loss = tf.reduce_mean(tf.square(y-y)) 来源： CSDN 作者：雪易链接： https://blog.csdn.net/qq_40041064/article/details/104752719

预测海藻的数量

阅读更多关于预测海藻的数量

问题描述与目标希望通过建立预测模型预测河流中有害海藻的数量。同时了解藻类的频率和水样的某些化学性质以及其他特征。数据说明本文采用R语言里面自带的海藻数据样本共200个，有以下几种因素影响海藻的生长，用summary对数据进行整合，如图所示。图每个记录有11个变量，其中3个变量是名义变量，它们分别描述水样收集的季节、收集河流的大小和河水速度。余下的8个变量是所观察水样的不同化学参数，即最大pH值、最小含氧量（O2）、平均氯化物含量(cl)、平均硝酸盐含量(NO3)、平均氨含量(NH4)、平均正磷酸含量(PO4)、平均磷酸盐含量(PO4)、平均叶绿素含量。与这些参数相关的是7种不同有害藻类在相应水样中的频率数目。并未提供所观察藻类的名称的有关信息。数据处理画出海藻mxPH的频数直方图、密度图。图我们可以从图中得到一些信息。左边的MxPH的直方图，同时显示了变量分布的核密度。右边是QQ图，绘制正态分布的散点图，虚线显示95%置信区间，可以看出上图符合正态分布。为了了解不同河流区域PH值在不同水体中分布情况图但是我们从图一可以看出有许多没有用的数据，因此我们必须对数据进行清洗。剔除掉无效数据184组数据。因所以需要对数据进行填补。填补缺失数据最简便和便捷的方法是使用一些代表中心趋势的值。代表中心趋势的值反映了变量分布的最常见值。有多个代表数据中心趋势的指标

数据分析—统计分析

阅读更多关于数据分析—统计分析

统计指标对定量数据进行统计描述，常从集中趋势和离中趋势两个方面进行分析 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline 1、集中趋势度量指一组数据向某一中心靠拢的倾向，核心在于寻找数据的代表值或中心值 —— 统计平均数算数平均数、位置平均数（1）算数平均数 data = pd.DataFrame({'value':np.random.randint(100,120,100), 'f':np.random.rand(100)})data['f'] = data['f'] / data['f'].sum() # f为权重，这里将f列设置成总和为1的权重占比print(data.head())print('------')# 创建数据mean = data['value'].mean()print('简单算数平均值为：%.2f' % mean)# 简单算数平均值 = 总和 / 样本数量（不涉及权重）mean_w = (data['value'] * data['f']).sum() / data['f'].sum()print('加权算数平均值为：%.2f' % mean_w)# 加权算数平均值 = (x1f1 + x2f2 + ...

回归结果评估指标

阅读更多关于回归结果评估指标

1 MAE(平均绝对误差，Mean Absolute Error）， MAE 表示数据点与拟合点之间的距离绝对值之和的平均值。 2 MSE（均方误差，Mean Squared Error）为数据点到拟合直线之间的距离的平方之和的平均值。 3 R2(决定系数) R2越趋近于1，说明模型越好 SST = np . sum ( ( y_test - np . mean ( y_test ) ) ** 2 ) SSE = np . sum ( ( y_test - y_pred ) ** 2 ) R2 = 1 - SSE / SST 4 RMSE（Root Mean Squared Error，均方根误差），MSE开根号 5 Rp：皮尔逊相关系数（Person’s Correlation Coefficient，PCC） 6 SSE（误差平方和）来源： CSDN 作者：深蓝17 链接： https://blog.csdn.net/weixin_42812146/article/details/104720622

评价指标RMSE、MSE、MAE、MAPE、SMAPE 、R-Squared——python+sklearn实现

阅读更多关于评价指标RMSE、MSE、MAE、MAPE、SMAPE 、R-Squared——python+sklearn实现

MSE 均方误差（Mean Square Error） RMSE 均方根误差（Root Mean Square Error) 其实就是MSE加了个根号，这样数量级上比较直观，比如RMSE=10，可以认为回归效果相比真实值平均相差10 MAE 平均绝对误差（Mean Absolute Error) MAPE 平均绝对百分比误差（Mean Absolute Percentage Error) SMAPE 对称平均绝对百分比误差（Symmetric Mean Absolute Percentage Error) scikit-learn中实现： # MSE, MAE, R2, RMSE法一 from sklearn.metrics import mean_squared_error #MSE from sklearn.metrics import mean_absolute_error #MAE from sklearn.metrics import r2_score#R 2 #调用 mean_squared_error(y_test,y_predict) mean_absolute_error(y_test,y_predict) np.sqrt(mean_squared_error(y_test,y_predict)) # RMSE r2_score(y_test,y_predict)

用R理解统计学

阅读更多关于用R理解统计学

1、随机变量( random variable)概念的引入该数据来自杰克逊实验室。2组数据，每组12只老鼠，一组普通食物，另一组高脂肪(hf)饮食。几周后，科学家们称了每只老鼠的体重，得到了这个数据: dir <- "https://raw.githubusercontent.com/genomicsclass/dagdata/master/inst/extdata/" filename <- "femaleMiceWeights.csv" url <- paste0(dir, filename) dat <- read.csv(url) library(dplyr) control <- filter(dat,Diet=="chow") %>% select(Bodyweight) %>% unlist #其中%>%相当于管道符，fileter相当于Excel中按关键词行筛选，select为列筛选，只保留你提到的变量 treatment <- filter(dat,Diet=="hf") %>% select(Bodyweight) %>% unlist print(mean(treatment)) print(mean(control) ) obsdiff <- mean(treatment) - mean(control) #3.020833 print(obsdiff)

订阅 mean