Apache Axis

线性回归--PM2.5预测--李宏毅机器学习

不羁岁月 提交于 2020-05-02 14:20:29
一、说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。 训练集介绍:   (1)、CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见);   (2)、每天的监测时间点为0时,1时......到23时,共24个时间节点;   (3)、每天的检测指标包括CO、NO、PM2.5、PM10等气体浓度,是否降雨、刮风等气象信息,共计18项; 二、数据处理 根据要求,要用前9个小时的数据,来预测第10个小时的PM2.5值。一笔训练数据如下图所示: 数据中存在一定量的空数据NR,且多存在于RAINFALL一项。对于空数据,常规的处理方法无非就是删除法和补全法两种。 RAINFALL表示当天对应时间点是否降雨,因此可以采用补全法处理空数据:将空数据NR全部补为0即可。 # 将NR替换成 0 data = data.replace([ ' NR ' ], [0.0]) 我们先将数据进行预处理,得到 每笔训练数据 和对应的 结果label。 1. 由于每个月前20天的数据检测是连续24小时进行的,所以为了得到多笔数据,先将每个月20天数据 “连起来” ,如下图示: 每个月的数据就是18行480(24*20)列,一共12个月的数据。 #

Python numpy库 —— linspace()的用法

折月煮酒 提交于 2020-05-02 10:48:53
我们可以将 linspace() 函数理解成是用来创建一个等差数列的,或者说将一个区间的数值等分成N份,下面举个栗子: 将 1~10 等分成10份,那么最后的结果是怎样的呢? 1,2,3,4,5,6,7,8,9,10 最后创建出来的就是这样一个等差序列; 我们还是首先看一下 函数原型 是怎样的: 英文好的自己看,不好的随着我一起看下去;我们发现这个函数一共有7个参数,除了前两个,其他的都有初始值了,那么他们分别代表什么意思呢? start:数据的起始点,即区间的最小值 stop:数据的结束点,即区间的最大值 num:数据量,可以理解成分割了多少份 endpoint:说明是否包含结束点 retstep:是否给出数据间隔,即如果是True,那么不仅会创建数据序列,在最后还会给出数据间隔是多少 dtype:指定序列的数据类型 axis:其实这个参数我也没搞懂是什么意思,只知道值为0或者-1,对于结果貌似没有什么变化,这个 后面再补充 接下来我们就通过程序来感受一下: 最重要两个参数:start 和 stop import numpy as np print(np.linspace(1,10)) # 输出结果: # [ 1. 1.18367347 1.36734694 1.55102041 1.73469388 1.91836735 # 2.10204082 2.28571429 2

CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM

我怕爱的太早我们不能终老 提交于 2020-05-02 09:52:26
这一节我们总结FM另外两个远亲NFM,AFM。NFM和AFM都是针对Wide&Deep 中Deep部分的改造。上一章PNN用到了向量内积外积来提取特征交互信息,总共向量乘积就这几种,这不NFM就带着element-wise(hadamard) product来了。AFM则是引入了注意力机制把NFM的等权求和变成了加权求和。 以下代码针对Dense输入感觉更容易理解模型结构,针对spare输入的代码和完整代码 👇 https://github.com/DSXiangLi/CTR NFM NFM的创新点是在wide&Deep的Deep部分,在Embedding层和全联接层之间加入了BI-Pooling层,也就是Embedding两两做element-wise乘积得到 \(N*(N-1)/2\) 个 \(1*K\) 的矩阵然后做sum_pooling得到最终 \(1*k\) 的矩阵。 \[f_{BI}(V_x) = \sum_{i=1}^n\sum_{j=i+1}^n (x_iv_i) \odot (x_jv_j) \] Deep部分的模型结构如下 和其他模型的联系 NFM不接全连接层,直接weight=1输出就是FM,所以NFM可以在FM上学到更高阶的特征交互。 有看到一种说法是DeepFM是FM和Deep并联,NFM是把FM和Deep串联,也是可以这么理解

使用 Python 来可视化 COVID-19 预测

安稳与你 提交于 2020-05-02 09:51:20
我将演示如何利用提供的全球病毒传播的开放数据,使用开源库来创建两个可视效果。 使用 Python 和一些图形库,你可以预测 COVID-19 确诊病例总数,也可以显示一个国家(本文以印度为例)在给定日期的死亡总数。人们有时需要帮助解释和处理数据的意义,所以本文还演示了如何为五个国家创建一个动画横条形图,以显示按日期显示病例的变化。 印度的确诊病例和死亡人数预测 这要分三步来完成。 1、下载数据 科学数据并不总是开放的,但幸运的是,许多现代科学和医疗机构都乐于相互之间及与公众共享信息。关于 COVID-19 病例的数据可以在网上查到,并且经常更新。 要解析这些数据,首先必须先下载。 https://raw.githubusercontent.com/datasets/covid-19/master/data/countries-aggregated.csv 。 直接将数据加载到 Pandas DataFrame 中。Pandas 提供了一个函数 read_csv() ,它可以获取一个 URL 并返回一个 DataFrame 对象,如下所示。 import pycountry import plotly.express as px import pandas as pd URL_DATASET = r'https://raw.githubusercontent.com/datasets

CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM

烂漫一生 提交于 2020-05-02 09:15:02
这一节我们总结FM另外两个远亲NFM,AFM。NFM和AFM都是针对Wide&Deep 中Deep部分的改造。上一章PNN用到了向量内积外积来提取特征交互信息,总共向量乘积就这几种,这不NFM就带着element-wise(hadamard) product来了。AFM则是引入了注意力机制把NFM的等权求和变成了加权求和。 以下代码针对Dense输入感觉更容易理解模型结构,针对spare输入的代码和完整代码 👇 https://github.com/DSXiangLi/CTR NFM NFM的创新点是在wide&Deep的Deep部分,在Embedding层和全联接层之间加入了BI-Pooling层,也就是Embedding两两做element-wise乘积得到 \(N*(N-1)/2\) 个 \(1*K\) 的矩阵然后做sum_pooling得到最终 \(1*k\) 的矩阵。 \[f_{BI}(V_x) = \sum_{i=1}^n\sum_{j=i+1}^n (x_iv_i) \odot (x_jv_j) \] Deep部分的模型结构如下 和其他模型的联系 NFM不接全连接层,直接weight=1输出就是FM,所以NFM可以在FM上学到更高阶的特征交互。 有看到一种说法是DeepFM是FM和Deep并联,NFM是把FM和Deep串联,也是可以这么理解

利用JavaScriptSOAPClient直接调用webService --完整的前后台配置与调用示例

只愿长相守 提交于 2020-05-02 06:00:20
JavaScriptSoapClient下载地址:https://archive.codeplex.com/?p=javascriptsoapclient JavaScriptSoapClient的Demo实例: http://www.guru4.net/articoli/javascript-soap-client/demo/en.aspx 利用JavaScript SOAP Client直接调用webService --完整的前后台配置与调用示例 2013年01月04日 17:15:32 阅读数:19873 在前端javascript代码中直接调用webService服务,可以将后台调用webService的业务代码转移到前台,这样做的好处是: 1) 减少了后台编码量; 2) 在特定的情况下有助于减轻服务器压力,节省服务器资源; 3) 有效提高服务器端的资源利用率; 但是也存在一定的弊端: 1) 前端javascript编码的稳定性一直以来备受诟病; 2) 并且对不同浏览器的编码调试比较麻烦; 对于JavaScript SOAP Client的优缺点暂且不论,现在主要来了解是如何使用这个js库。 1 java后台webService发布 任何前端的数据访问都离不开离不开后台webService的支撑,因此后台webService类库的选择以及配置是很关键的

机器学习:SVM(非线性数据分类:SVM中使用多项式特征和核函数SVC)

这一生的挚爱 提交于 2020-05-01 22:08:36
一、基础理解 数据:线性数据、非线性数据; 线性数据:线性相关、非线性相关;(非线性相关的数据不一定是非线性数据)  1)SVM 解决非线性数据分类的方法 方法一: 多项式思维 :扩充原本的数据,制造新的多项式特征;(对每一个样本添加多项式特征) 步骤 : PolynomialFeatures(degree = degree) :扩充原始数据,生成多项式特征; StandardScaler() :标准化处理扩充后的数据; LinearSVC(C = C) :使用 SVM 算法训练模型; 方法二: 使用scikit-learn 中封装好的核函数: SVC(kernel= 'poly' , degree=degree, C=C) 功能: 当 SVC() 的参数 kernel = ‘poly’ 时,直接使用多项式特征处理数据; 注 :使用 SVC() 前,也需要对数据进行标准化处理 二、例  1)生成数据 datasets.make_ + 后缀 :自动生成数据集; 如果想修改生成的数据量,可在make_moons()中填入参数; import numpy as np import matplotlib.pyplot as plt from sklearn import datasets X, y = datasets.make_moons(noise=0.15, random_state

用Python来揭秘吃瓜群众是如何看待罗志祥事件的

此生再无相见时 提交于 2020-05-01 12:00:18
前言 最近娱乐圈可以说得上是热闹非凡,前有霸道总裁爱小三,正宫撕逼网红女,后有阳光大男孩罗志祥,被周扬青扒的名声扫地。贵圈的爱情故事,常人是难以理解的,正如贾旭明张康这段相声所说的这样,娱乐圈的爱情总是分分合合,成为老百姓茶余饭后的谈资,城外的人想进去,城里的人真会玩。 各种版本的洗白、谣言遍地乱飞,吃瓜网友们是如何看待的呢? 用数据说话,是数据工作者的意义所在,整个数据分析的过程分为三步: 数据获取 数据预处理 数据可视化及数据分析 以下是具体步骤和代码实现: 数据获取 数据获取地址: ' http://ent.163.com/20/0423/09/FASTLQ7I00038FO9.html ' 在爬取评论数据之前,我们需要按F12对评论数据网页进行分析,可以发现共计172页,offset从0开始,每增加一页offset增加30,可以使用get方法获取。 核心代码: headers = { ' user-agent ' : ' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36 ' } # 评论地址 url= " http://comment.api.163.com/api/v1/products

Python带你做个愉快的"动森"玩家! (超简单代码)

折月煮酒 提交于 2020-05-01 10:57:14
最近Switch上的《动物森友会》可谓是炙手可热,它几乎算是任天堂版的《模拟人生》了,它的最新游戏《集合啦!动物森友会》(以下称“动森”)在发售后,取得了不错的媒体评价和首发成绩。 动森火起来有大部分原因是因为它的细节做的很到位,例如最受好评的:玩家可以自己手工DIY。(说实话,如果不是动森,我的NS可能还在积灰~) 我们可以先看看别人的DIY: 《火影》 《银魂》 《神奇宝贝》 感觉都做的很棒唉!其实做这些DIY主要就是如何设计这些卡通图片,如果大家不怎么会设计,那下面我就来带着大家使用Python来生成DIY设计图! 首先我们准备一张图片: 下面我们就来对这个图片进行处理,我们主要使用matplotlib来处理图片,使图片马赛克化。 首先安装对应的模块: pip install numpy pip install matplotlib 附上代码: import numpy as np from matplotlib import pyplot as plt # jupyter环境 % matplotlib inline # 指定图片大小 plt.figure(figsize=(40, 40 )) # 读取图片 pic = plt.imread( ' ./349.png ' ) # 指定马赛克程度,数字越大越模糊 pic = pic[::15, ::15 ] # 设置坐标轴

Pandas:表计算与数据分析

别等时光非礼了梦想. 提交于 2020-05-01 02:57:54
目录 Pandas之Series Pandas之DataFrame 一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。 2、pandas是基于NumPy构建的。 3、pandas的主要功能 具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 4、安装方法:pip install pandas 5、引用方法:import pandas as pd 二、Series Series是一种类似于一位数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。 创建方式: pd.Series([ 4,7,-5,3 ]) pd.Series([ 4,7,-5,3],index=[ ' a ' , ' b ' , ' c ' , ' d ' ]) pd.Series({ ' a ' :1, ' b ' :2 }) pd.Series(0, index =[ ' a ' , ' b ' , ' c ' , ' d’]) 三、Series特性 Series支持数组的特性: 从ndarray创建Series:Series(arr) 与标量运算:sr*2 两个Series运算:sr1+sr2 索引:sr[0], sr[[1,2,4]] 切片:sr[0:2](切片依然是视图形式) 通用函数:np.abs