test

逻辑回归-信用卡欺诈检测

浪尽此生 提交于 2020-02-01 03:11:07
数据集: import matplotlib.pyplot as plt import numpy as np import pandas as pd data=pd.read_csv("creditcard.csv") print(data.head()) import matplotlib.pyplot as plt import numpy as np import pandas as pd data=pd.read_csv("creditcard.csv") #print(data.head()) count_classes=pd.value_counts(data['Class'],sort=True).sort_index() count_classes.plot(kind='bar') plt.title("Fraud class histogram") plt.xlabel("Class") plt.ylabel("Frequency") plt.show() #数据预处理: import matplotlib.pyplot as plt import numpy as np import pandas as pd data=pd.read_csv("creditcard.csv") #print(data.head()) count_classes=pd

requests beautifulsoup

独自空忆成欢 提交于 2020-02-01 02:56:56
requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。 1、GET请求 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # 1、无参数实例 import requests ret = requests.get( 'https://github.com/timeline.json' ) print ret.url print ret.text # 2、有参数实例 import requests payload = { 'key1' : 'value1' , 'key2' : 'value2' } ret = requests.get( "http://httpbin.org/get" , params = payload) print ret.url print ret

requests and BeautifulSoup

ぐ巨炮叔叔 提交于 2020-02-01 02:09:24
requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。 1、GET请求 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # 1、无参数实例 import requests ret = requests.get( 'https://github.com/timeline.json' ) print ret.url print ret.text # 2、有参数实例 import requests payload = { 'key1' : 'value1' , 'key2' : 'value2' } ret = requests.get( "http://httpbin.org/get" , params = payload) print ret.url print ret

Junit整合log4j

情到浓时终转凉″ 提交于 2020-01-31 23:58:39
今天遇到一个Spring Junit整合Log4j的小例子,控制台报了一个警告如下: log4j:WARN No ppenders could be found for logger(org.springframework.test.context.junit4.SpringJUnit4ClassRunner). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. 这里的意思就是使用Junit的没时候没有加载log4j.properties配置文件。 我用的是maven创建的工程,所以我就在test测试目录下写了一个Junit4ClassRunner类,并继承了SpringJunit4ClassRunner这个类,使用静态代码块优先加载log4j配置文件。 import org.apache.log4j.PropertyConfigurator; import org.junit.runners.model.InitializationError; import org.springframework.test.context.junit4

kaggle竞赛-Instacart Market Basket Analysis(推荐)-特征工程

╄→гoц情女王★ 提交于 2020-01-31 22:42:33
紧接上次的分析 初探 ,进行进一步特征工程的详细分析。 1.数据准备 1.1导入工具包 import pandas as pd import numpy as np import matplotlib . pyplot as plt import seaborn as sns import lightgbm as lgb import gc % matplotlib inline 1.2导入数据 path = '/home/WLY/learn/Kaggle_example_learn/Instacart/Data/' aisles = pd . read_csv ( path + 'aisles.csv' ) departments = pd . read_csv ( path + 'departments.csv' ) products = pd . read_csv ( path + 'products.csv' ) orders = pd . read_csv ( path + 'orders.csv' ) order_products__train = pd . read_csv ( path + 'order_products__train.csv' ) order_products__prior = pd . read_csv ( path + 'order

keras_预测房价:回归问题

痴心易碎 提交于 2020-01-31 22:39:32
https://blog.csdn.net/xiewenrui1996/article/details/103913963 《Python深度学习》 下面是你应该从这个例子中学到的要点。 ‰ 回归问题使用的损失函数与分类问题不同。回归常用的损失函数是均方误差(MSE)。 ‰ 同样,回归问题使用的评估指标也与分类问题不同。显而易见,精度的概念不适用于回 归问题。常见的回归指标是平均绝对误差(MAE)。 ‰ 如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行 缩放。 ‰ 如果可用的数据很少,使用 K 折验证可以可靠地评估模型。 ‰ 如果可用的训练数据很少,最好使用隐藏层较少(通常只有一到两个)的小型网络,以 避免严重的过拟合。 import keras keras . __version__ Let's take a look at the data : # 波士顿房价数据集 # 本节将要预测 20 世纪 70 年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数 # 据点,比如犯罪率、当地房产税率等。本节用到的数据集与前面两个例子有一个有趣的区别。 # 它包含的数据点相对较少,只有 506 个,分为 404 个训练样本和 102 个测试样本。输入数据的 # 每个特征(比如犯罪率)都有不同的取值范围。例如,有些特性是比例,取值范围为 0~1;有 #

Python3 正则表达式 re 模块的使用 - 学习笔记

半世苍凉 提交于 2020-01-31 20:46:59
re 模块的引入 re 模块的使用 re.compile() re.match()与re.search() re.match re.search() 区别 re.findall()与re.finditer() re.findall() re.finditer() 区别 re.sub()与re.subn() re.sub() re.subn() re.split() 正则表达式修饰符(匹配模式) re 模块的引入 Python 自1.5版本起增加了 re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 re 模块的使用 参数含义 pattern: 字符串形式的正则表达式 string: 要匹配的字符串 flags: 可选,表示匹配模式 pos:可选,字符串中开始搜索的位置索引 endpos:可选,endpos 限定了字符串搜索的结束 不填pos endpos默认扫描全部 re.compile() compile(pattern, flags=0) 将正则表达式的样式编译为一个 正则表达式对象 (正则对象) 可以使用正则对象调用 match() 等函数 >>> test = '1 one 2 two 3 three' >>> a=re.compile(r'\d+') >>> b=a.match(test) >>> print

springboot使用junit5/junit4

孤街醉人 提交于 2020-01-31 20:33:25
JUnit 5 = JUnit Platform + JUnit Jupiter + JUnit Vintage 其中 JUnit平台,其主要作用是在JVM上启动测试框架。它定义了一个抽象的TestEngineAPI来定义运行在平台上的测试框架,同时还支持通过命令行、Gradle和Maven来运行平台。 JUnit Jupiter,包含了JUnit5最新的编程模型和扩展机制。 JUnit Vintage,允许在平台上运行JUnit3和JUnit4的测试用例。 JUnit5对Java运行环境的最低要求是Java8,同时也兼容测试旧版本JDK编译出来的代码。 完整依赖: <dependency> <groupId>org.junit.platform</groupId> <artifactId>junit-platform-launcher</artifactId> <version>1.5.2</version> <scope>test</scope> </dependency> <dependency> <groupId>org.junit.jupiter</groupId> <artifactId>junit-jupiter-engine</artifactId> <version>5.5.2</version> <scope>test</scope> </dependency>

awk命令

烈酒焚心 提交于 2020-01-31 15:47:37
awk是一个强大的报告生成工具,用于格式化文本输出 语法:   awk [options] -f 'program' filename   program由{ pattern + action statements}组成,动作语句之间用分号“;”分隔 选项:   -F:指定输入分隔符   -v VAR=value:自定义变量 常用命令 1、print   print item1,item2,......   item之间用逗号分隔,如果省略item,相当于print $0 2、变量   内置变量     FS:input field seperator,输入分隔符,与-F指定的相同,默认是空白字符     OFS:output field seperator,输出分隔符,默认空白字符 [root@localhost ~]# awk -v FS=: '{print $1}' /etc/passwd root bin daemon adm [root@localhost ~]# awk -F : '{print $1,$3}' /etc/passwd root 0 bin 1 daemon 2 adm 3 [root@localhost ~]# awk -v FS=: -v OFS=" | " '{print $1,$3}' /etc/passwd root | 0 bin | 1

【NLP】文本分类综合(rnn,cnn,word2vec,TfidfVectorizer)

淺唱寂寞╮ 提交于 2020-01-31 11:25:03
目录 0.中文评论情感分析(keras+rnn) 0.1 需要的库 0.2 预训练词向量 0.3 词向量模型 0.4 训练语料 (数据集) 0.5 分词和tokenize 0.6 索引长度标准化 0.7 反向tokenize 0.8 构建embedding matrix 0.9 padding(填充)和truncating(修剪) 0.10 用keras搭建LSTM模型 0.11 结论 0.12 错误分类 1.新浪新闻分类(tensorflow+cnn) 2.搜狐新闻文本分类(word2vec) 2.1 数据的准备 2.2 word2vec模型 2.3 特征工程: 2.4 模型训练,模型评估 2.4.1 标签编码: 2.4.2 逻辑回归模型 2.4.3 保存模型 2.4.4 交叉验证 2.4.5 模型测试 2.5 总结 3.搜狐新闻文本分类(TfidfVectorizer) 0.中文评论情感分析(keras+rnn) 0.1 需要的库 # 首先加载必用的库,jieba和gensim专门中文 # %matplotlib inline功能是可以内嵌绘图,并且可以省略掉plt.show()这一步 % matplotlib inline import numpy as np import matplotlib . pyplot as plt import re #正则化用 import