分类数据

防火墙分类及概念

匿名 (未验证) 提交于 2019-12-03 00:18:01
1、定义:防火墙是由软件和硬件组成的系统,它处于安全的网络(通常是内部局域网)和不安全的网络之间,根据由系统管理员设置的访问控制规则,对数据流进行过滤。 2、防火墙对数据流有三种处理方式:1)允许数据流通过;2)拒绝数据流通过;3)将这些数据流丢弃。当数据流被拒绝时,防火墙要向发送者回复一条消息进行提示。当数据流被丢弃时,防火墙不会对这些数据包进行任何处理,也不会向发送者发送任何提示信息。 3、防火墙的要求:1)所有进出网络的数据流都必须经过防火墙;2)只允许经过授权的数据流通过防火墙;3)防火墙自身对入侵是免疫的。 4、根据防火墙在网络协议栈中的过滤层次不同,通常把防火墙分为3种:包过滤防火墙、电路级网关防火墙和应用级网关防火墙。 5、防火墙对开放系统互联模型(OSI)中各层协议所产生的数据流进行检查。要知道防火墙是哪种类型的结构,关键是要知道防火墙工作于OSI模型中的哪一层。防火墙工作于OSI模型的层次越高,其检查数据包中的信息就越多,因此防火墙所消耗的处理器工作周期就越长,所提供的安全保护等级就越好。 6、网络地址转换 1)静态网络地址转换:在进行网络映射时,内部网络地址与外部的Internet IP地址是一一对应的关系。在这种情况下,不需要NAT盒在地址转换时记录转换信息。 2)动态网络地址转换:可用的Internet IP地址限定在一个范围

在二分类问题中,准确率一直处于50%上下的解决方法

匿名 (未验证) 提交于 2019-12-03 00:03:02
最近在 猫狗识别 项目中,不知为何准确率(训练集准确率和验证集准确率)一直处于0.5左右,这说明网络根本没有学习。后来查阅了许多他人的经验,并做了总结。 首先谈谈我的是如何解决的: 网络结构:AlexNet 优化器:Adam (这里正是问题所在) 框架:PyTorch 关于优化器,我最开始使用的的是 torch.optim.Adam() ,但是训练100个Epoch后,准确率始终在 49% ~ 50%。 解决方法: 换个优化器!我使用的是 torch.optim.SGD() ,其他的或许也行,但我还没有尝试。 Note: 出现以上问题时,我们会发现 loss 是 0.69,这是因为输出 0, 1 的概率都是0.5,而 \(-\ln 0.5=0.69\) 。 网络上也有一些解决方法,可以对照检查自己的代码: 训练数据需要打乱,要检查每此batch是否都是一个类别,如果是,则没有办法优化; 检查网络是不是没有回传梯度,而是只做了前向运算; 检查输入数据是否有做标准化,可能直接传入 \(0 \sim 255\) 像素进去了; 二分类问题中 0.5 的 acc 接近随机猜测的值,可以检查下标签是否标错; 检查参数有没有初始化; 检查第一层的卷积输出是否正常,是不是全 0 之类的; 尝试不同的 Learning Rate; 检查是否在 logit 那层加了激活函数,导致 logits 有问题

SP2-0042:未知的命令开头'imp;ora-08002;

匿名 (未验证) 提交于 2019-12-02 23:43:01
2019独角兽企业重金招聘Python工程师标准>>> ora-08002 错误 : 所以,应该首先用NEXTVAL作初始化;随后的NEXTVAL会自动增加你定义的INCREMENT BY值,然后返回增加后的值。CURRVAL 总是返回当前SEQUENCE的值。 Oracle数据导入导出imp/exp sp2-0734:未知的命令开头'imp 忽略了剩余行默认分类 解决办法 应该是在cmd的dos命令提示符下执行,而不是在sqlplus里面 转载于:https://my.oschina.net/u/2552902/blog/543830 文章来源: https://blog.csdn.net/weixin_34007879/article/details/92326945

逻辑回归

匿名 (未验证) 提交于 2019-12-02 23:34:01
多元线性回归(Ridge、Lasso、ElasticNet)是做回归预测的 逻辑回归(Logistic Regression) 是做分类任务的 Q:做回归预测损失函数是什么? A:平方均值损失函数MSE Q:做分类损失函数是什么? A:做分类损失函数是交叉熵! Q:什么是熵? A:熵是一种测量分子不稳定性的指标,分子运动越不稳定,熵就越大,来自热力学 熵是一种测量信息量的单位,信息熵,包含的信息越多,熵就越大,来自信息论,香农 熵是一种测量不确定性的单位,不确定性越大,概率越小,熵就越大! Q:熵和概率是什么一个关系? A:随着概率的减小,熵会增大 逻辑回归 Q:为什么本质是多元线性回归? A:1,公式,首先应用了多元线性回归的公式,其次才是把多元线性回归的结果,交给sigmoid函数去进行缩放 2,导函数,逻辑回归的损失函数推导的导函数,整个形式上和多元线性回归基本一致, 只是y_hat求解公式包含了一个sigmoid过程而已 Q:逻辑回归的损失函数是什么? A:交叉熵,做分类就用交叉熵,-y logP,因为逻辑回归是二分类,所以 loss func = (-y logP + -(1-y)*log(1-P)),也就是说我们期望这个损失最小然后找到最优解 事实上,我们就可以利用前面学过的梯度下降法来求解最优解了 Q:逻辑回归为什么阈值是0.5? A

数据挖掘与数据仓库――分类

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311845 分类算法 什么是分类 一些常见的概念: 训练集(Training data):用于训练模型(的参数,如神经网络的各层权重和偏置,线性回归分析的系数); 验证集(Validation data):用于调整超参数(Hyper-Parameters,如神经网络的宽度和深度、学习率等); 测试集(Test data):用于评价模型本身的有效性(准确率等) 训练误差(Training error):分类器在训练集上的误差。 泛化误差(Generalization error,out-of-sample error):分类器在未见样本(不在训练集中的样本)上的误差。 对于数据集的划分 划分法: 训练集与测试集 把样本划分成2个独立的数据集合, 如, 训练集 (2/3), 测试集(1/3)。 适用于大规模的数据样本。 交叉验证(Cross-validation) 把数据集合划分成k 个子样本; 使用k - 1 个子样本作为训练集,另一个作为测试样本―k-折交叉验证。 适用于中等规模的数据。 留一测试(Leave One Out, k = n) 适用于小规模数据。 泛化误差的偏差/方差分解、过拟合、欠拟合 以回归为例

数字识别,神经网络

元气小坏坏 提交于 2019-12-02 23:29:07
来源:https://www.numpy.org.cn/deep/basics/fit_a_line.html 数字识别 本教程源代码目录在 book/recognize_digits ,初次使用请您参考 Book文档使用说明 。 # 说明: 硬件环境要求: 本文可支持在CPU、GPU下运行 Docker镜像支持的CUDA/cuDNN版本: 如果使用了Docker运行Book,请注意:这里所提供的默认镜像的GPU环境为 CUDA 8/cuDNN 5,对于NVIDIA Tesla V100等要求CUDA 9的 GPU,使用该镜像可能会运行失败。 文档和脚本中代码的一致性问题: 请注意:为使本文更加易读易用,我们拆分、调整了train.py的代码并放入本文。本文中代码与train.py的运行结果一致,可直接运行 train.py 进行验证。 # 背景介绍 当我们学习编程的时候,编写的第一个程序一般是实现打印"Hello World"。而机器学习(或深度学习)的入门教程,一般都是 MNIST 数据库上的手写识别问题。原因是手写识别属于典型的图像分类问题,比较简单,同时MNIST数据集也很完备。MNIST数据集作为一个简单的计算机视觉数据集,包含一系列如图1所示的手写数字图片和对应的标签。图片是28x28的像素矩阵,标签则对应着0~9的10个数字。每张图片都经过了大小归一化和居中处理。

【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习 | ApacheCN

匆匆过客 提交于 2019-12-02 23:08:43
【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习 | ApacheCN 标签: Scikit apachecn 机器学习 文档 2017-11-21 15:06 111人阅读 评论 (0) 收藏 举报 分类: Scikit(29) ApacheCN(29) 目录 (?) [+] 中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html 英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html GitHub: https://github.com/apachecn/scikit-learn-doc-zh (觉得不错麻烦给个 Star,我们一直在努力) 贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者 使用 scikit-learn 介绍机器学习 | ApacheCN 内容提要 在本节中,我们介绍一些在使用 scikit-learn 过程中用到的 机器学习 词汇,并且给出一些例子阐释它们。 机器学习:问题设置 一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是

读周志华《机器学习》个人读书笔记

匿名 (未验证) 提交于 2019-12-02 22:56:40
机器学习所研究的内容:是关于在计算机上通过数据产生“模型”的算法,即为“学习算法”(learning algorithm)。 “模型”指的就是学习所得的结果。 从数据中学得模型的过程称为“学习”或“训练”。 预测的若为离散值,此类学习任务称为“分类”(classification)若为连续值,此类学习任务称之为“回归”(regression)。涉及到两个类别的“二分类”(binary classification)任务,其中一个为“正类”(posive class),另一个为“反类”(negative class)。 根据训练数据是否拥有标记信息,学习任务分为:“监督学习”(supervise learning)和“无监督学习”(unsupervised learning)。分类回归是前者的代表,聚类(clustering)是后者的代表。 学得的模型适用于新样本的能力,称为“泛化”(generalization)能力。 归纳(induction)和演绎(deduction)。 归纳是从特殊到一般的泛化过程,即为从具体的事实中总结出一般的规律。演绎是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。 归纳学习有广义和狭义之分,广义的归纳学习相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,又称为“概念学习”或“概念形成”。

Python3入门机器学习 经典算法与应用(网盘免费分享)

匿名 (未验证) 提交于 2019-12-02 22:51:30
部分课程学习资料截图: 免费课程资料领取目录: Python Flask构建微信小程序订餐系统 (网盘免费分享) 链接:https://pan.baidu.com/s/1rB7h53iNOweyqWTZXQv4cg 提取码:o9el ps:免费分享,如若链接失效请加群( 注意是免费免费免费分享 ) 私聊管理员即可免费领取;群――517432778,点击加群,或扫描二维码 第1章 欢迎来到 Python3 玩转机器学习 欢迎大家来到《Python3玩转机器学习》的课堂。在这个课程中,我们将从0开始,一点一点进入机器学习的世界。本门课程对机器学习领域的学习,绝不不仅仅只是对算法的学习,还包括诸如算法的评价,方法的选择,模型的优化,参数的调整,数据的整理,等等一系列工作。准备好了吗?现在开始我们的机器学习之旅!... 1-1 什么是机器学习 试看 1-2 课程涵盖的内容和理念 试看 1-3 课程所使用的主要技术栈 试看 第2章 机器学习基础 机器学习到底是什么鬼?这一章将带领大家深入理解机器学习的世界,让大家去熟悉那些看似陌生的专业术语。监督学习,非监督学习,半监督学习,增强学习,批量学习,在线学习,参数学习,非参数学习。看完这一章,这些概念你就统统了解啦。不仅如此,本章还包含相当深刻地和机器学习相关的哲学探讨,让你深入思索有关机器学习... 2-1 机器学习世界的数据 2-2

Python数据分析(数据清洗分类和整理)

匿名 (未验证) 提交于 2019-12-02 22:51:08
一.工具的使用 操作: 1. 等待初始化: 2.在浏览器中打开Anaconda 3.输入代码进行数据分析: 4.将数据导入 df = pd . read_csv ( 'I:/SneakerData/task_all/sneaker.csv' ) 5.将数据导出 df . to_csv ( 'I:/SneakerData/intermediateResult/sneaker.csv' ) 二.数据清洗 1.目标: 检查空值和重复值 检查空值: df [ 'price' ] . isnull ( ) . sum ( ) df [ 'style' ] . isnull ( ) . sum ( ) df [ 'tk' ] . isnull ( ) . sum ( ) 或者 df [ 'tk' ] . isnull ( ) . any ( ) 处理空值,变成0 df . fillna ( 0 ) 检查某列是否有重复值 代码: df . duplicated ( ) . value_counts ( ) 结果: 没有重复值!!!表扬虎扑!!! 三.数据整理 1.目标: Xxx个配色―>xxx 正则表达式 ([±]?\d+(.\d+)?) 代码: df [ 'style' ] = df [ 'style' ] . str . extract ( '([+-]?\d+(\.\d+)?)' ) df