分类数据

Pandas分类(category)数据处理

安稳与你 提交于 2019-12-03 17:02:49
  分类(Category)数据:直白来说,就是取值为有限的,或者说是固定数量的可能值。例如:性别、血型 指定数据类型构建分类数据 dtype="category"   以血型为例,创建一个关于血型的分类对象 import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name") user_info = pd.Series(data=["A", "AB", np.nan, "AB", "O", "B"], index=index, name="bloo d_type", dtype="category") user_info """ name Tom A Bob AB Mary NaN James AB Andy O Alice B Name: bloo d_type, dtype: category Categories (4, object): [A, AB, B, O] """ 使用 pd.Categorical 来构建分类数据 import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

Pandas分类(category)数据处理

别说谁变了你拦得住时间么 提交于 2019-12-03 17:02:45
  分类(Category)数据:直白来说,就是取值为有限的,或者说是固定数量的可能值。例如:性别、血型 指定数据类型构建分类数据 dtype="category"   以血型为例,创建一个关于血型的分类对象 import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name") user_info = pd.Series(data=["A", "AB", np.nan, "AB", "O", "B"], index=index, name="bloo d_type", dtype="category") user_info """ name Tom A Bob AB Mary NaN James AB Andy O Alice B Name: bloo d_type, dtype: category Categories (4, object): [A, AB, B, O] """ 使用 pd.Categorical 来构建分类数据 import pandas as pd index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

Pandas | 23 分类数据

帅比萌擦擦* 提交于 2019-12-03 15:12:44
通常实时的数据包括重复的文本列。例如:性别,国家和代码等特征总是重复的。这些是分类数据的例子。 分类变量只能采用有限的数量,而且通常是固定的数量。除了固定长度,分类数据可能有顺序,但不能执行数字操作。 分类是 Pandas 数据类型。 分类数据类型在以下情况下非常有用 - 一个字符串变量,只包含几个不同的值。将这样的字符串变量转换为分类变量将会节省一些内存。 变量的词汇顺序与逻辑顺序( "one" , "two" , "three" )不同。 通过转换为分类并指定类别上的顺序,排序和最小/最大将使用逻辑顺序,而不是词法顺序。 作为其他python库的一个信号,这个列应该被当作一个分类变量(例如,使用合适的统计方法或 plot 类型)。 对象创建 分类对象可以通过多种方式创建。下面介绍了不同的方法 - 类别/分类 通过在 pandas 对象创建中将 dtype 指定为 “category” 。 import pandas as pd s = pd.Series(["a","b","c","a"], dtype="category") print (s) 输出结果 - 0 a 1 b 2 c 3 a dtype: category Categories (3, object): [a, b, c] 传递给系列对象的元素数量是四个,但类别只有三个。观察相同的输出类别。 pd

MySql学习笔记06

易管家 提交于 2019-12-03 11:51:09
课程回顾 一对一关联 案例1:查询每个员工的名字和主管领导的名字 select e.ename 员工姓名,m.ename 领导姓名from emp e join emp mon e.mgr=m.empno; 案例2: 查询主管领导名字为blake的所有员工名字 select e.ename 员工姓名,m.ename 领导姓名 from emp e join emp m on e.mgr=m.empno where m.ename='blake' 案例3:查询有商品的分类信息及上级分类信息 往t item category表内部插入以下数据 id 162 name 办公用品 id 229 name 文具 id 913 name 户外用品 -插入数据 insert into t item category (id,name) values(162,'办公用品'),(229,'文具'),(913,'户外用品'); -查询所有有商品的分类id SELECT DISTINCT category id FROM t item WHERE category id IS NOT NULL -查询分类详情 select * from t item category where id in (SELECT DISTINCT category id FROM t item WHERE category

分类算法-决策树、随机森林

≡放荡痞女 提交于 2019-12-03 11:02:48
分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪 优点: 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理逻辑回归等不能解决的非线性特征数据 缺点: 可能产生过度匹配问题 适用数据类型: 数值型和标称型 特征选择 特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的京都影响不大。通常特征选择的准则是信息增益,这是个数学概念。通过一个例子来了解特征选择的过程。 我们希望通过所给的训练数据学习一个贷款申请的决策树,用以对文莱的贷款申请进行分类,即当新的客户提出贷款申请是,根据申请人的特征利用决策树决定是否批准贷款申请。特征选择其实是决定用那个特征来划分特征空间。下图中分别是按照年龄,还有是否有工作来划分得到不同的子节点 问题是究竟选择哪个特征更好些呢?那么直观上,如果一个特征具有更好的分类能力,是的各个自己在当前的条件下有最好的分类

python分类预测模型的特点

巧了我就是萌 提交于 2019-12-03 09:42:52
python分类预测模型的特点 模型 模型特点 位于 SVM 强大的模型,可以用来回归,预测,分类等,而根据选取不同的和函数,模型可以是线性的/非线性的 sklearn.svm 决策树 基于"分类讨论,逐步细化"思想的分类模型,模型直观,易解释 sklearn.tree 朴素贝叶斯 基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释 sklearn.naive_bayes 神经网络 具有强大的拟合能力,可疑用于拟合,分类等,它有多个增强版本,如递神经网络,卷积神经网络,自编吗器等,这些是深度学习的模型基础 Keras 逻辑回归 比较基础的线性分类模型,很多时候是简单有效的选择 sklearn.linear_model 随机森林 思想跟决策树类似,精度通常比决策树要高,缺点是由于随机性, 丧失了决策树的可解释性 sklearn.ensemble python建模的步骤: 建立一个对象(这个对象是空白的,需要进一步训练) 然后,我们要设置模型的参数 接着就是通过fit()方法对模型进行训练 最后通过predict()方法预测结果 对模型的评估score()方法等 聚类分析 常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法.与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可疑建立在吴磊标记的数据上

《机器学习实战》高清中文带标签PDF+高清英文PDF+源代码

。_饼干妹妹 提交于 2019-12-03 05:45:02
1 写在前面 最近在做机器学习项目的时候发现一本好书,《机器学习实战》, 介绍并实现机器学习的主流算法。 面向日常任务的高效实战内容, 《机器学习实战》没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果 我们都知道,机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 入门建议参考《机器学习实战》,分为4个部分,分别是分类(有监督学习,包括KNN/决策树/朴素贝叶斯/逻辑斯蒂回归/svm/改变样本权重的bagging和adaboosting)、回归(有监督学习,线性回归、局部加权、特征维度比样本个数多时缩减系数,如岭回归、lasso等,树回归,这块掌握不太好)、无监督学习(kmeans、apriori/fp-growth)以及其他工具(PCA/SVD/MAPREDUCE)。 2 学习参考 《机器学习实战》高清中文版, 339页,带目录书签,文字可复制;高清英文版, 382页,带目录书签,文字可复制; 中英文两版对比学习。讲解详细并配有源代码。 本书百度云盘下载链接: 《机器学习实战》高清带标签PDF + 源码下载 3 本书目录 第1章 机器学习基础   1.1

用户画像

ε祈祈猫儿з 提交于 2019-12-03 04:34:31
原文链接: https://blog.csdn.net/zw0Pi8G5C1x/article/details/83964888 导读:用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需求。往往对产品做了很多功能的升级,用户却觉得体验变差了。 在大数据领域,用户画像的作用远不止于此。用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标签化以后,我们对用户就有了一个直观的认识。 同时计算机也能够理解用户,将用户的行为信息用于个性化推荐、个性化搜索、广告精准投放和智能营销等领域。 作者:马海平 于俊 吕昕 向海 本文摘编自《Spark机器学习进阶实战》,如需转载请联系我们 01 概述 用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。这些标签集合就能抽象出一个用户的信息全貌,如图10-1所示是某个用户的标签集合,每个标签分别描述了该用户的一个维度,各个维度之间相互联系,共同构成对用户的一个整体描述。 ▲图10-1 用户标签集合 02 用户画像流程 1. 整体流程 我们对构建用户画像的方法进行总结归纳,发现用户画像的构建一般可以分为目标分析

半监督学习(五)——半监督支持向量机

本秂侑毒 提交于 2019-12-03 03:41:59
半监督支持向量机( S3VMs)   今天我们主要介绍SVM分类器以及它的半监督形式S3VM,到这里我们关于半监督学习基础算法的介绍暂时告一段落了。之后小编还会以论文分享的形式介绍一些比较新的半监督学习算法。让我们开始今天的学习吧~ 引入   支持向量机( SVM)相信大家并不陌生吧?但是如果数据集中有大量无标签数据(如下图b),那么决策边界应该如何去确定呢?仅使用有标签数据学得的决策边界(如下图a)将穿过密集的无标签数据,如果我们假定两个类是完全分开的,那么该决策边界并不是我们想要的,我们希望的决策边界是下图(b)中的黑色实线。   新的决策边界可以很好地将无标签数据分成两类,而且也正确地分类了有标签数据(虽然它到最近的有标签数据的距离比 SVM小)。 支持向量机 SVM   首先我们来讨论 SVMs,为我们接下来要介绍的S3VMs算法做铺垫。为了简单起见,我们讨论二分类问题,即y{-1,1},特征空间为 并定义决策边界如下 其中 w是决定决策边界方向和尺度的参数向量,b是偏移量。举个例子, ,b=-1,决策边界就如下图蓝色线所示,决策边界总是垂直于w向量。   我们的模型为 , 决策边界是 f(x)=0,我们通过sign(f(x))来预测x的标签,我们感兴趣的是实例x到决策边界的距离,该距离的绝对值为, 比如原点 x=(0,0)到决策边界的距离为 ,如上图中的绿色实线

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):