聚类

感受python之美,python简单易懂的小例子

£可爱£侵袭症+ 提交于 2020-04-26 13:11:09
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 1 简洁之美 通过一行代码,体会Python语言简洁之美 2 Python绘图 Python绘图方便、漂亮,画图神器pyecharts几行代码就能绘制出热力图: 炫酷的水球图: 经常使用的词云图: 3 Python动画 仅适用Python的常用绘图库:Matplotlib,就能制作出动画,辅助算法新手入门基本的排序算法。如下为一个随机序列,使用快速排序算法,由小到大排序的过程动画展示: 归并排序动画展示: 使用turtule绘制的漫天雪花: imeline时间轮播图: 4 Python数据分析 Python非常适合做数值计算、数据分析,一行代码完成数据透视: 5 Python机器学习 Python机器学习库Sklearn功能强大,接口易用,包括数据预处理模块、回归、分类、聚类、降维等。一行代码创建一个KMeans聚类模型: 6 Python-GUI PyQt设计器开发GUI,能够迅速通过拖动组建搭建出来,使用方便。如下为使用PyQt,定制的一个专属自己的小而美的计算器。 除此之外,使用Python的Flask框架搭建Web框架,也非常方便。 如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗

Python-根据成绩分析是否继续深造

ぃ、小莉子 提交于 2020-04-26 08:33:02
案例:该数据集的是一个关于每个学生成绩的数据集,接下来我们对该数据集进行分析,判断学生是否适合继续深造 数据集特征展示 1 GRE 成绩 (290 to 340 ) 2 TOEFL 成绩(92 to 120 ) 3 学校等级 (1 to 5 ) 4 自身的意愿 (1 to 5 ) 5 推荐信的力度 (1 to 5 ) 6 CGPA成绩 (6.8 to 9.92 ) 7 是否有研习经验 (0 or 1 ) 8 读硕士的意向 (0.34 to 0.97) 1.导入包 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os,sys 2.导入并查看数据集 df = pd.read_csv( " D:\\machine-learning\\score\\Admission_Predict.csv " ,sep = " , " ) print('There are ',len(df.columns),'columns') for c in df.columns: sys.stdout.write(str(c)+', ' There are 9 columns Serial No., GRE Score, TOEFL Score,

机器学习经典算法之K-Means

喜欢而已 提交于 2020-04-26 07:41:30
一、简介 K-Means 是一种非监督学习,解决的是聚类问题。K 代表的是 K 类,Means 代表的是中心,你可以理解这个算法的本质是确定 K 类的中心点,当你找到了这些中心点,也就完成了聚类。 /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://www.cnblogs.com/jpcflyer/p/11117012.html * / 先请你和我思考一个场景,假设我有 20 支亚洲足球队,想要将它们按照成绩划分成 3 个等级,可以怎样划分? 二、 K-Means 的工作原理 对亚洲足球队的水平,你可能也有自己的判断。比如一流的亚洲球队有谁?你可能会说伊朗或韩国。二流的亚洲球队呢?你可能说是中国。三流的亚洲球队呢?你可能会说越南。 其实这些都是靠我们的经验来划分的,那么伊朗、中国、越南可以说是三个等级的典型代表,也就是我们每个类的中心点。 所以回过头来,如何确定 K 类的中心点?一开始我们是可以随机指派的,当你确认了中心点后,就可以按照距离将其他足球队划分到不同的类别中。 这也就是 K-Means 的中心思想,就是这么简单直接。你可能会问:如果一开始,选择一流球队是中国,二流球队是伊朗,三流球队是韩国,中心点选择错了怎么办?其实不用担心,K-Means 有自我纠正机制,在不断的迭代过程中,会纠正中心点。中心点在整个迭代过程中,并不是唯一的,只是你需要一个初始值

Python机器学习入门(1)之导学+无监督学习

拥有回忆 提交于 2020-04-26 06:27:21
Python Scikit-learn *一组简单有效的工具集 *依赖Python的NumPy,SciPy和matplotlib库 *开源 可复用 sklearn库的安装 DOS窗口中输入 pip install ** NumPy(开源科学计算库),SciPy(集成多种数学算法和函数模块)和matplotlib(提供大量绘图工具)库基础上开发的,因此需要先装这些依赖库 安装顺序 SKlearn库中的标准数据集及基本功能 波士顿房价数据集 使用sklearn.datasets.load_boston即可加载相关数据集 return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。 鸢尾花数据集 使用sklearn.datasets.load_iris即可加载相关数据集 参数:return_X_y:若为True,则以(data,target)形式返回数据;默认为False,表示以字典形式返回数据全部信息(包括data和target) 手写数字数据集 使用sklearn.datasets.load_digits即可加载相关数据集 return_X_y:若为True,则以(data,target)的形式返回数据;默认为False,表示以字典形式返回数据全部信息包括(data和target) n_calss:表示返回数据的类别数,如:n_class=5

【转】《西瓜书机器学习详细公式推导版》发布

拜拜、爱过 提交于 2020-04-26 05:45:26
转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。 使用说明 南瓜书仅仅是西瓜书的一些细微补充而已,里面的内容都是以西瓜书的内容为前置知识进行表述的,所以南瓜书的最佳使用方法是以西瓜书为主线,遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书。若南瓜书里没有你想要查阅的公式,可以 点击这里 提交你希望补充推导或者解析的公式编号,我们看到后会尽快进行补充。 在线阅读地址 https://datawhalechina.github.io/pumpkin-book/ 目录 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 支持向量机 第7章 贝叶斯分类器 第8章 集成学习 第9章

sklearn 中 make_blobs模块

旧城冷巷雨未停 提交于 2020-04-26 04:51:18
# 生成用于聚类的各向同性高斯blob sklearn.datasets.make_blobs(n_samples = 100,n_features = 2,center = 3,cluster_std = 1.0,center_box =( - 10.0,10.0),shuffle = True,random_state = None) 参数 n_samples: int, optional (default=100) 待生成的样本的总数。 n_features: int, optional (default=2) 每个样本的特征数。 centers: int or array of shape [n_centers, n_features], optional (default=3) 要生成的样本中心(类别)数,或者是确定的中心点。 cluster_std: float or sequence of floats, optional (default=1.0) 每个类别的方差,例如我们希望生成2类数据,其中一类比另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0]。 center_box: pair of floats (min, max), optional (default=(-10.0, 10.0)) 中心随机生成时每个聚类中心的边界框。

大数据:互联网大规模数据挖掘与分布式处理pdf

笑着哭i 提交于 2020-04-26 02:49:40
下载地址: 网盘下载 内容简介 · · · · · · 大数据:互联网大规模数据挖掘与分布式处理,ISBN:9787115291318,作者:(美) Anand Rajaraman (美) Jeffrey David Ullman 著,王 斌 译 作者简介 · · · · · · Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马 逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。 Jeffrey David Ullman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员

聚类算法数据生成器make_blobs

瘦欲@ 提交于 2020-04-25 22:48:10
make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。 make_blobs(n_samples =100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None) n_samples是待生成的样本数量,n_features是每个样本的特征数,centers是簇数量,也可以直接指定每个簇的中心点centers=[[-1,1],[1,2],[3,3]],cluster_std是每个簇的方差,赋给cluter_std一个参数代表所有簇方差都一样,也可制定各个簇的方差cluster_std=[10,6,25],shuffle数据洗牌,默认不用设置,random_state是随机种子,默认随机种子,也可以自己指定。 import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs # data为样本特征,target为样本簇类别, 共1000个样本,每个样本2个特征, 共4个簇, 簇中心在[-2,-2],[1,1],[3,3],[5,5], 簇方差分别为[0.4,0.2,0.1

【scikit-learn】06:make_blobs聚类数据生成器

梦想的初衷 提交于 2020-04-25 17:14:11
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/kevinelstri/article/details/52622960 【scikit-learn】01:使用案例对sklearn库进行简单介绍 【scikit-learn】02:使用sklearn库进行统计学习 【scikit-learn】03:将sklearn库用于非监督性学习 聚类 【scikit-learn】04:sklearn库下进行文本数据分析 【scikit-learn】05:sklearn文本分类及评价指标 【scikit-learn】06:make_blobs聚类数据生成器 【scikit-learn】07:数据加载,数据归一,特征选择,逻辑回归,贝叶斯,k近邻,决策树,SVM make_blobs聚类数据生成器简介 scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。 make_blobs方法: sklearn.datasets.make_blobs(n_samples= 100, n_features= 2,centers= 3, cluster_std=

特征工程二:特征抽象、特征衍生

断了今生、忘了曾经 提交于 2020-04-24 23:31:30
特征工程:特征抽象、特征衍生 特征抽象 这一步是针对有序和无序的文本分类型特征,采用不同的方法进行处理,将其类别属性数值化。 多值有序特征 的属性数值映射,这步也包含了降维处理(对于高维类别变量),把类别抽象成模型可以识别的特征值。有序特征的映射,使用的方法是先构建一个映射字典mapping,再用pandas的map()或者replace()函数进行映射转换。 #构建学历字典 mapping_dict ={ ' 博士 ' : 4 , ' 硕士 ' : 3 , ' 大学 ' : 2 , ' 大专及以下 ' : 1 } #调用map方法进行转换 data[ ' edu_level_map ' ]=data[ ' edu_level ' ].map(mapping_dict) 多值无序特征 的属性独热编码,使用pandas的get_dummies()方法创建虚拟特征,虚拟特征的每一列各代表变量属性的一个分类。比如,婚姻状态。 #调用get_dummies方法进行转换 dummies =pandas.get_dummies(data,columns=[ ' 婚姻状态 ' ],prefix=[ ' 婚姻状态 ' ],prefix_sep= ' _ ' ,dummy_na=False,drop_first=False) 特征衍生 特征衍生是指利用现有的特征进行某种组合生成新的特征