聚类 | 易学教程

感受python之美，python简单易懂的小例子

阅读更多关于感受python之美，python简单易懂的小例子

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 1 简洁之美通过一行代码，体会Python语言简洁之美 2 Python绘图 Python绘图方便、漂亮，画图神器pyecharts几行代码就能绘制出热力图：炫酷的水球图：经常使用的词云图： 3 Python动画仅适用Python的常用绘图库：Matplotlib，就能制作出动画，辅助算法新手入门基本的排序算法。如下为一个随机序列，使用快速排序算法，由小到大排序的过程动画展示：归并排序动画展示：使用turtule绘制的漫天雪花： imeline时间轮播图： 4 Python数据分析 Python非常适合做数值计算、数据分析，一行代码完成数据透视： 5 Python机器学习 Python机器学习库Sklearn功能强大，接口易用，包括数据预处理模块、回归、分类、聚类、降维等。一行代码创建一个KMeans聚类模型： 6 Python-GUI PyQt设计器开发GUI，能够迅速通过拖动组建搭建出来，使用方便。如下为使用PyQt，定制的一个专属自己的小而美的计算器。除此之外，使用Python的Flask框架搭建Web框架，也非常方便。如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗

Python-根据成绩分析是否继续深造

阅读更多关于 Python-根据成绩分析是否继续深造

案例:该数据集的是一个关于每个学生成绩的数据集,接下来我们对该数据集进行分析，判断学生是否适合继续深造数据集特征展示 1 GRE 成绩 (290 to 340 ) 2 TOEFL 成绩(92 to 120 ) 3 学校等级 (1 to 5 ) 4 自身的意愿 (1 to 5 ) 5 推荐信的力度 (1 to 5 ) 6 CGPA成绩 (6.8 to 9.92 ) 7 是否有研习经验 (0 or 1 ) 8 读硕士的意向 (0.34 to 0.97) 1.导入包 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os,sys 2.导入并查看数据集 df = pd.read_csv( " D:\\machine-learning\\score\\Admission_Predict.csv " ,sep = " , " ) print('There are ',len(df.columns),'columns') for c in df.columns: sys.stdout.write(str(c)+', ' There are 9 columns Serial No., GRE Score, TOEFL Score,

机器学习经典算法之K-Means

阅读更多关于机器学习经典算法之K-Means

一、简介 K-Means 是一种非监督学习，解决的是聚类问题。K 代表的是 K 类，Means 代表的是中心，你可以理解这个算法的本质是确定 K 类的中心点，当你找到了这些中心点，也就完成了聚类。 /*请尊重作者劳动成果，转载请标明原文链接：*/ /* https://www.cnblogs.com/jpcflyer/p/11117012.html * / 先请你和我思考一个场景，假设我有 20 支亚洲足球队，想要将它们按照成绩划分成 3 个等级，可以怎样划分？二、 K-Means 的工作原理对亚洲足球队的水平，你可能也有自己的判断。比如一流的亚洲球队有谁？你可能会说伊朗或韩国。二流的亚洲球队呢？你可能说是中国。三流的亚洲球队呢？你可能会说越南。其实这些都是靠我们的经验来划分的，那么伊朗、中国、越南可以说是三个等级的典型代表，也就是我们每个类的中心点。所以回过头来，如何确定 K 类的中心点？一开始我们是可以随机指派的，当你确认了中心点后，就可以按照距离将其他足球队划分到不同的类别中。这也就是 K-Means 的中心思想，就是这么简单直接。你可能会问：如果一开始，选择一流球队是中国，二流球队是伊朗，三流球队是韩国，中心点选择错了怎么办？其实不用担心，K-Means 有自我纠正机制，在不断的迭代过程中，会纠正中心点。中心点在整个迭代过程中，并不是唯一的，只是你需要一个初始值

Python机器学习入门（1）之导学+无监督学习

阅读更多关于 Python机器学习入门（1）之导学+无监督学习

Python Scikit-learn *一组简单有效的工具集 *依赖Python的NumPy,SciPy和matplotlib库 *开源可复用 sklearn库的安装 DOS窗口中输入 pip install ** NumPy(开源科学计算库),SciPy(集成多种数学算法和函数模块)和matplotlib(提供大量绘图工具)库基础上开发的，因此需要先装这些依赖库安装顺序 SKlearn库中的标准数据集及基本功能波士顿房价数据集使用sklearn.datasets.load_boston即可加载相关数据集 return_X_y:表示是否返回target(即价格)，默认为False,只返回data（即属性）。鸢尾花数据集使用sklearn.datasets.load_iris即可加载相关数据集参数：return_X_y:若为True，则以(data,target)形式返回数据；默认为False，表示以字典形式返回数据全部信息(包括data和target) 手写数字数据集使用sklearn.datasets.load_digits即可加载相关数据集 return_X_y:若为True，则以(data,target)的形式返回数据；默认为False，表示以字典形式返回数据全部信息包括（data和target） n_calss:表示返回数据的类别数，如：n_class=5

【转】《西瓜书机器学习详细公式推导版》发布

阅读更多关于【转】《西瓜书机器学习详细公式推导版》发布

转自：https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的《机器学习》（西瓜书）是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述，但是这对那些想深究公式推导细节的读者来说可能“不太友好”，本书旨在对西瓜书里比较难理解的公式加以解析，以及对部分公式补充具体的推导细节，诚挚欢迎每一位西瓜书读者前来参与完善本书：一个人可以走的很快，但是一群人却可以走的更远。使用说明南瓜书仅仅是西瓜书的一些细微补充而已，里面的内容都是以西瓜书的内容为前置知识进行表述的，所以南瓜书的最佳使用方法是以西瓜书为主线，遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书。若南瓜书里没有你想要查阅的公式，可以点击这里提交你希望补充推导或者解析的公式编号，我们看到后会尽快进行补充。在线阅读地址 https://datawhalechina.github.io/pumpkin-book/ 目录第1章绪论第2章模型评估与选择第3章线性模型第4章决策树第5章神经网络第6章支持向量机第7章贝叶斯分类器第8章集成学习第9章

sklearn 中 make_blobs模块

阅读更多关于 sklearn 中 make_blobs模块

# 生成用于聚类的各向同性高斯blob sklearn.datasets.make_blobs（n_samples = 100，n_features = 2，center = 3，cluster_std = 1.0，center_box =（ - 10.0,10.0），shuffle = True，random_state = None）参数 n_samples: int, optional (default=100) 待生成的样本的总数。 n_features: int, optional (default=2) 每个样本的特征数。 centers: int or array of shape [n_centers, n_features], optional (default=3) 要生成的样本中心（类别）数，或者是确定的中心点。 cluster_std: float or sequence of floats, optional (default=1.0) 每个类别的方差，例如我们希望生成2类数据，其中一类比另一类具有更大的方差，可以将cluster_std设置为[1.0,3.0]。 center_box: pair of floats (min, max), optional (default=(-10.0, 10.0)) 中心随机生成时每个聚类中心的边界框。

大数据：互联网大规模数据挖掘与分布式处理pdf

阅读更多关于大数据：互联网大规模数据挖掘与分布式处理pdf

下载地址：网盘下载内容简介 · · · · · · 大数据：互联网大规模数据挖掘与分布式处理，ISBN：9787115291318，作者：（美） Anand Rajaraman （美） Jeffrey David Ullman 著，王斌译作者简介 · · · · · · Anand Rajaraman　数据库和Web技术领域权威，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功：1996年创办Junglee公司，两年后该公司被亚马逊以2.5亿美元收购，Rajaraman被聘为亚马逊技术总监，推动亚马逊从一个零售商转型为零售平台；2000年与人合创Cambrian，孵化出几个后来被谷歌收购的公司；2005年创办Kosmix公司并任CEO，该公司2011年被沃尔玛集团收购。Rajaraman生于印度，在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。 Jeffrey David Ullman　美国国家工程院院士，计算机科学家，斯坦福大学教授。Ullman早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。他是ACM会员

聚类算法数据生成器make_blobs

阅读更多关于聚类算法数据生成器make_blobs

make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果。 make_blobs(n_samples =100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None) n_samples是待生成的样本数量，n_features是每个样本的特征数，centers是簇数量，也可以直接指定每个簇的中心点centers=[[-1,1],[1,2],[3,3]]，cluster_std是每个簇的方差，赋给cluter_std一个参数代表所有簇方差都一样，也可制定各个簇的方差cluster_std=[10,6,25]，shuffle数据洗牌，默认不用设置，random_state是随机种子，默认随机种子，也可以自己指定。 import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs # data为样本特征，target为样本簇类别，共1000个样本，每个样本2个特征，共4个簇，簇中心在[-2,-2],[1,1],[3,3],[5,5]，簇方差分别为[0.4,0.2,0.1

【scikit-learn】06：make_blobs聚类数据生成器

阅读更多关于【scikit-learn】06：make_blobs聚类数据生成器

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。本文链接： https://blog.csdn.net/kevinelstri/article/details/52622960 【scikit-learn】01：使用案例对sklearn库进行简单介绍【scikit-learn】02：使用sklearn库进行统计学习【scikit-learn】03：将sklearn库用于非监督性学习聚类【scikit-learn】04：sklearn库下进行文本数据分析【scikit-learn】05：sklearn文本分类及评价指标【scikit-learn】06：make_blobs聚类数据生成器【scikit-learn】07：数据加载，数据归一，特征选择，逻辑回归，贝叶斯，k近邻，决策树，SVM make_blobs聚类数据生成器简介 scikit中的make_blobs方法常被用来生成聚类算法的测试数据，直观地说，make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果。 make_blobs方法: sklearn.datasets.make_blobs(n_samples= 100, n_features= 2,centers= 3, cluster_std=

特征工程二：特征抽象、特征衍生

阅读更多关于特征工程二：特征抽象、特征衍生

特征工程：特征抽象、特征衍生特征抽象这一步是针对有序和无序的文本分类型特征，采用不同的方法进行处理，将其类别属性数值化。多值有序特征的属性数值映射，这步也包含了降维处理（对于高维类别变量），把类别抽象成模型可以识别的特征值。有序特征的映射，使用的方法是先构建一个映射字典mapping，再用pandas的map()或者replace()函数进行映射转换。 #构建学历字典 mapping_dict ={ ' 博士 ' : 4 , ' 硕士 ' : 3 , ' 大学 ' : 2 , ' 大专及以下 ' : 1 } #调用map方法进行转换 data[ ' edu_level_map ' ]=data[ ' edu_level ' ].map(mapping_dict) 多值无序特征的属性独热编码，使用pandas的get_dummies()方法创建虚拟特征，虚拟特征的每一列各代表变量属性的一个分类。比如，婚姻状态。 #调用get_dummies方法进行转换 dummies =pandas.get_dummies(data,columns=[ ' 婚姻状态 ' ],prefix=[ ' 婚姻状态 ' ],prefix_sep= ' _ ' ,dummy_na=False,drop_first=False) 特征衍生特征衍生是指利用现有的特征进行某种组合生成新的特征

订阅聚类