python算法

考研每日总结

∥☆過路亽.° 提交于 2019-11-30 19:46:26
考研总结 191006 191007 191008 推荐阅读 Python从入门到放弃(目录) 十天快速入门Python(目录) 数据结构与算法(目录) Go从入门到放弃(目录) 统计机器学习(目录) TensorFlow2(目录) 机器学习(目录) Python能干啥(目录) 我真的还是18岁的那个我 大数据分析和人工智能科普 博客园自动发布/更新博客系统 201907TIOBE编程语言排行榜-Python坐稳第三 来源: https://www.cnblogs.com/nickchen121/p/11637985.html

python基础1

一笑奈何 提交于 2019-11-30 19:43:51
1.计算机基础 cpu:中央处理器 内存:临时存放数据,CPU从内存取数据计算 成本高,断电即消失。 硬盘:1T 固态硬盘,机械硬盘,储存数据,长久保持重要文件等等。 操作系统: 应用程序: 2.Python的历史:崇尚优美,清洗,简单。 1.Python 是由 Guido van Rossum 在八十年代末和九十年代初,在荷兰国家数学和计算机科学研究所设计出来的。 Python 本身也是由诸多其他语言发展而来的,这包括 ABC、Modula-3、C、C++、Algol-68、SmallTalk、Unix shell 和其他的脚本语言等等。 像 Perl 语言一样,Python 源代码同样遵循 GPL(GNU General Public License)协议。 现在 Python 是由一个核心开发团队在维护,Guido van Rossum 仍然占据着至关重要的作用,指导其进展。 Python 2.7 被确定为最后一个 Python 2.x 版本,它除了支持 Python 2.x 语法外,还支持部分 Python 3.1 语法。 2.宏观上Python2和Python3的区别: 2.源码不标准,混乱,重复代码太多 3.统一,标准,去除重复代码 3.Python的环境 编译型:一次性将所有的程序编译成二进制文件 开发效率低,(执行)运行速度快,不能跨平台,有C语言等等。 解释型

Ubuntu下搭建python数据分析环境

一世执手 提交于 2019-11-30 18:26:57
本文记录一下Ubuntu下安装python关于数据处理的各种包,安装的方法都非常简单,直接使用apt-get 1.ipython工具 ipython 是一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量 自动补全,自动缩进,支持 bash shell 命令,内置了许多很有用的功能和函数。 sudo apt-get install ipython 2.安装scipy,numpy,matplotlib NumPy系统是Python的一种开源的数字扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的Matlab 系统。 SciPy是一个开源的Python算法库和数学工具包。 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。 sudo apt-get install python-scipy sudo apt-get install python-numpy sudo apt-get install python-matplotlib 3.安装Pandas Python Data Analysis

python数据分析与挖掘项目实战记录

社会主义新天地 提交于 2019-11-30 18:18:28
python数据挖掘项目实战记录 取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法: 数据预处理方法 建立模型方法 绘制图形 对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线; 对于聚类问题:划分类目数;获取划分类目中心;平行坐标系描述 (一)数据预处理的方法 在获取数据之后,会发现一些数据值错误 一、填补空值 二、观察数据分布 三、数据清洗,使数据值都合理存在 四、数据规约,提取重要属性 五、数据归一化,为了使用K-Means算法 数据读取 #SVM,bayes,ANN,D_Tree,等需要操作的数据是矩阵,需要 data=data.as_matrix() #将series数据转为矩阵形式的训练集 from numpy.random import shuffle shuffle(data) #随机打乱数据 x_train=data_train[:, 2 :]* 30 #将特征放大 import pickle pickle.dump(model, open( '../tmp/svm.model' , 'wb' )) # 保存模型 model = pickle.load(open( '../tmp/svm.model' , 'rb' )) # 读取模型 #将数据保存为固定文件格式 pd.DataFrame(cm_train, index

使用Python一步步实现PCA算法

拥有回忆 提交于 2019-11-30 16:57:45
使用Python一步步实现PCA算法 标签: PCA Python 本文原地址为: http://sebastianraschka.com/Articles/2014_pca_step_by_step.html Implementing a Principal Component Analysis (PCA) – in Python, step by step Apr 13, 2014 by Sebastian Raschka 此篇为翻译作品,仅作为学习用途。 简介 主成分分析(PCA)的主要目的是通过分析发现数据的模式进行维度的缩减,这个过程的原则是信息损失最小化。 我们希望得到的结果,把初始特征空间映射到一个相对低维度的子空间,同时保证这个低维度空间也能够很好的表达数据的有效信息。在模式分类中,我们希望通过降维操作抽取能够最佳表达数据的特征子集来降低运算时间花费,减少参数估计的误差。 主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切。在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣。 一句话,通过PCA,我们将整个数据集(不带类别标签)映射到一个子空间中,在MDA中,我们致力于找到一个能够最好区分各类的最佳子集。粗略来讲,PCA是通过寻找方差最大的轴(在一类中

python 字典

纵饮孤独 提交于 2019-11-30 14:44:45
dict Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 举个例子,假设要根据同学的名字查找对应的成绩,如果用list实现,需要两个list: names = ['Michael', 'Bob', 'Tracy'] scores = [95, 75, 85]给定一个名字,要查找对应的成绩,就先要在names中找到对应的位置,再从scores取出对应的成绩,list越长,耗时越长。 如果用dict实现,只需要一个“名字”-“成绩”的对照表,直接根据名字查找成绩,无论这个表有多大,查找速度都不会变慢。用Python写一个dict如下: >>> d = {'Michael': 95, 'Bob': 75, 'Tracy': 85} >>> d['Michael'] 95 注意符号: list=[ ] dict={ } 为什么dict查找速度这么快? 因为dict的实现原理和查字典是一样的。 假设字典包含了1万个汉字,我们要查某一个字, 一个办法是把字典从第一页往后翻,直到找到我们想要的字为止,这种方法就是在list中查找元素的方法,list越大,查找越慢。 第二种方法是先在字典的索引表里(比如部首表)查这个字对应的页码,然后直接翻到该页,找到这个字。无论找哪个字

Python使用pandas扩展库DataFrame对象的pivot方法对数据进行透视转换

放肆的年华 提交于 2019-11-30 13:49:03
Python扩展库pandas的DataFrame对象的pivot()方法可以对数据进行行列互换,或者进行透视转换,在有些场合下分析数据时非常方便。 DataFrame对象的pivot()方法可以接收三个参数,分别是index、columns和values,其中index用来指定转换后DataFrame对象的纵向索引,columns用来指定转换后DataFrame对象的横向索引或者列名,values用来指定转换后DataFrame对象的值。 为防止数据行过长影响手机阅读,我把代码以及运行结果截图发上来: 创建测试用的DataFrame对象: 透视转换,指定index、columns和values: 透视转换,不指定values,但可以使用下标访问指定的values: ---------相关阅读---------- Python使用pandas读取Excel文件数据和预处理小案例 使用Python内置集合对象和内置函数filter()过滤无效书评 Python数据分析扩展库pandas的DataFrame排序方法小结 Pandas创建DataFrame对象的几种常用方法 Python基于用户协同过滤算法的电影推荐代码demo Python+pandas读取Excel文件并统计演员参演电影数量 Python统计共同参演电影最多的演员组合 Python读取Excel文件统计演员参演电影

python常用数据结构讲解

☆樱花仙子☆ 提交于 2019-11-30 12:31:51
目录 一:序列 1. 列表 2.元组 3.字符串 4.通用序列操作方法 5.字典 6.集合 二:高级数据结构 1.栈 2.队列 一:序列     在数学上,序列是被排成一排的对象,而在python中,序列是最基本的数据结构。它的主要特征为拥有索引,每个索引的元素是可迭代对象。都可以进行索引,切片,加,乘,检查成员等操作。在python中,有六种内建的索引,但是常用的是列表,元组,字符串,下面就进行介绍。 1. 列表      定义: 列表是把需要的数据类型进行封装,类似c语言的结构体。而且列表是动态可变的。      基本操作方法:     count():统计某个元素在列表中出现的次数。     index():从列表中找出某个值第一个匹配项的索引位置。     append():在列表末尾添加新对象。     extend():在列表末尾一次性追加另一个序列的多个值。     insert():在列表的指定位置插入对象。     pop():移除列表中的一个元素(默认最后一个元素),并且返回该元素的值。     remove():移除列表中某个值的第一个匹配项。     reverse():将列表中的元素反向,不重新拷贝一个列表。     reversed():将列表中的元素反向,重新拷贝一个列表。     sort():将列表中的元素排序,不重新拷贝一个列表。    

【图像分割python实现四】区域生长算法

↘锁芯ラ 提交于 2019-11-30 12:11:24
# -*- coding: utf-8 -*- import matplotlib . pyplot as plt import numpy as np import cv2 """ 区域生长算法 前提: 生长规则可以是平均灰度、纹理和颜色等 算法: 1. 顺序查找图像,找到第一个未归类的像素 (x0, y0) 2. 通过遍历该像素的四领域集合,若满足生长规则则并入区域集合; 3. 继续寻找该区域集合的四领域知道无法继续生长; 4. 重新回到步骤1,直到所有图像像素都被分类 """ path = '/XXXX/' img = cv2 . imread ( path + 'lena.jpg' ) img_gray = cv2 . cvtColor ( img , cv2 . COLOR_RGB2GRAY ) img_gray_array = np . array ( img_gray ) img_gray_array = cv2 . resize ( img_gray_array , ( 128 , 128 ) , interpolation = cv2 . INTER_LINEAR ) img_mask = np . zeros ( img_gray_array . shape ) grow_dir = [ ( 0 , 1 ) , ( 0 , - 1 ) , ( 1 , 0 ) ,