索引

python数据分析学习(2)pandas二维工具DataFrame讲解

空扰寡人 提交于 2020-02-20 13:18:42
目录 二:pandas数据结构介绍   下面继续讲解pandas的第二个工具DataFrame。 二:pandas数据结构介绍 2.DataFarme   DataFarme表示的是矩阵的数据表,包含已排序的列集合,是一个二维数据工具。每一列可以是不同的数据类型值。它既有行索引又有列索引,可以看作是一组共享相同索引的Series对象。DataFarme的数组方法有很多,比如用index.name获取某列的值,用values获取行的值。这里先介绍一些常用的知识。   (1)构建DataFrame   有多种方式可以构建DataFrame,其中最常用的方式是利用包含等长度列表或NumPy数组的字典形成DataFrame: # 下面是采用NumPy的字典的方式来进行构建DataFrame data = {'a':[1,2,3,4],'b':[1.0,2.0,3.0,4.0],'c':['a','b','c','d']} frame = pd.DataFarme(data)   结果如下:   产生的DataFrame的行索引会自动分配,列索引为字典的每个键。   (2)head   对于大型的矩阵数据,head方法将会只选出头部的五行:   (3)指定列   如果指定了列,则会按照指定顺序排列,用columns属性,但是在数组字典中一定要存在该列的标签名,如果没有则在结果中出现缺失值:

ElasticSearch 6.2.4 实践

不问归期 提交于 2020-02-20 04:37:43
参考资料 ElasticSearch 官网 ElasticSearch,Kibana,Asp.net Core with docker 示例 阮一峰 ElasticSearch 基础概念 索引(index)是ElasticSearch存放数据的地方。对应关系型数据库中的一张表。 索引名称需小写。 文档(document)是ElasticSearch中存储的主要实体。对应关系型数据库中的数据表的一行数据。文档由字段(行数据的列)组成,一个字段可以出现多次,该字段被称为多值字段。每个字段对应一种类型。 文档类型,在ElasticSearch中一个索引可以存储许多不同用途的对象。 节点和集群,ElasticSearch可以作为一个独立的搜索服务器工作,也支持在在多台协同工作的服务器上运行。这些服务器被统称为一个集群(cluster)。集群的每个服务器则被称为一个节点(node)。 分片:将数据切分,每部分是一个单独的Apache Lucene索引。每个分片可以存储在集群的不同节点上。 副本分片:副本分片是对原始分片的一个精确拷贝,原始分片被称为主分片。对索引的所有修改操作都直接作用在主分片上,每个主分片可以有零个或多个副本分片。 安装 Windows (安装Java)ElasticSearch(ES) 是基于 Lucene 的封装。所以想要运行ES 需要安装Java的JDK

Elasticsearch_Lucene基础

北城以北 提交于 2020-02-20 04:35:30
Lucene基本概念 文档(document):索引与搜索的主要载体,它包含一个或多个字段,存放将要写入索引的或将从索引搜索出来的数据。 字段(field):文档的一个片段,它包含字段的名称和字段的内容两个部分。 词项(term):搜索时的一个单位,代表了文本中的一个词。 词条(token):词项在字段文本中的一次出现,包括词项的文本、开始和结束的偏移以及词条类型。 分析数据 文本分析由分析器来执行,建立在分词器、过滤器和字符映射器之上。 分词器工作的结果称为词条流。 过滤器串联执行,可以一个也可以多个,用于处理分词器的结果。常见的过滤器:小写过滤器、ASCII过滤器(移除词条中所有非ASCII字符)、同义词过滤器(将一个词条转换成另一个词条)、多语言词干还原过滤器。 字符映射器用于分词器之前的文本预处理。比如HTML文本的去标签处理 Lucene查询语言 AND :结果是当且仅当左右两边的词都在文档中出现。例:apache AND lucene 返回同时包含这两个词的文档 OR :包含任意一个词项的文档被返回 NOT :不包含NOT后面的词项的文档被返回。例:Lucene NOT elasticsearch 返回包含Lucene不包含elasticsearch的文档 + :只有包含+后面词项的文档符合。例:+Lucene Apache 包含Lucene

MYSQL索引笔记

做~自己de王妃 提交于 2020-02-20 01:22:44
mysql索引 了解mysql的B+Tree索引需要了解B+Tree的发展由来 二叉数, 我们理想的二叉树是这样的 但在实际过程中可能产生瘸腿二叉树 这样在第二个图中如果查找数字8,我们的查找过程一次是3-》4-》5-》7-》8,查找过程中,查找次数并无减少,没有体现出二叉树的优势,所有变衍生了平衡二叉树 平衡二叉树 平衡二叉树的特性是: 它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。 平衡二叉树通过 左旋、右旋 的方式保障二叉树的平衡(这里就不过多赘述,如果不懂可以百度一下),即便这种平衡二叉树在数据巨大的时候,他的树的高度也会影响到数据的查询速度,变引衍生了B-Tree B-Tree树 B-Tree树一个节点包括N个值(N>=2),而他得子节点为N+1个 B+Tree B+Tree采用了左闭合区间,它B-Tree还有一个比较多得区别在于B-Tree将值保存在每个节点下,而T+Tree不保存相关数据信息,数据信息只保存指子节点 mysql中索引包括: Myisam引擎(非聚集索引) Innodb引擎(聚集索引) mysql中得两种索引都是用B+Tree结构,两种索引的区别在于,聚集索引是有序的,包括索引有序和数据与索引数据一致,而非聚集索引数据是无序的,索引中只报错数据的磁盘地址。 在建表时不同索引会创建不同文件 Myisam引擎

Python 列表与元组

倾然丶 夕夏残阳落幕 提交于 2020-02-20 00:57:23
本节导航: List 列表 : 增 删 查 改 其他 列表的循环 Tuple 元组 一、 List 列表   列表( list )属于一种有序的集合,可以随时添加和删除其中的元素。列 表是 Python 中内置的一种数据类型,也是最常 用的 Python 数据 类型。列表 的命名规则就是一个方括号( [] ),创建一个列表只要把逗号分隔的不同的数据项使用方括号括起来即可。列表中每个元素都分配有一个数字(从 0 开始),这个数字即为该元素的位置(或索引)也可以认为是该元素的下标,第一个索引是 0 ,第二个索引是 1 ,反过来最后一个索引是 -1 ,依此类推。   在这里我们就简单声明一个班级 名单列表 name 进行演示: name = ["Madonna", "Cory", "Annie", "Nelly"] 注:列表中的数据项可以为任意数据类型。   现在我们已经弄清楚列表元素的具体位置了,也顺便建立了一个简单的列表,那下面就让我们详细的了解下列表到底有哪些方法吧。 “增” : 在单个列表添加元素时不能批量的插入元素,只能一个一个的来,具体的方法有 append() 和 insert() 两种方法。 append() 是直接在原列表的末尾追加(添加)元素,而 insert() 是在添加的索引前面插入(添加)元素;当在涉及两个或两个以上列表时,列表的内置方法中还提供了一种

Python-列表和元组

南笙酒味 提交于 2020-02-20 00:48:58
一、列表定义 列表是python中一种基本的数据结构。list、数组、array都指的是列表。 列表为它的每一个元素分配一个下标,标记该元素的位置。也可以将下标叫做索引、角标、编号。下标从0开始计数。另外最后一个元素的下标是-1。 定义列表时,用中括号[]将其中的元素括起来,不同元素之间用逗号“,”分隔。 例如:stus=['小红','小黑','小白','小兰'] 列表stus中有4个元素,索引分别为0,1,2,3。“小红”的索引是0。“小兰”的索引是3,也是-1。 二、列表操作 1、增 给列表增加元素有两种方法,append和insert。 append:在列表末尾增加一个元素 insert:在指定位置增加元素 例如: 2、删 删除元素的方法有pop,remove,del,clear。 pop:删除指定位置的元素,格式为:list.pop(索引) remove:删除指定元素,格式为:list.remove(元素) del:删除指定位置的元素,格式为:del list[索引] clear:清空列表,格式为:list.clear() 3、修改 修改时,直接对对应元素赋值即可,如果指定下标不存在,会报错 4、查询 (1)查询指定索引的元素,直接用 list[索引] (2)查询元素的索引,格式为:list.index(元素),如果元素不存在,会报错 (3)查询某元素在列表中出现的次数

python数据分析学习(1)pandas一维工具Series讲解

隐身守侯 提交于 2020-02-20 00:20:04
目录 一:pandas数据结构介绍   python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷。它以NumPy为基础,并对于需要类似 for循环 的大量数据处理的问题有非常快捷的数组处理函数。   但是pandas最擅长的领域还是在处理表格型二维以上不同数据类型数据。   基本导入语法: import pandas as pd    pandas标记缺失值或NA值为NaN。   有关python语法,数据分析简介,ipython,jupyter notebook和Numpy在我的CSDN博客: 计科李昂CSDN 已经向大家讲解了。 一:pandas数据结构介绍 1.Series   Series是一种一维的数组型对象,它包含了一个值序列与数组标签索引。下面介绍有关的知识,代码是示例。   (1)生成Series对象 a = pd.Series() # 括号里传入索引对象   (2)获取值和索引 a.values # 获取值 a.index # 获取索引   (3)为序列创建索引序列 b = pd.Series([],index=[]) # 括号里传入索引对象和索引序列   (4)通过标签进行索引 c1['a'] # 普通索引 c2[[]] # 以序列标签进行索引   (5)使用NumPy的函数或NumPy风格操作 d

Pandas模块

心已入冬 提交于 2020-02-19 16:49:54
Pandas简介 pandas是用于对数据进行分析,其需要依赖numpy模块,所以需要首先安装numpy 安装:pip install pandas 导入:import pandas as pd 主要功能: 1、具备对其功能的数据结构DataFrame、Series(即两种对象,其实有更多) 2、集成时间序列功能 3、提供丰富的数学运算和操作 4、灵活处理缺失数据 Series对象 Series对象是一种类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成,好像是字典和列表的结合体 创建 方式一、pd.Series(列表或数组{,index=[列表]}) sr = pd.Series([1, 3, 5, 7, 9]) """ 0 1 1 3 2 5 3 7 4 9 """ sr = pd.Series([1, 3, 5, 7, 9], index=list('abcde')) """ a 1 b 3 c 5 d 7 e 9 dtype: int64 """ 方式二、pd.Series(字典) sr = pd.Series({'a': 1, 'b': 3, 'c': 5, 'd': 7, 'e': 9}) """ a 1 b 3 c 5 d 7 e 9 dtype: int64 """ 取对应下标或标签的值 sr = pd.Series({'a': 1, 'b': 3

(02)-Python3之--列表(list)操作

邮差的信 提交于 2020-02-19 13:42:48
1.定义 列表的关键字:list 列表以[]括起来,数据之间用 , 隔开。列表当中的数据,可以是任意类型。数值是可以重复的。 列表元素是 可变的,顺序是 有序的。 例如: b = ["萝卜", "jason", "1234", True] 2.列表的查询 取值: 读取列表中的数据时,索引默认从0开始,倒序是从-1开始。 语法:列表名称[索引] 例如: b = ["萝卜", "jason", "1234", True] print(b[1]) print(b[-2]) 结果: jason 1234 取索引: 获取列表元素的索引时,直接通过元素来获取索引值。 语法:列表名称.index(元素值) 例如: # 列表名称.index(元素值) b = ["萝卜", "jason", 1234, True] print(b.index("jason")) 结果: 1 3.列表的新增 列表的新增是从列表最后追加数据 。 语法: 列表变量名.append(数值) 例如: b = ["萝卜", "jason", "1234", True] b.append("小星星") print(b) 结果: ['萝卜', 'jason', '1234', True, '小星星'] 4.列表的修改 列表的修改需要指定修改的索引,即对列表元素的从新赋值。 语法:list[索引] = 新的值 例如: b = [

数据库理论知识

感情迁移 提交于 2020-02-19 05:02:59
数据库理论知识 1、oracle游标: oracle中游标分为隐式和显式两种游标 隐式游标:在对数据库进行增删改查的时候,plsql自动定义的 显示游标:需要自己定义,步骤分为:定义游标,开启游标,使用游标,关闭游标 2、数据库分页 oracle中是使用rownum来进行分页,mysql使用limit进行分页的 oracle分页的代码为:select *from (select rownum r,a from teb where rownum<=20) mysql分页的代码为:select * from teb limit 0 , 5; 3、oracle中where条件查询和排序 oracle中使用索引的条件和严格,只有满足一定条件才可以使用 1.不能有空值 2.order by中的列索引的顺序和排序必须一致 4、笔记truncate和delete命令 delete删除不能腾出表空间 truncate不能对视图等操作 5、游标的好处和缺点 好处: 1、增强了数据的灵活性 2、加快了执行速度 3、保证了数据的安全 缺点: 1、占用服务器端资源,对服务器造成很大的压力 2、可读性和可维护性较差 6、创建索引的优点和缺点 索引有四种类型:标准索引,唯一索引,组合索引,反向键索引 好处: 创建唯一索引,保证每一行数据的唯一性 加快了检索速度 加速表与表的连接 缺点: 索引只能在表上创建