天安门

Python---序列常见方法

我的梦境 提交于 2019-12-15 04:55:01
Python中,序列是最基本的数据结构,是一块用来存放多个值得连续的内存空间。Python中常用的5个序列分别是列表、元组、集合、字典和字符串。序列常见操作有以下几种: 相加、相乘、切片、索引、计算序列长度、检查某个元素是否是序列的成员 其中,集合和字典不支持索引、切片、相加和相乘操作。 索引 序列中每个元素都有一个编号,这个编号就是索引,通过索引可以访问序列中的任意元素。 var = [ "我" , "爱" , "北京" , "天安门" ] print ( var [ 1 ] ) print ( var [ - 1 ] ) 结果输出如下: 爱 天安门 值得注意的是,当索引为负数时,从-1开始,而不是0。所以var[-1]输出的不是北京而是天安门。 2. 切片 索引只能访问序列中的某个元素,当需要访问序列中一定范围的元素时,可以使用切片。例如上面代码,要输出我爱北京 var = [ "我" , "爱" , "北京" , "天安门" ] # 获取第一个到第三个元素 print ( var [ 0 : 2 : 1 ] ) # 0是初始位置,2是结束位置,1是步长 序列相加 Python中,两种 相同的序列 可以相加。 var1 = [ "我" , "爱" , "北京" , "天安门" ] var2 = [ "我" , "爱" , "中国" ] print ( var1 + var2 )

Elasticsearch:IK中文分词器

∥☆過路亽.° 提交于 2019-12-02 14:34:36
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门", "analyzer": "standard" } 如果我们使用的是standard的分词器,那么结果就是: { "tokens" : [ { "token" : "我", "start_offset" : 0, "end_offset" : 1, "type" : "<IDEOGRAPHIC>", "position" : 0 }, { "token" : "爱", "start_offset" : 1, "end_offset" : 2, "type" : "<IDEOGRAPHIC>", "position" : 1 }, ... { "token" : "门", "start_offset" : 6, "end_offset" : 7, "type" : "<IDEOGRAPHIC>", "position" : 6 } ] } 显然这对中文来说并不友好,它显示的每一个汉字。好在Elastic的大拿medcl已经为我们做好IK中文分词器。下面我们来详细介绍如何安装并使用中文分词器。具体的安装步骤可以在地址 https://github.com/medcl/elasticsearch-analysis-ik 找到

Elasticsearch:IK中文分词器

我是研究僧i 提交于 2019-11-27 02:54:47
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门", "analyzer": "standard" } 如果我们使用的是standard的分词器,那么结果就是: { "tokens" : [ { "token" : "我", "start_offset" : 0, "end_offset" : 1, "type" : "<IDEOGRAPHIC>", "position" : 0 }, { "token" : "爱", "start_offset" : 1, "end_offset" : 2, "type" : "<IDEOGRAPHIC>", "position" : 1 }, ... { "token" : "门", "start_offset" : 6, "end_offset" : 7, "type" : "<IDEOGRAPHIC>", "position" : 6 } ] } 显然这对中文来说并不友好,它显示的每一个汉字。好在Elastic的大拿medcl已经为我们做好IK中文分词器。下面我们来详细介绍如何安装并使用中文分词器。具体的安装步骤可以在地址 https://github.com/medcl/elasticsearch-analysis-ik 找到