天安门 | 易学教程

Python---序列常见方法

阅读更多关于 Python---序列常见方法

Python中，序列是最基本的数据结构，是一块用来存放多个值得连续的内存空间。Python中常用的5个序列分别是列表、元组、集合、字典和字符串。序列常见操作有以下几种：相加、相乘、切片、索引、计算序列长度、检查某个元素是否是序列的成员其中，集合和字典不支持索引、切片、相加和相乘操作。索引序列中每个元素都有一个编号，这个编号就是索引，通过索引可以访问序列中的任意元素。 var = [ "我" , "爱" , "北京" , "天安门" ] print ( var [ 1 ] ) print ( var [ - 1 ] ) 结果输出如下：爱天安门值得注意的是，当索引为负数时，从-1开始，而不是0。所以var[-1]输出的不是北京而是天安门。 2. 切片索引只能访问序列中的某个元素，当需要访问序列中一定范围的元素时，可以使用切片。例如上面代码，要输出我爱北京 var = [ "我" , "爱" , "北京" , "天安门" ] # 获取第一个到第三个元素 print ( var [ 0 : 2 : 1 ] ) # 0是初始位置，2是结束位置，1是步长序列相加 Python中，两种相同的序列可以相加。 var1 = [ "我" , "爱" , "北京" , "天安门" ] var2 = [ "我" , "爱" , "中国" ] print ( var1 + var2 )

Elasticsearch：IK中文分词器

阅读更多关于 Elasticsearch：IK中文分词器

Elasticsearch内置的分词器对中文不友好，只会一个字一个字的分，无法形成词语，比如： POST /_analyze { "text": "我爱北京天安门", "analyzer": "standard" } 如果我们使用的是standard的分词器，那么结果就是： { "tokens" : [ { "token" : "我", "start_offset" : 0, "end_offset" : 1, "type" : "<IDEOGRAPHIC>", "position" : 0 }, { "token" : "爱", "start_offset" : 1, "end_offset" : 2, "type" : "<IDEOGRAPHIC>", "position" : 1 }, ... { "token" : "门", "start_offset" : 6, "end_offset" : 7, "type" : "<IDEOGRAPHIC>", "position" : 6 } ] } 显然这对中文来说并不友好，它显示的每一个汉字。好在Elastic的大拿medcl已经为我们做好IK中文分词器。下面我们来详细介绍如何安装并使用中文分词器。具体的安装步骤可以在地址 https://github.com/medcl/elasticsearch-analysis-ik 找到

Elasticsearch：IK中文分词器

阅读更多关于 Elasticsearch：IK中文分词器