分词 | 易学教程

elatic-分词器插件

阅读更多关于 elatic-分词器插件

分词器： https://www.cnblogs.com/cjsblog/p/10171695.html 来源： https://www.cnblogs.com/lshan/p/11938276.html

我的工程实践是《基于情感词典的文本情感分析》，下面以我的工程实践为例，进行业务建模。 1）Collect application domain information – focus on the functional requirements – also consider other requirements and documents 本项目致力于构建一个基于情感词典的文本情感分析系统，针对电商评论能够很好的提取出文本的情感词、情感值以及主题词（产品特征），使用户能够处理手头的大量评论数据集，得出商品的特征和缺陷，以期望通过评论数据来分析商品的不足与优势。 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other 获取数据集。本项目所针对的目标是京东电子商品评论，获取数据集的主要方式有通过网络爬虫技术进行获取、下载公开的数据集或者利用开源的API进行获取。文本预处理。包括对文本重复值的去除、缺失值的填充、分词、去除停用词以及词频统计和词性标注。并且进行特征提取，包括文本向量化和TF-IDF值的计算。构建领域情感词典。

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

阅读更多关于 Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器 1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。 2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。 3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。 4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。 5、为Tomcat的Server.xml配置Context，也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点，配置如下：图中画荧光背景的固定写法。 6、启动Tomcat Solr4.3会报一个错误。如图：报不能找到SLF4j logging，可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中，然后重启Tomcat。 7、访问 h tt p://localhost:8080/solr

业务领域建模Domain Modeling

阅读更多关于业务领域建模Domain Modeling

我的工程实践题目是基于情感词典的文本情感分析，下面是以我的工程实践为例，业务领域建模 ♦ 1) Collect application domain information – focus on the functional requirements – also consider other requirements and documents 1）收集应用领域信息 –关注功能要求–还考虑其他需求和文件　　为了挖掘商品评论中有价值的信息，有效分析用户对商品的直接反馈，文章基于通用的情感词典，以国内某电商平台上的商品评论为研究对象，根据词频共现方法拓展情感词典，基于构建的情感词典对评论进行情感极性分析。根据分析结果，不仅能够帮助商家优化商品属性，更好地满足消费者的需求，还可以指导用户制定合理的购买决策。 ♦ 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other ♦2）头脑风暴 –列出重要的应用程序域概念–列出它们的属性/属性–列出它们之间的关系　　a) 获取数据集。本项目所针对的目标是京东电子商品评论

Nutch+solr+mmseg4j集成

阅读更多关于 Nutch+solr+mmseg4j集成

第一章安装配置 solr4.2 # 下载 solr4.2.0 版本 [root@nutch nutch2]# wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz # 解压 solr4.2.0 文件 [root@nutch nutch2]# tar -xzvf solr-4.2.0.tgz # 把 nutch/conf/schema.xml 复制到 solr/collection1/conf 在 solr4.2.0 版本中，我们需要把 nutch 的 schema-solr4.xml 文件复制到 collection1 下的 conf 目录内，指定为 schema.xml [root@nutch nutch2]# cp /home/nutch2/release-1.6/runtime/local/conf/schema-solr4.xml /home/nutch2/solr-4.2.0/example/solr/collection1/conf/schema.xml # 启动 solr 服务器 [root@nutch example]# java -jar start.jar & 启动之后报错： _version_ does not exist Unable to use updateLog:

Solr5之Schema详解

阅读更多关于 Solr5之Schema详解

schema.xml 是用来定义索引数据中的域的，包括域名称，域类型，域是否索引，是否分词，是否存储，是否标准化即 Norms ，是否存储项向量等等。 schema.xml 配置文件的根元素就是 schema, 有个 name 属性， name 属性值可以随便配，根元素没什么好说的， schema 元素下主要有两个标签元素即 field 和 fieldType,field 表示域，用来定义域， fieldType 用来定义域类型。 field 元素有很多属性可以配置，我一一做个解释： name: 表示域的名称，是强制必须有的属性 type: 域类型的名称，与 fieldType 元素的 name 属性值对应，也是强制必须有的属性，不可省略 indexed: true 即表示需要对该域进行索引，一般如果你需要在该域上进行查询或排序时，则需要配置为 true, 默认值为 false stored: 表示是否需要把域值存储到硬盘上，方便你后续查询时能再次提取出来原样显示给用户 docValues: 表示此域是否需要添加一个 docValues 域，这对 facet 查询， group 分组，排序， function 查询有好处，尽管这个属性不是必须的，但他能加快索引数据加载，对 NRT 近实时搜索比较友好，且更节省内存，但它也有一些限制，比如当前 docValues 域只支持

solr的schema.xml学习

阅读更多关于 solr的schema.xml学习

此文转载自益达的博客： http://iamyida.iteye.com/blog/2213354 schema.xml是用来定义索引数据中的域的，包括域名称，域类型，域是否索引，是否分词，是否存储，是否标准化即Norms，是否存储项向量等等。 schema.xml配置文件的根元素就是schema,有个name属性，name属性值可以随便配，根元素没什么好说的，schema元素下主要有两个标签元素即 field 和 fieldType ,field表示域，用来定义域，fieldType用来定义域类型。 1.1. field 元素有很多属性 name: 表示域的名称，是强制必须有的属性 type: 域类型的名称，与fieldType元素的name属性值对应，也是强制必须有的属性，不可省 required: 表示这个域是否是必须要在document中存在，默认值为false,如果此配置项设为true,则你的document中必须要添加此域，否则你创建索引时会抛异常，例如：Document is missing mandatory field:xxx之类的异常，由于lucene的索引结构是扁平化的，所以一般除了id主键域你可以设置为唯一域，其他域required建议保持默认值false即可 indexed: true即表示需要对该域进行索引，一般如果你需要在该域上进行查询或排序时

自然语言学习01

阅读更多关于自然语言学习01

按照中文语料处理的过程，在获取到语料之后开始分词，分词之后可以进行一些统计和关键字提取，并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量，把文本数据转换成计算机可以计算的矩阵向量。后续从机器学习简单的有监督分类和无监督聚类入手，到深度学习中神经网络的应用，以及简易聊天机器人和知识图谱的构建。结构化数据、半结构化和非结构化数据对于结构化数据而言:关系型数据库以及基于 Hadoop 的 HDFS 分布式文件系统、Hive 数据仓库和非关系型数据库 Hbase，以及 Elasticsearch 集群等数据存储的关系数据库或者 NoSQL，可以用来管理和存储数据。基于 MapReduce、Spark 和 Storm、Flink 等大数据处理框架可以分别处理离线和实时数据等。半结构化、非结构化的数据：除了以 ELK 为代表的日志处理流程，过去在其它限定领域基于规则和知识库也取得了一定的成果图灵测试自然语言处理（NLP）的研究对象是计算机和人类语言的交互，其任务是理解人类语言并将其转换为机器语言。在目前的商业场中，NLP 技术用于分析源自邮件、音频、文件、网页、论坛、社交媒体中的大量半结构化和非结构化数据、获取语料语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代

利用中文维基语料和Gensim训练 Word2Vec 的步骤

阅读更多关于利用中文维基语料和Gensim训练 Word2Vec 的步骤

word2vec 包括CBOW 和 Skip-gram，它的相关原理网上很多，这里就不多说了。简单来说，word2vec是自然语言中的字词转为计算机可以理解的稠密向量，是one-hot词汇表的降维表示，代表每个词的特征以及保持住了词汇间的关系。此处记录将中文词汇转为词向量的过程。 1. 下载中文语料中文的语料可以从维基百科下载，这些语料库经常会更新，但都很全面。中文语料下载地址：（ https://dumps.wikimedia.org/zhwikisource/20180620/ ）。因为我只是想熟悉这个过程，就只下了一个比较小的包，只有两百多兆。 2. 解析语料包从维基百科下载到的语料包是无法直接使用的，好在有人帮我们解决了这个问题。利用WikiExtractor抽取步骤1下载得到的语料原始包。WikiExtractor下载地址：（ https://github.com/attardi/wikiextractor ）。打开cmd，输入以下命令解析维基语料，当然首先要把路径切换到你保存预料包和WikiExtractor的路径： python WikiExtractor.py -b 400M -o extracted zhwiki-latest-pages-articles.xml.bz2 400M 代表提取出来的单个文件最大为 400M，这时会产生目录extracted

python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

阅读更多关于 python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

分词这块之前一直用R在做，R中由两个jiebaR+Rwordseg来进行分词，来看看python里面的jieba. 之前相关的文章： R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法（与word2vec简单比较） . 一、jieba分词功能来源github： https://github.com/fxsjy/jieba 1、主要模式支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 . 2、算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法 . 3、主要功能 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 1 2 jieba.cut_for_search 方法接受两个参数

订阅分词