分词

业务领域建模Domain Modeling

邮差的信 提交于 2019-12-05 09:03:32
我的工程实践是《基于情感词典的文本情感分析》,下面以我的工程实践为例,进行业务建模。 1)Collect application domain information – focus on the functional requirements – also consider other requirements and documents 本项目致力于构建一个基于情感词典的文本情感分析系统,针对电商评论能够很好的提取出文本的情感词、情感值以及主题词(产品特征),使用户能够处理手头的大量评论数据集,得出商品的特征和缺陷,以期望通过评论数据来分析商品的不足与优势。 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other 获取数据集。 本项目所针对的目标是京东电子商品评论,获取数据集的主要方式有通过网络爬虫技术进行获取、下载公开的数据集或者利用开源的API进行获取。 文本预处理。 包括对文本重复值的去除、缺失值的填充、分词、去除停用词以及词频统计和词性标注。并且进行特征提取,包括文本向量化和TF-IDF值的计算。 构建领域情感词典。

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

生来就可爱ヽ(ⅴ<●) 提交于 2019-12-05 08:39:07
Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器 1、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。 2、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。 3、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压得到。 4、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。 可以看到solr.data.dir指向刚才见的home文件夹中的data文件夹。我们需要在home文件夹中创建一个文件夹命名为data用于存放索引。 5、为Tomcat的Server.xml配置Context,也就是在需要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置如下: 图中画荧光背景的固定写法。 6、启动Tomcat Solr4.3会报一个错误。如图: 报不能找到SLF4j logging,可以到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中, 然后重启Tomcat。 7、访问 h tt p://localhost:8080/solr

业务领域建模Domain Modeling

最后都变了- 提交于 2019-12-05 06:10:17
我的工程实践题目是基于情感词典的文本情感分析,下面是以我的工程实践为例,业务领域建模 ♦ 1) Collect application domain information – focus on the functional requirements – also consider other requirements and documents 1)收集应用领域信息 –关注功能要求–还考虑其他需求和文件    为了挖掘商品评论中有价值的信息, 有效分析用户对商品的直接反馈, 文章基 于通用的情感词典, 以国内某电商平台上的商品评论为研究对象, 根据词频共现方法拓展 情感词典, 基于构建的情感词典对评论进行情感极性分析 。 根据分析结果, 不仅能够帮助 商家优化商品属性, 更好地满足消费者的需求, 还可以指导用户制定合理的购买决策 。 ♦ 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other ♦2)头脑风暴 –列出重要的应用程序域概念–列出它们的属性/属性–列出它们之间的关系   a) 获取数据集。本项目所针对的目标是京东电子商品评论

Nutch+solr+mmseg4j集成

◇◆丶佛笑我妖孽 提交于 2019-12-05 04:40:36
第一章 安装配置 solr4.2 # 下载 solr4.2.0 版本 [root@nutch nutch2]# wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz # 解压 solr4.2.0 文件 [root@nutch nutch2]# tar -xzvf solr-4.2.0.tgz # 把 nutch/conf/schema.xml 复制到 solr/collection1/conf 在 solr4.2.0 版本中,我们需要把 nutch 的 schema-solr4.xml 文件复制到 collection1 下的 conf 目录内,指定为 schema.xml [root@nutch nutch2]# cp /home/nutch2/release-1.6/runtime/local/conf/schema-solr4.xml /home/nutch2/solr-4.2.0/example/solr/collection1/conf/schema.xml # 启动 solr 服务器 [root@nutch example]# java -jar start.jar & 启动之后报错: _version_ does not exist Unable to use updateLog:

Solr5之Schema详解

只愿长相守 提交于 2019-12-05 02:33:17
schema.xml 是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即 Norms ,是否存储项向量等等。 schema.xml 配置文件的根元素就是 schema, 有个 name 属性, name 属性值可以随便配,根元素没什么好说的, schema 元素下主要有两个标签元素即 field 和 fieldType,field 表示域,用来定义域, fieldType 用来定义域类型。 field 元素有很多属性可以配置,我一一做个解释: name: 表示域的名称,是强制必须有的属性 type: 域类型的名称,与 fieldType 元素的 name 属性值对应,也是强制必须有的属性,不可省略 indexed: true 即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时,则需要配置为 true, 默认值为 false stored: 表示是否需要把域值存储到硬盘上,方便你后续查询时能再次提取出来原样显示给用户 docValues: 表示此域是否需要添加一个 docValues 域,这对 facet 查询, group 分组,排序, function 查询有好处,尽管这个属性不是必须的,但他能加快索引数据加载,对 NRT 近实时搜索比较友好,且更节省内存,但它也有一些限制,比如当前 docValues 域只支持

solr的schema.xml学习

拥有回忆 提交于 2019-12-05 02:15:05
此文转载自益达的博客: http://iamyida.iteye.com/blog/2213354 schema.xml是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即Norms,是否存储项向量等等。 schema.xml配置文件的根元素就是schema,有个name属性,name属性值可以随便配,根元素没什么好说的,schema元素下主要有两个标签元素即 field 和 fieldType ,field表示域,用来定义域,fieldType用来定义域类型。 1.1. field 元素有很多属性 name: 表示域的名称,是强制必须有的属性 type: 域类型的名称,与fieldType元素的name属性值对应,也是强制必须有的属性,不可省 required: 表示这个域是否是必须要在document中存在,默认值为false,如果此配置项设为true,则你的document中必须要添加此域,否则你创建索引时会抛异常,例如:Document is missing mandatory field:xxx之类的异常,由于lucene的索引结构是扁平化的,所以一般除了id主键域你可以设置为唯一域,其他域required建议保持默认值false即可 indexed: true即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时

自然语言学习01

梦想与她 提交于 2019-12-04 21:05:46
按照中文语料处理的过程,在获取到语料之后开始分词,分词之后可以进行一些统计和关键字提取,并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量,把文本数据转换成计算机可以计算的矩阵向量。后续从机器学习简单的有监督分类和无监督聚类入手,到深度学习中神经网络的应用,以及简易聊天机器人和知识图谱的构建。 结构化数据、半结构化和非结构化数据 对于结构化数据而言:关系型数据库以及基于 Hadoop 的 HDFS 分布式文件系统、Hive 数据仓库和非关系型数据库 Hbase,以及 Elasticsearch 集群等数据存储的关系数据库或者 NoSQL,可以用来管理和存储数据。基于 MapReduce、Spark 和 Storm、Flink 等大数据处理框架可以分别处理离线和实时数据等。 半结构化、非结构化的数据:除了以 ELK 为代表的日志处理流程,过去在其它限定领域基于规则和知识库也取得了一定的成果 图灵测试 自然语言处理(NLP)的研究对象是计算机和人类语言的交互,其任务是理解人类语言并将其转换为机器语言。在目前的商业场中,NLP 技术用于分析源自邮件、音频、文件、网页、论坛、社交媒体中的大量半结构化和非结构化数据、 获取语料 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代

利用中文维基语料和Gensim训练 Word2Vec 的步骤

。_饼干妹妹 提交于 2019-12-04 21:04:25
word2vec 包括CBOW 和 Skip-gram,它的相关原理网上很多,这里就不多说了。简单来说,word2vec是自然语言中的字词转为计算机可以理解的稠密向量,是one-hot词汇表的降维表示,代表每个词的特征以及保持住了词汇间的关系。此处记录将中文词汇转为词向量的过程。 1. 下载中文语料 中文的语料可以从维基百科下载,这些语料库经常会更新,但都很全面。中文语料下载地址:( https://dumps.wikimedia.org/zhwikisource/20180620/ )。因为我只是想熟悉这个过程,就只下了一个比较小的包,只有两百多兆。 2. 解析语料包 从维基百科下载到的语料包是无法直接使用的,好在有人帮我们解决了这个问题。利用WikiExtractor抽取步骤1下载得到的语料原始包。WikiExtractor下载地址:( https://github.com/attardi/wikiextractor )。 打开cmd,输入以下命令解析维基语料,当然首先要把路径切换到你保存预料包和WikiExtractor的路径: python WikiExtractor.py -b 400M -o extracted zhwiki-latest-pages-articles.xml.bz2 400M 代表提取出来的单个文件最大为 400M,这时会产生目录extracted

python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

允我心安 提交于 2019-12-04 20:59:02
分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较) . 一、jieba分词功能 来源github: https://github.com/fxsjy/jieba 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 . 2、算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 . 3、主要功能 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 1 2 jieba.cut_for_search 方法接受两个参数