HanLP

Window离线环境下如何安装pyhanlp

心不动则不痛 提交于 2019-11-29 02:08:22
Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下! HanLP是一款优秀的中文自然语言处理工具,可以实现包括分词、词性标注、实体识别在内容诸多功能,详情见其项目主页。另外,该工具包还提供了python3的接口,在线安装很方便,但有时需要部署在内网机等没有网络环境的机器上,比较繁琐,整理步骤如下: 1、安装jpype1,这是pyhanlp的依赖包,可以下载编译好的.whl文件,地址在这,选择对应自己python版本和操作系统版本的后,用pip install *.whl进行安装即可。 2、安装java环境,由于HanLP是用java开发的,因此调用python的接口时机器上应该配置了java环境,可以在网上搜索安装。 3、在pyhanlp的项目主页下载完整的.zip压缩包,解压后进入文件夹执行python setup.py install。 4、下载data-for-1.7.0.zip和hanlp-1.7.0.-release.zip,解压后分别获得data文件夹和hanlp.properties、hanlp-1.7.0.jar文件。 5、进入python包的安装目录,以Anaconda为例,进入该安装目录下的./lib/site-packages/pyhanlp-0.1.44-py3.6

NLP自然语言处理基础之hanlp入门

时间秒杀一切 提交于 2019-11-29 02:08:09
自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。 自然语言处理涉及的几个层次: 作为输入一共有两个来源,语音与文本。所以第一级是语音识别和OCR或分词(事实上,跳过分词虽然理所当然地不能做句法分析,但字符级也可以直接做不少应用)。接下来是形态学,援引《统计自然语言处理》中的定义:形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。 Hanlp自然语言处理开发包: 从事大数据方面工作的人对自然语言处理必然都是不陌生的,在Github上用户量最多的开源汉语自然语言处理工具是HanLP。HanLP的初始版本是在2014年初开发的,3月份的时候开始在Github上开源。2015年的时候集成在了大快搜索的DKNLP中

[NLP的那些坑] HanLP

戏子无情 提交于 2019-11-29 00:34:26
问题1. D:\Anaconda3\lib\site-packages\jpype\_core.py:210: UserWarning: D:\Java\jdk1.8\jre\bin\server\jvm.dll ------------------------------------------------------------------------------- Deprecated: convertStrings was not specified when starting the JVM. The default behavior in JPype will be False starting in JPype 0.8. The recommended setting for new code is convertStrings=False. The legacy value of True was assumed for this session. If you are a user of an application that reported this warning, please file a ticket with the developer. --------------------------------------------------------

Android环境下hanlp汉字转拼音功能的使用介绍

时光毁灭记忆、已成空白 提交于 2019-11-28 18:32:32
由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平台进行适配,于是对代码进行了一些修改,终于可以在Android手机上运行。修改后的工程已上传至github,如有需要,可以clone HanLP-Android代码后,导出jar文件使用。 ##使用说明: ###1、将生成的jar文件拷贝到app/libs目录下,将HanLP-Android工程下dictionary目录拷贝至Android项目app module的assets目录下 --------------------- 来源: oschina 链接: https://my.oschina.net/u/3793864/blog/3030708

自然语言处理之:搭建基于HanLP的开发环境(转)

∥☆過路亽.° 提交于 2019-11-27 18:14:22
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP 各个版本的下载:https://github.com/hankcs/HanLP/releases 完毕后有一个报错: 字符类型对应表加载失败: D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes 直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目录下新建一个txt文档将名称改为 CharType.dat.yes 即可。 相对比较简单。 尝试HanLP主要处于各个开源自然语言处理工具包之间的差异,寻找一个适合学习的开源工具包。 HanLP调用方法 HanLP几乎所有的功能都可以通过工具类HanLP快捷调用,当你想不起来调用方法时,只需键入HanLP.,IDE应当会给出提示,并展示HanLP完善的文档。所有Demo都位于com.hankcs.demo下,比文档覆盖了更多细节,更新更及时,强烈建议运行一遍。 HanLP的适用过程中注意的问题: 1、因为HanLP版本更新比较频繁,所以,jar源代码版本需要对应适用,否则源码和jar中接口调用对应不上。 在进行CRF分词过程中报错: Exception in

pyhanlp:hanlp的python接口

假如想象 提交于 2019-11-27 18:14:03
HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。 命令行 中文分词 使用命令hanlp segment进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果: $ hanlp segment 商品和服务 商品/n 和/cc 服务/vn 当下雨天地面积水分外严重 当/p 下雨天/n 地面/n 积水/n 分外/d 严重/a 龚学平等领导说,邓颖超生前杜绝超生 龚学平/nr 等/udeng 领导/n 说/v ,/w 邓颖超/nr 生前/t 杜绝/v 超生/vi 还可以重定向输入输出到文件等: $ hanlp segment <<< '欢迎新老师生前来就餐' 欢迎/v 新/a 老/a 师生/n 前来/vi 就餐/vi 依存句法分析 命令为hanlp parse,同样支持交互模式和重定向: 服务器 通过hanlp serve来启动内置的http服务器,默认本地访问地址为:http://localhost:8765 ;也可以访问官网演示页面:http://hanlp.hankcs.com/ 。 升级 通过hanlp update命令来将HanLP升级到最新版。该命令会获取HanLP主项目最新版本并自动下载安装。

自然语言处理工具python调用hanlp中文实体识别

。_饼干妹妹 提交于 2019-11-27 18:13:45
Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。 想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境 1.安装jpype1,在cmd窗口输入 pip install jpype1 2.下载hanlp的安装包 在https://github.com/hankcs/HanLP/releases (1)下载新的 hanlp-1.7.1-release.zip文件,里面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties (2)点击data-for-1.7.1.zip下载。(底下第8条) 注:如果你在http://hanlp.linrunsoft.com/services.html点击下载hanlp.jar,下载下来的是hanlp-1.2.8.jar。之后在使用过程中可能会出现“字符类型对应表加载失败”的错误,查看相应路径下也没有CharType.dat.yes文件。原因可能是hanlp-1.2.8版本过低,使用新版本应该不会出现这个问题。 3.新建一个文件夹Hanlp,放文件hanlp-1.7.1

HanLP-朴素贝叶斯分类预测缺陷

[亡魂溺海] 提交于 2019-11-27 03:59:47
文章整理自 baiziyu 的知乎专栏, 感兴趣的朋友可以去关注下这位大神的专栏,很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于 朴素贝叶斯分类预测的文章,整理了一下分享给给大家,文章已做部分修改! 朴素贝叶斯分类时,最好取对数变相乘为相加,防止预测结果溢出。可能出现的badcase就是明明训练语料X类目下没有词语t,而系统就将文本预测为X类目。解决方法就时改相乘为取对数相加。HanLP的朴素贝叶斯分类计算没有用对数相加的方法,而是直接用的概率相乘,很有可能溢出。 对上述内容做一些更正 ,HanLP的朴素贝叶斯是按照概率取对数相加做的。 看一下下边的代码 @Override public double[] categorize(Document document) throws IllegalArgumentException, IllegalStateException { Integer category; Integer feature; Integer occurrences; Double logprob; double[] predictionScores = new double[model.catalog.length]; for (Map.Entry<Integer, Double> entry1 : model.logPriors

HanLP vs LTP 分词功能测试

左心房为你撑大大i 提交于 2019-11-27 00:44:05
文章摘自 github, 本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取 1998年01月的人民日报语料库。199801人民日报语料 该词库带有词性标注,为了遵循 LTP的训练数据集格式,需要处理掉词性标注。 测试数据选择 SIGHan2005提供的开放测试集。 SIGHan2005的使用可以参见其附带的readme。 HanLP java -cp libs/hanlp-1.6.0.jar com.hankcs.hanlp.model.perceptron.Main -task CWS -train -reference ../OpenCorpus/pku98/199801.txt -model cws.bin mkdir -p data/model/perceptron/pku199801 mv -f cws.bin data/model/perceptron/pku199801/cws.bin 默认情况下,训练的迭代次数为 5。 修改 src/main/resouces 文件: root=../test-hanlp-ltp 打包命令: gradle clean build ​ SIGHan2005的MSR测试集 执行命令: java -cp build/libs/test

重磅!大快搜索入围2018中国大数据公司排名50强企业

一曲冷凌霜 提交于 2019-11-26 20:34:08
重磅|大快搜索上榜2018中国大数据企业50强 ——斩获“2018中国大数据产业生态大会”多项大奖,成年度最大黑马 近日,由工信部中国电子信息产业发展研究院主办,中国大数据产业生态联盟承办的2018(第三届)中国大数据产业生态大会在北京盛大召开,工信部党组成员、总工程师张锋、工信部原副部长、北京大学教授杨学山等中央及地方主管领导、行业专家、企业领袖、知名投资人近千人汇聚一堂,深入探讨深挖数据智能、助推数字经济发展的有效路径。青岛大数据企业大快搜索受邀出席,并斩获多项大奖。 入选“2018中国大数据企业50强” 2018中国大数据企业50强”从企业规模(15%)、研发投入(15%)、创新能力(20%)、应用案例(20%)、产品及方案成熟度(15%)、投资及发展潜力(15%)等不同维度设置评价指标体系。同时,结合《2018中国大数据产业生态地图暨中国大数据产业发展白皮书》的调研工作,经过由政府主管部门的相关领导、大数据产业资深专家、行业知名用户CIO、行业媒体总编以及第三方测评机构专家组成的专家评审组的严格评审,由最初的初步筛选,到近1000家企业成功入围,到200家优秀企业进入专家评审,最终评审出“2018中国大数据企业50强”。大快搜索凭借在大数据、人工智能、自然语言处理等领域的卓越能力和发展潜力入选“2018中国大数据企业50强”。  大快搜索跻身“2018中国大数据50强”