HanLP

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

给你一囗甜甜゛ 提交于 2020-11-13 03:23:54
笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上, 词性 (Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。 我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a 每个单词的后边跟的就是词性标签: 词性标签 词性 r 代词 u 动词 n 名词 v 动词 nr 人名 p 介词 a 形容词 词性的用处 词性的作用是提供词语的抽象表示,词的数量是无穷的,但词性的数量是有限的。词性支撑着许多高级应用,当下游应用遇到 OOV 时,可以通过 OOV 的词性猜测用法,比如上面的句子“林晚霞”就识别为人名进行处理,而不会拆开。 词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等。 词性标注 词性标注 指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点: 汉语中一个单词多个词性的现象很常见,但在具体语境下一定是唯一词性。 OOV 是任何自然语言处理任务的难题。

【NLP】pyhanlp flask

懵懂的女人 提交于 2020-11-11 07:56:50
D:\ProgramData\Anaconda3\Lib\site-packages\pyhanlp\__init__.py 加入 WordVectorModel = LazyLoadingJClass('com.hankcs.hanlp.mining.word2vec.WordVectorModel') # coding=utf-8 from flask import Flask from flask import request from flask import jsonify from flask import make_response,Response from flask_cors import CORS from pyhanlp import * port = 9999 app = Flask(__name__) CORS(app, supports_credentials=True) @app.route('/') def index(): str = "Hello, AI Server!" print(str) return str # 成功请求 def successResp(data): return jsonify(code=0, message="success", data=data) # 错误请求 def errorResp(msg): return

pyhanlp文本分类与情感分析

旧巷老猫 提交于 2020-11-11 07:28:18
语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。 用 Map描述 这种关系可以用Java的Map<String, String[]>来描述,其key代表类目,value代表该类目下的所有文档。用户可以利用自己的文本读取模块构造一个Map<String, String[]>形式的中间语料库,然后利用IDataSet#add(java.util.Map<java.lang.String,java.lang.String[]>)接口将其加入到训练语料库中。 用文件夹描述 这种树形结构也很适合用文件夹描述,即: /** * 加载数据集 * * @param folderPath 分类语料的根目录.目录必须满足如下结构:<br> * 根目录<br> * ├── 分类A<br> * │ └── 1.txt<br> * │ └── 2.txt<br> * │ └── 3.txt<br> * ├── 分类B<br> * │ └── 1.txt<br> * │ └── ...<br> * └── ...<br> * 文件不一定需要用数字命名,也不需要以txt作为后缀名,但一定需要是文本文件. * @param

5月份Github上最热门的Python开源项目

笑着哭i 提交于 2020-10-15 04:33:19
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 开源最前线(ID:OpenSourceTop) 猿妹整编 5月份GitHub上最热门的Python 开源项目排行已经出炉啦, 一起来看看上榜详情吧: 1 manim https://github.com/3b1b/manim Star 19308 manim是3Blue1Brown(3b1b)频道主Grant Sanderson编写的一个基于Python的数学动画引擎,Windows、Mac OS、Linux等操作系统下均可运行。用它制作出来的视频简洁美观。 2 HanLP https://github.com/hankcs/HanLP Star 18651 面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 3 dispatch https://github.com/Netflix/dispatch Star 1903 Dispatch通过与整个组织中使用的现有工具(Slack,GSuite,Jira等)进行深度集成来帮助我们有效地管理安全事件。 4 GitHub-Chinese-Top-Charts

Linux 环境部署|Anaconda及Tensorflow

不羁的心 提交于 2020-08-19 13:50:48
Linux 环境部署|Anaconda及Tensorflow Linux系统python虚拟环境及HanLP部署( https://duanzhihua.blog.csdn.net/article/details/105046407 ) Anaconda部署 Tensorflow部署 Anaconda官网链接( https://www.anaconda.com/products/individual )Linux下载地址 https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh 将文件Anaconda3-2020.02-Linux-x86_64.sh下载到本地,然后上传到Linux服务器。 或者直接从Linux服务器下载。 [centos@host33 anaconda]$ sudo wget https://repo.anaconda.com/ 来源: oschina 链接: https://my.oschina.net/u/4283640/blog/4285893

Linux python3虚拟环境部署Hanlp

情到浓时终转凉″ 提交于 2020-08-08 17:57:33
Linux python3原生虚拟环境部署Hanlp 目录 Linux Anaconda 环境 hanlp JVM 及libstdc++.so.6部署小技巧 Linux Anaconda 环境 Python 及Sudo Python 导包小技巧 Linux+Docker 环境 +Tensorlfow 部署探索 Linux Anaconda环境 部署Tensorflow Linux virtualenv环境 python及HanLP部署 Linux python3 原生虚拟环境部署Hanlp python3 新建虚拟环境 进入python3 虚拟环境 安装hanlp 安装python36-devel开发包 来源: oschina 链接: https://my.oschina.net/u/4374048/blog/4321226

依存句法分析总结

杀马特。学长 韩版系。学妹 提交于 2020-04-29 15:52:13
1. 基本概念 依存句法分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系,揭示其句法结构。直观来讲,就是分析句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分的关系。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的基础,另外一方面,句法分析也为其他自然语言处理任务提供支持。比如:句法驱动的统计机器翻译需要对源语言或目标语言进行句法分析。 1.1 谓词 依存句法认为“谓词”中的动词是一个句子的核心,其他成分与动词直接或者间接的产生联系。 1.2 依存理论 依存理论中,“依存”指的是词与词之间处于支配与被支配的关系,这种关系具有方向性。处于支配地位的词称之为支配者(head),处于被支配地位的成分称之为从属者(dependency)。 依存语法存在一个基本假设,句法分析核心是词与词的依存关系,一个依存关系连接两个词:head和dependency。依存关系可以细分为不同类型,表示具体的两个词的依存关系。 1.3 依存关系 关系类型 Tag Description Example 主谓关系 SBV subject-verb 我送她一束花 (我 <– 送) 动宾关系 VOB 直接宾语,verb-object 我送她一束花 (送 –> 花) 间宾关系 IOB 间接宾语,indirect-object 我送她一束花 (送 –> 她

pyhanlp 两种依存句法分类器

让人想犯罪 __ 提交于 2020-04-26 04:43:48
依存句法分析器 在HanLP中一共有两种句法分析器 ·依存句法分析 (1)基于神经网络的高性能依存句法分析器 (2)MaxEnt依存句法分析 基于神经网络的高性能依存句法分析器 HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这里还有一个发在了Github的实现程序,其实现语言为Python。除此之外,你还可以参考ljj123zz 的CSDN 一篇博客:blog.csdn.net/ljj123zz/article/details/78834838 HanLP作者的原文介绍已经写得比较清楚,唯一要注意的是原文章中介绍的依存句法分析器为早期版本,输出的依存关系为英文,现在应该变为中文,而且从测试结果看,训练语料应该已经更新了,但是更新为了那个语料现在还不会是很清楚。 (hanlp开源项目负责人hankcs) 基于最大熵的依存句法分析器 经过测试这个句法分析器为真的很坑,绝对不建议使用,测试代码见最后,作者原文介绍请点击击www.hankcs.com/nlp/parsing/to-achieve-the-maximum-entropy-of-the-dependency-parser.html 下面是使用的例子

Python分词工具——pyhanlp

江枫思渺然 提交于 2020-04-24 14:08:12
本文为本人学习pyhanlp的笔记,大多知识点来源于GitHub https://github.com/hankcs/HanLP/blob/master/README.md ,文中的demo代码来源于该GitHub主 what's the pyhanlp     pyhanlp是HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 安装时可能遇到的问题: 报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual   解决方法:手动下载,下载链接: https://pan.baidu.com/s/1WaBxFghTll6Zofz1DGOZBg    报错:jpype._jvmfinder.JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.   解决方法:HanLP主项目采用Java开发,所以需要Java运行环境,请安装 JDK 。需要保证JDK位数、操作系统位数和Python位数一致

HanLP分词命名实体提取详解

拥有回忆 提交于 2020-04-18 02:37:35
HanLP分词命名实体提取 详解 分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升! 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。 文本预处理 1、文本清洗 目前,大部分招中标项目信息都是发布在各个网站上,所以我们获取的主要是网络文本。网页中存在很多与文本内容无关的信息,比如广告,导航栏,html、js代码,注释等等。文本清洗,就是通过正则匹配去掉这些干扰信息,抽取出干净的文本内容。 2、中文分词 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。一篇文本中不是所有词都很重要,我们只需找出起到关键作用、决定文本主要内容的词进行分析即可。目前几大主流的分词技术可移步到这篇博客中:中文分词技术小结