crf

pyhanlp 分词与词性标注

对着背影说爱祢 提交于 2019-11-29 18:54:11
pyhanlp中的分词器简介 pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式 第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器 维特比 (viterbi):效率和效果的最佳平衡。也是最短路分词,HanLP最短路求解采用Viterbi算法 双数组trie树 (dat):极速词典分词,千万字符每秒(可能无法获取词性,此处取决于你的词典) 条件随机场 (crf):分词、词性标注与命名实体识别精度都较高,适合要求较高的NLP任务 感知机 (perceptron):分词、词性标注与命名实体识别,支持在线学习 N最短路 (nshort):命名实体识别稍微好一些,牺牲了速度 第二种方式是使用JClass直接获取java类,然后使用。这种方式除了获取上面的五种分词器以外还可以获得一些其他分词器,如NLP分词器,索引分词,快速词典分词等等 两种使用方式的对比 第一种是使用作者给的HanLP直接获取分词器,直接segment() 会获取 默认的标准分词器也就是维特比分词器,也**可以使用newSegment函数,传入上面的分词器英文名称来获取新的分词器,如使用 HanLP.newSegment("crf") 来获取CRF分词器。**第二种方式是使用JClass从java中获取我们想要的类

百度PaddlePaddle:

[亡魂溺海] 提交于 2019-11-29 03:50:19
百度正式发布PaddlePaddle深度强化学习框架PARL 近日,百度 PaddlePaddle 正式发布了深度强化学习框架 PARL,同时开源了基于该框架的、在 NeurIPS 2018 强化学习赛事中夺冠的模型完整训练代码。 项目地址如下:https://github.com/PaddlePaddle/PARL PARL 框架的名字来源于 PA ddlepaddle R einfocement L earning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比,具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速 对工业级应用案例的验证。 为了帮助用户快速搭建可以和环境交互的机器人,PARL 抽象出数个基础类,包括 Model、Algorithm、Agent 等。 Model 类负责强化学习算法中的网络前向计算(forward)部分,通常嵌套在 Algorithm 类中。 Algorithm 类则定义了网络的更新机制(backward),通常属于一个 Agent。 Agent 类负责和环境进行交互,负责数据 I/O,并且收集数据训练集下的 algorithm。 通过这样的设计方案,PARL 保证了算法的可扩展性:针对同一个场景,用户想调研不同的网络结构对算法效果影响的时候,比如调研 RNN

python中CRFPP的安装方法(ModuleNotFoundError: No module named 'CRFPP')

半城伤御伤魂 提交于 2019-11-28 07:13:25
在我们用python去导入CRFPP包的时候可能会报错(ModuleNotFoundError: No module named 'CRFPP') 下面是安装方法 在安装python中CRFPP的接口的时候,我们在Linux版当中的crf中操作 本次我是用的是crf++-0.58 用命令行切换到该目录使用命令 在安装的时候,系统需要crfpp.h, crfpp.lib和pthread.lib。 Crfpp.h 和 crfpp.lib 我们可以从 windows下的crfpp中取到 ,具体目录为\CRF++Win\CRF++-0.58\sdk\ 将crfpp.h和libcrfpp.lib复制过来,然后把libcrfpp.lib需要重命名为crfpp.lib pthread.lib我们可以从 ftp://sourceware.org/pub/pthreads-win32/prebuilt-dll-2-9-1-release/lib/x64/pthreadVC2.lib 中下载 将pthreadVC2.lib下载之后,放在该目录,并将其重命名为pthread.lib 然后我们在命令行窗口执行 1 python setup.py build 2 python setup.py install 到此就完成了 CRF++-5.8 下载地址: https://download.csdn.net

自然语言处理之:搭建基于HanLP的开发环境(转)

∥☆過路亽.° 提交于 2019-11-27 18:14:22
环境搭建比FNLP的简单,具体参考:https://github.com/hankcs/HanLP 各个版本的下载:https://github.com/hankcs/HanLP/releases 完毕后有一个报错: 字符类型对应表加载失败: D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes 直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目录下新建一个txt文档将名称改为 CharType.dat.yes 即可。 相对比较简单。 尝试HanLP主要处于各个开源自然语言处理工具包之间的差异,寻找一个适合学习的开源工具包。 HanLP调用方法 HanLP几乎所有的功能都可以通过工具类HanLP快捷调用,当你想不起来调用方法时,只需键入HanLP.,IDE应当会给出提示,并展示HanLP完善的文档。所有Demo都位于com.hankcs.demo下,比文档覆盖了更多细节,更新更及时,强烈建议运行一遍。 HanLP的适用过程中注意的问题: 1、因为HanLP版本更新比较频繁,所以,jar源代码版本需要对应适用,否则源码和jar中接口调用对应不上。 在进行CRF分词过程中报错: Exception in

crf 的视察(二分+二维前缀和)

三世轮回 提交于 2019-11-27 16:07:16
1.1 Description crf 拥有一个王国。 他的王国是长方形的,跨越了n 个纬度区和m 个经度区,且在每个经度区和纬度区的交界处 有一座城市(即crf 的王国一共有n m 座城市)。 某一天早上,crf 从他的一万平方米的大床上起来,他决定去视察一下他的王国,去查看一下 他的全民刷题计划的实施情况。 消息一出,全王国各城市的市长们都吓到了,因为有一些市长偷懒还没有宣布crf 的全民刷题 计划,所以全体市长集体开了个会,讨论要怎样才能让crf 不发现他们的不作为。 他们知道crf 有个坏习惯,他只会视察一个正方形区域的城市,而他们也知道视察了越多的城 市,crf 就会越开心。但一旦crf 发现他视察的城市他的政策没有贯彻下去,他就会非常愤怒,然后 把这些市长发配去养猪。 市长们现在想找出来一个最大正方形,使得在这个正方形内的所有城市都已经贯彻了crf 的全 民刷题计划。 1.2 Input 输入的第一行为两个整数n;m,表示crf 王国横跨的纬度区数量和经度区数量。 接下来n 行,每行有m 个整数,每个整数只可能为0 或者1,0 表示这个城市没有贯彻crf 的 全民刷题计划,1 表示已经贯彻。 1.3 Output 输出一个数字k,为最大的正方形的边长。 1.4 Sample Sample Input Sample Output 3 3 0 1 1 1 1 1 1 1 1

mediacoder固定质量CRF

一世执手 提交于 2019-11-27 15:01:49
视频编码:crf 与 bitrate 对照表   CRF(constant rate factor)就是x264/x265下压制视频的一种恒定量化值的编码方式,码率不恒定。其实就相当于vbr1pass。采用CRF的话,那么在一个视频中,大动态场景会被分配更多的码率,以使画面更好。一般CRF值我们都设置在18-26之间,18就接近无损了,个人最常用的是22或者23,当然前提是要看片源,如果片源本身就画质感人,CRF值设得再高,对画质依然毫无帮助,只会导致体积剧增。嗯CRF一般也比2pass更省时间,cpu占用也更低。 1、相较于bitrate方式,cpu占用与内存占用均会下降; 2、锐化滤镜会让crf的码率上升; 3、vbv对crf依然有效; 4、crf18就接近无损,字幕组惯用20-22,crf23是默认值。 来源: https://www.cnblogs.com/guanghe/p/11367559.html

论文阅读笔记九:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS (DeepLabv1)(CVPR2014)

倖福魔咒の 提交于 2019-11-27 07:45:15
论文链接:https://arxiv.org/abs/1412.7062 摘要 该文将DCNN与概率模型结合进行语义分割,并指出DCNN的最后一层feature map不足以进行准确的语义分割,DCNN具有很强的空间不变性,因此比较擅长高层次的任务。该文通过在DCNN的最后一层添加一层CRF用来克服定位不准的问题。该文通过引入空洞算法来提高模型在GPU上的运行速度。 介绍 该文的一个主题是采用进行end-to-end训练的DCNN,相比传统的依赖,SIFT或者HOG等人工设计的特征会产生喜人的分割效果。部分原因可能是DCNN对图像变换局部区域的不变性,从而可以更好的学习抽象的信息。但另一方面却削弱了低层次类型的任务,像姿态估计,语义分割等需要精细定位的任务。 DCNN应用于图像标记任务主要存在两个技术障碍,下采样和空间不变性。第一个问题是在标准的DCNN中由于连续的池化和下采样导致单一分辨率的缺失,为此,该文引用了空洞卷积算法,可以使DCNN的计算更加密集。第二个问题是实际中我们分类器所作的是以目标物体中心决定分类的,这就决定需要空间信息的不变性,这就限制了DCNN的空间信息的准确性。该文通过后接一个全连接的条件随机场(CRF)来获得更加较好的细节。CRF将不同类别的分类器计算得到的class score与局部(像素,边和超像素等)捕捉的低层次信息进行结合

基于肺癌语料库的CRF模型

落花浮王杯 提交于 2019-11-27 07:16:51
目标:前两天老师给了我数据,让我构建一个CRF模型,并且用十折交叉验证计算出每一组数据的recall/precision/f1-score,最后用平均值加减标准差的形式展示。 过程:1.读取所有数据 2.训练CRF 我用80%做了训练集,20%做了测试集 因为采用的是已经标记过的肺癌语料库 所以把标记单独列出来了,用于后面PRF三个指标的计算 3.构建模型 4.十折交叉验证 from sklearn.model_selection import KFold#要引入KFold包 kf = KFold(n_splits=10)#十折 注意a和b的意思 这里的metrics.flat_classfication_report返回了一个string ,如图 至于咋写成标准差加减平均值 ,他返回的是string哇15551 ,我要怎么把每个指标的PRF值都分离出来(爆哭) 在某个机智学长的提示下 我打开了excel 把数据搞进去 用excel计算了平均值和方差嘻嘻嘻 嗷对还有代码用到的库 import os import numpy as np import pandas as pd import xlrd import sklearn_crfsuite from sklearn.model_selection import RandomizedSearchCV from sklearn

python调用 CRFPP编译安装部署

元气小坏坏 提交于 2019-11-26 06:01:23
python调用 CRFPP编译安装部署 下载并解压CRF++ 链接: https://pan.baidu.com/s/1cjGXibaVCTWm5vk6Mzb32g 提取码:88k0 在终端进入CRF++下的python目录,使用命令 python setup.py install 即可 python环境下导入 import CRFPP 来源: CSDN 作者: 大鱼七号船船长 链接: https://blog.csdn.net/lehek/article/details/103241167