文本分类

最新深度学习文本分类模型汇总(github开源)

青春壹個敷衍的年華 提交于 2019-11-28 21:16:21
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号: datayx 它有各种文本分类的原型模型。虽然这些模型中的许多都很简单,但有些模型是经典的,所以它们可以很好地作为基础模型。每个模型在模型类下都有一个测试函数。你可以跑它先执行测试任务。模型独立于数据集。 在这里查看大规模多标签文本分类的正式文档,并进行深入学习。这里的几个模型也可以用于问题回答(有上下文或无上下文)建模,或者进行序列生成。我们探索了两个seq2seq模型(seq2seq with attention,transformer attention is all you needed)来进行文本分类。这两个模型也可以用于序列生成和其他任务。如果您的任务是多标签分类,您可以将问题强制转换为序列生成。 我们实现了两个记忆网络。一个是动态存储器网络。在此之前,它达到了相关的最新水平。回答、情绪分析和顺序生成任务。这就是所谓的一个模型来完成几个不同的任务,达到高性能。它有四个模块。关键部件是情景记忆模块。它使用门机制来注意性能,并使用选通GRU更新情节记忆,然后它有另一个GRU(垂直方向)来性能隐藏状态更新。它具有进行传递性推理的能力。我们实现的第二个内存网络是循环实体网络:跟踪世界状态。它有几个街区键值对作为内存,并行运行,达到了新的技术水平。可用于建模问题用上下文(或历史)回答。例如

地图POI类别标签体系建设实践

风流意气都作罢 提交于 2019-11-28 18:06:21
导读 POI是“Point of interest”的缩写,中文可以翻译为“兴趣点”。在地图上,一个POI可以是一栋房子、一个商铺、一个公交站、一个湖泊、一条道路等。在地图搜索场景,POI是检索对象,等同于网页搜索中的网页。在地图客户端上,用户选中一个POI,会有一个悬浮的气球指向这个POI。 如上图左边,这家商场内的屈臣氏是一个POI;而所谓类别标签,就是在类别维度对POI属性的一种概括,比如,屈臣氏的类别标签化妆品,而屈臣氏所坐落的凯德mall,类别标签是商场;右侧则是商场query搜索召回的一系列POI,都具有和query相匹配的类别属性。 上图也展示了类别标签的两种主要使用场景:为用户提供丰富信息和支持决策,一方面在前端为用户显示更丰富的信息,另一方面支持搜索的类别搜索需求,主要是在地图场景query和POI双方都具有丰富的多义表达,通过传统的文本匹配引擎或者简单的同义词泛化是难以达到目的的,因此挖掘标签作为召回和排序依据。 我们的类目体系建设主要依据以下几点: 用户实际的query表达,主要为了支持用户的搜索需求; 真实世界的客观类目分布,以及pm对该分布的认知; 不同标签间的从属、并列关系。 最终每个大类将构建一个多层的多叉树体系,比如购物类别的划分: 类别标签建设的难点 我们的目标是打标,就是将POI映射到上面类目树体系的各个节点上,很显然这是一个分类问题

前端基础(国税)

拈花ヽ惹草 提交于 2019-11-28 13:59:36
一、前端概要 web前端开发者最最注的内容是三个:HTML、CSS与JavaScript,他们分别在不同方面发挥自己的作用,HTML实现页面结构,CSS完成页面的表现与风格,JavaScript实现一些客户端的功能与业务。当然内容与用户资源也是不能忽视的。尽量不要跨职责范围使用,有点“SRP单一职责”的意思,如字体大小应该是CSS控制的,就不应该使用HTML标签完成,如果CSS能解决的问题尽量不要用JavaScript完成。 HTML - 结构 CSS - 表现 JavaScript - 行为 IDEA整合Tomcat与操作技巧 二、HTML5 2.1、什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写,它规定了自己的语法规则,用来表示比“文本”更丰富的意义,比如图片,表格,链接等。浏览器(IE,FireFox等)软件知道HTML语言的语法,可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。 2.2、HTML是什么样的 简单地来说,HTML的语法就是给文本加上表明文本含义的 标签(Tag),让用户(人或程序)能对文本得到更好的理解。 下面是一个最简单的HTML文档: <html> <head> <title>第一个Html文档</title> </head> <body> 欢迎访问<a href=

「自然语言处理(NLP)」--- 文本匹配模型研究【阿里团队】

跟風遠走 提交于 2019-11-28 11:06:29
来源: AINLPer 微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-24 引言     两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优良的文本匹配模型所需条件,在此条件下,其模型性能与最先进的模型相当,且参数少速度快(6倍);第二篇主要研究了集成语言输入特征对神经网络模型产生的影响,并且发现输入特性对性能的影响比我们研究的任何体系结构参数都要大。 ##First Blood TILE: Simple and Effective Text Matching with Richer Alignment Features. Contributor : 南京大学&&阿里AI团队 Paper: https://www.aclweb.org/anthology/P19-1465 Code: https://github.com/hitvoice/RE2 文章摘要     文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。我们研究了构建一个快速且性能良好的文本匹配模型的足够条件,并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性,同时简化所有剩余组件。我们在自然语言推理、意图识别和答案选择等任务中,对4个研究良好的基准数据集进行了实验。我们的模型性能与最先进的模型相当,并且使用的参数更少

XXE漏洞学习笔记

吃可爱长大的小学妹 提交于 2019-11-28 11:00:07
导读 1.XML基础知识 2.DTD基础知识-定义-内外DTD声明-优势 3.DTD基础知识-元素 4.DTD基础知识-实体-外部实体支持协议 5.XXE漏洞原理-有回显和无回显漏洞利用 6.其他危害-payload 7.检测和防御 1.XML基础知识 1.1 XML定义: XML 指可扩展标记语言(Extensible Markup Language) XML 被设计用来 传输 和 存储 数据。 HTML 被设计用来显示数据 XML把数据从HTML分离,XML是独立于软件和硬件的信息传输工具。 XML语言没有预定义的标签,允许作者定义自己的标签和自己的文档结构 1.2XML 文档构建模块 所有的 XML 文档(以及 HTML 文档)均由以下简单的构建模块构成: 元素 属性 实体 PCDATA CDATA 下面是每个构建模块的简要描述。 1.3元素 元素是 XML 以及 HTML 文档的 主要构建模块 。 HTML 元素的例子是 "body" 和 "table"。XML 元素的例子是 "note" 和 "message" 。元素可包含文本、其他元素或者是空的。空的 HTML 元素的例子是 "hr"、"br" 以及 "img"。 实例: <body>body text in between</body> <message>some message in between<

朴素贝叶斯算法——实现新闻分类(Sklearn实现)

好久不见. 提交于 2019-11-28 09:13:53
目录 1、朴素贝叶斯实现新闻分类的步骤 2、代码实现 1、朴素贝叶斯实现新闻分类的步骤 (1) 提供文本文件 ,即 数据集下载 (2) 准备数据 将数据集划分为 训练集 和 测试集 ;使用jieba模块进行 分词 , 词频统计 , 停用词过滤 ,文本 特征提取 ,将 文本数据向量化 停用词文本 stopwords_cn.txt下载 jieba 模块学习: https://github.com/fxsjy/jieba ; https://www.oschina.net/p/jieba (3) 分析数据 :使用matplotlib模块分析 (4) 训练算法 :使用sklearn.naive_bayes 的MultinomialNB进行训练 Sklearn构建朴素贝叶斯分类器官方文档学习 在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是 GaussianNB , MultinomialNB 和 BernoulliNB 。 其中 GaussianNB 就是先验为 高斯分布的朴素贝叶斯 , MultinomialNB 就是 先验为多项式分布的朴素贝叶斯 ,而 BernoulliNB 就是 先验为伯努利分布的朴素贝叶斯 。 (5) 测试算法 :使用测试集对贝叶斯分类器进行测试 2、代码实现 # -*- coding: UTF-8 -*- import os import

shell笔记_重定向与文本处理命令

爷,独闯天下 提交于 2019-11-28 08:01:01
重定向和管道符: 1、重定向 程序 = 指令 + 数据 命令 变量 在程序中,数据如何输入?又如何输出? 数据输入:键盘 -- 标准输入,但是并不是唯一输入方式; --stdin echo "123456" | passwd --stdin "username" 例如:功能添加用户 useradd.sh user.txt文本文档1000个用户 ./useradd.sh a ./useradd.sh b ... ./useradd.sh < user.txt while line ; do 循环体 $line done < /etc/passwd 数据输出: 显示器 -- 标准输出,但是并不是唯一输出方式 ls /etc/ > a.txt fd 文件标识符 0-9 -- 相当于给文件分类; 0 1 2 0 -- 标准输出 1 -- 标准输入 2 -- 错误输入输出(标准错误) 常见重定向符号 1、标准输出 > 覆盖重定向、非常危险 set -C 关闭覆盖重定向功能 >| 强制重定向 >> 追加重定向 不覆盖 2、标准输入 < tr 替换文件内容 tr set1 [set2] < file.txt << 将多行数据同时输入 cat >>a.txt<<EOF >1 >2 >3 >EOF 3、错误输出 2> 2>> 扩展:不需要输出内容,只需要输出状态; ls /etc/ > /dev

全面解读文本情感分析任务

拈花ヽ惹草 提交于 2019-11-28 05:58:08
【摘要】 文本情感分析在社交媒体、舆情监测等领域有着广泛的应用,如商品评价正负面的分析、公司网络评价正负面的监测等。本文主要介绍了文本情感分析的主要任务,包括词级别的情感分析、句子级情感分析以及属性级情感分析等任务的介绍,同时介绍了华为云在这三个任务上的一些进展。用户可以直接在EI体验空间小程序体验这些功能。 1 基本概念 为什么 :随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么 :文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如“华为手机非常好”就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,sentiment/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。 举例如下图: 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体“华为手机”和属性“拍照”合并起来可以作为评价对象

Java中的I/O流

别来无恙 提交于 2019-11-28 05:55:47
一、什么是IO 庆哥:小白,你知道什么是IO吗? 小白:我英文不是太好,但是在这里这个I指的应该是input,而这个O指的则是output吧!对于IO我的认识就是输入输出了,不知道这样理解是否正确! 庆哥:对于IO我们理解成输入输出很正确,但是我们一定要注意一个非常重要的点那就是“流”,什么意思呢?在这里我们更准确的来说其实是输入输出流,因为我们在讨论IO的时候,流则是关键中的关键,我也听过很多人对IO的描述就是输入输出流,这其实是IO的一种分类,在这里想给你说下对于IO我们可以如下分类 按数据流向分类 输入流和输出流 按处理的数据类型分类 字节流和字符流 不知道看到这里你有什么发现没? 小白:到这里我发现了两个比较重要的关键词,那就是数据和流 庆哥:非常正确,我们之前说过我们在说IO的时候一定逃不过“流”的概念,而另外一个同样重要的就是数据了,那到底什么是流呢? 揭秘输入输出流中的“流” 小白:我们常说的IO流和输入输出流中的这个流应该是一样的吧! 庆哥:没错,这确实是一样的,那么该怎么理解这个流呢?这里我们完全可以类比这水流去理解,只不过我们这里的流指的则是数据了,结合两个概念“流”和“数据”也就得到我们的重点数据流,就如同我们的水流一样,对于水流,那流入流出的都是水,而我们的数据流流入流出的自然就是数据了,所以记住非常重要的一句话 流的本质就是数据传输 那么现在我问你

linux shell 正则表达式(BREs,EREs,PREs)差异比较

≯℡__Kan透↙ 提交于 2019-11-28 03:47:52
linux shell 正则表达式(BREs,EREs,PREs)差异比较 则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。这些是正则表达式的定义。 由于起源于unix系统,因此很多语法规则一样的。但是随着逐渐发展,后来扩展出以下几个类型。了解这些对于学习正则表达式。 一、正则表达式分类: 1、基本的正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs) 2、扩展的正则表达式(Extended Regular Expression 又叫 Extended RegEx 简称 EREs) 3、Perl 的正则表达式(Perl Regular Expression 又叫 Perl RegEx 简称 PREs) 说明:只有掌握了正则表达式,才能全面地掌握 Linux 下的常用文本工具(例如