文本分类

文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释

為{幸葍}努か 提交于 2020-03-15 14:52:00
最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html 。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。 (注:转载请注明作者和出处 作者:f inallyliuyu 出处:博客园) 适用人群:文本分类初学者、新手、菜鸟、业余爱好者 目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借助于此平台可以对书本上的一些关于分类器、特征词选择算法的结论进行验证; 3.写给我自己,体验 “the magic of mathematics” 。 1.获取语料库 方法一:搜狗 2008版语料库 ;处理程序见《 菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库 》 方法二:finallyliuyu在博客园空间提供的语料库参见 《 献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二 》 2. 文本分类系统设计框架图 预处理过程流程图 分类模块流程图: 3. 各部分代码讲解 预处理模块 3.1 建立词典 3.2 全局DF特征词选择算法 3.3

Matplotlib学习笔记

两盒软妹~` 提交于 2020-03-15 05:57:05
示例图: https://matplotlib.org/tutorials/introductory/sample_plots.html#sphx-glr-tutorials-introductory-sample-plots-py 自定义Matplotlib: https://matplotlib.org/tutorials/introductory/customizing.html#sphx-glr-tutorials-introductory-customizing-py 图像教程: https://matplotlib.org/tutorials/introductory/images.html#sphx-glr-tutorials-introductory-images-py 画廊: https://matplotlib.org/gallery.html 使用指南 matplotlib拥有广泛的代码库,大多数都可以通过一个相当简单的概念框架和一些重要知识来理解 绘图需要在一系列级别上进行操作。绘图包的目的是帮助尽可能轻松的可视化数据,并提供所有必要的控制。 因此matplotlib中所有内容都是按层次结构进行组织。顶部是matplotlib状态机环境。简单函数用于将绘图元素添加到当前图形的当前轴 层次结构下的是面向对象接口的第一级,其中pyplot仅用于少数功能

日月累积的整理!140种Python标准库、第三方库和外部工具都有了

拥有回忆 提交于 2020-03-14 23:58:53
Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。 读者福利,想要了解python人工智能可直接点击链接即可领取相关学习福利包: 石墨文档 是安全网站放心,继续访问就可以领取了哦 这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。 为了区分不同对象的来源和类型,本文将在描述中通过以下方法进行标识: Python内置函数: Python自带的内置函数。函数无需导入,直接使用。例如要计算-3.2的绝对值,直接使用abs函数,方法是 abs(-3.2) Python标准库:Python自带的标准库。Python标准库无需安装,只需要先通过import方法导入便可使用其中的方法。例如导入string模块,然后使用其中的find方法: importstringstring.find('abcde','b') 第三方库:Python的第三方库。这些库需要先进行安装(部分可能需要配置)。 外部工具:非Python写成的库或包,用于Python数据工作的相关工具。 「推荐度」3星最高,1星最低。 01 文件读写 文件的读写包括常见的txt、Excel

文本匹配的相关方向探讨

。_饼干妹妹 提交于 2020-03-09 18:04:09
文本匹配相关方向探讨 转载: https://www.jiqizhixin.com/articles/2019-10-18-14 因为本人毕设做到了和文本匹配相关方向的研究,所以转发此博客探讨文本匹配的方向。 Motivation 前不久小夕在知乎上写了一个回答《NLP有哪些独立研究方向》[1],于是有不少小伙伴来问分类和匹配的参考资料了,鉴于文本分类的资料已经超级多了,就不写啦(不过分类相关的tricks可以看之前写的这篇文章 《文本分类重要tricks总结》 )。匹配问题由于场景比较多,相关的文章不多,所以本文就致力于总结一下文本匹配问题上可以打卡的相关资料啦。 文本匹配是一个很宽泛的概念,只要目的是研究两段文本之间的关系,基本都可以把这个问题看作是文本匹配问题。由于在不同的场景下对”匹配“的定义可能非常不同,因此文本匹配并不是一个完整独立的研究方向。不过有相当多的NLP任务可以建模成文本匹配问题,当它们建模成文本匹配问题时,当然会发现模型结构、训练方法等是高度高度相似的,却又有着微妙的不同。所以这个问题虽然跑个baseline简单,但是把具体的匹配问题中做好却并不容易(尤其是在有BERT之前)。 下面就来具体说说可以打卡的内容。 本文目录 打卡的baseline模型 打卡的任务场景和数据集 a. 相似度计算&复述识别 b. 问答匹配 c. 对话匹配 d. 自然语言推理

【知识图谱学习笔记】(二)知识图谱基本知识

爱⌒轻易说出口 提交于 2020-03-09 06:25:05
目录 前言 2.1 知识表示和建模 2.2知识表示学习 2.3实体识别与链接 2.4实体关系学习 2.5事件知识学习 2.6 知识图谱查询和推理计算 参考文献 前言 本文介绍了有关知识图谱领域相关的基本知识的定义、意义,以及研究的内容与挑战。 2.1 知识表示和建模 ·Sowa J F. Knowledge representation: logical, philosophical, and computational foundations. 1999. ·Noy N F, McGuinness D L. Ontology Development 101: A Guide to Creating Your First Ontology. another version(找不到) 知识表示 知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。 哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信

CSS笔记

我的未来我决定 提交于 2020-03-08 23:01:56
极客CSS笔记 基础语法: selector选择器{ property属性:value值 } 例: h1{ color:red; font-size:18px }    高级语法: 选择器分组: h1, h2, h3, h4, h5, h6 { color : red; } 继承: 在最外层的元素添加样式,若里层元素没有样式,则套用该样式 body{ color:green; } CSS选择器: 派生选择器: 通过依据元素在其位置的上下文关系来定义样式。 例:li strong{},中间用空格隔开 id选择器 :以#号来定义,常用方式是id选择器常常用于建立派生选择器。 例:#pid a{} 类选择器 :以 . 点号来表示,也可以用作派生选择器 属性选择器 :对带有指定属性的HTML元素设置样式,属性和值选择器。 例:[title]{} 或 [title=t]{} 子元素选择器: element > element。例 <div> > <p> ,选择父元素为div的所有p元素 兄弟选择器: element + element。例 <div> + <p> ,选择紧接着div元素之后的所有p元素 CSS样式: CSS背景 属性 描述 background-attachment 背景图像是否固定或者随着页面的其余部分滚动 background-color 设置元素的背景颜色

文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER,RE

送分小仙女□ 提交于 2020-03-08 20:53:28
文章目录 abstract 1.Introduction 2.2. Supervised Machine Learning Approaches to Relation Extraction 2.1. Statistical Learning Approach 2.1.1 Feature-based approaches to RE 2.1.2 Kernel-based approaches to RE 2.2. Relational Learning Approach 2.2.1. Inductive Logic Programming 2.2.2 Ontologies 2.2.3 ILP-based systems for RE 2.2.4 Qualitative Comparison of ILP-based RE systems Lima, R., et al. (2019). “A logic-based relational learning approach to relation extraction:The OntoILPER system.” Engineering Applications of Artificial Intelligence, Elsevier 78: 142-157. 机器学习中可能的函数构成的空间称为 假设空间 abstract 关系提取

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

核能气质少年 提交于 2020-03-08 17:54:07
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 摘要 我们引入了一个新的叫做bert的语言表示模型,它用transformer的双向编码器表示。与最近的语言表示模型不同,BERT通过在所有层的上下文联合调节来预训练深层双向表示。因此,预训练的bert可以添加一个额外的输出层进行微调,可以在广泛的任务上产生目前最好的效果。例如问答和语言推理,不需要大量特定任务的结构的修改。 BERT在概念上简单且经验丰富。它在11项自然语言处理任务中获得了最新的最新成果,包括GLUE分数,MultiNLI精度,问答。 1 简介 语言模型预训练已被证明对改进许多自然语言处理任务是有效的。包括句子级任务,如自然语言推理和释义,旨在通过对整体的分析预测句子之间的关系。令牌级别任务,例如命名实体识别和问答,模型需要在令牌级别上产生细粒度的输出。 在预训练的语言表示应用到下游任务上有两种策略:基于特征和微调。基于特征的方式,例如ELMO包括特定于任务的体系结构,包括预训练的表示作为一个附加特征。微调的方法,例如Generative Pre-trained Transformer (OpenAI GPT),引入了最小的特定任务参数,并通过简单地微调所有预训练参数来训练下游任务

【Paper Reading】【TextBoxess: A Fast Text Detector with a Single Deep Neural Network】

╄→尐↘猪︶ㄣ 提交于 2020-03-08 14:51:27
Introduction: 传统文本检测方法步骤: 1) character/word candidate generation:候选词的产生 2) Candidate filtering:候选词过滤 3) grouping:分组 弊端:需要保证每一个模型都正常工作,从而需要耗费大量精力调参和设计启发式规则,这同样也会减慢检测速度 本文:通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本 Contributions: 高速准确的文本检测器:TextBoxes。通过整合预测文本出现位置(text presence)和相对于default boxes(SSD)的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合,再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词,我们设计了几个novel,inception-style的输出层,可以利用不规律(irregular)的卷积核和default boxes 单词识别(word recognition)有助于从背景中区分文本,尤其是当单词被限定再一个给定的集合中时,比如一个词典(lexicon)。故本文采用成功的文本识别算法,CRNN与TextBoxes结合。识别器不仅提供额外的识别输出,还使文本检测具有了语义水平的意思,从而大大提高了单词识别

什么是多模态机器学习?

|▌冷眼眸甩不掉的悲伤 提交于 2020-03-07 23:40:00
什么是多模态机器学习? 首先,什么叫做模态(Modality)呢? 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。 同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。 因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。 多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。 人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。 本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《 Tutorial on Multimodal Machine Learning 》。 多模态学习的分类 多模态学习可以划分为以下五个研究方向: 多模态表示学习 Multimodal Representation 模态转化 Translation 对齐 Alignment 多模态融合