文本分类

SVM文本分类

南笙酒味 提交于 2019-12-28 21:09:32
一.理论方法介绍 SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,可以用来进行分类研究。 SVM二分类 SVM二分类的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,有三种情况: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机; 当训练数据线性不可分时,通过引入核函数技巧及软间隔最大化,学习非线性支持向量机。 svm多分类 svm本身是一个追求类别超平面间支持向量距离最大化的二分类器,本实验的目标是对于三种不同类型文本构造分类器,属于多分类问题。主要是通过组合多个二分类器来实现多分类器的构造,多分类通常有一对多,一对一,多对多等。实验中采取的是one-versus-rest一对多方法,简称OVR SVMs。训练步骤如下: 首先A类对应的向量作为正样本,B,C对应的样本作为负样本 B对应的向量作为正样本,A,C对应的向量作为负样本 C对应的向量作为正样本,A,B对应的向量作为负样本 这3个训练集分别进行训练,得到四个训练结果文件 测试时,把对应的测试向量分别利用这三个结果进行文件测试 得到三个分类结果:y1(x),y2(x),y3(x)

Scene Text Detection(场景文本检测)论文思路总结

不羁岁月 提交于 2019-12-25 05:12:20
任意角度的场景文本检测 论文思路总结 共同点:重新添加分支的创新更突出 场景文本检测 基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cnn(类别分支,水平分支,倾斜分支) rrpn(旋转rpn) textbox(ssd) textbox++ sstd(tcm改进前身) rtn ctpn(微分) 基于分割和回归的混合方法: spcnet 利用mask_rcnn来进行实例分割,通过新模块tcm(获取全局语义分割图)以及rescore来提升准确率,实例分割映射在全局语义分割打分 pixel-anchor(deeplabv3+ssd): 分割的部分检测中大目标,ssd检测小目标 east(deeplabv3) af-rpn 位于文本核心区域中的每个滑动点,直接预测从它到文本边框顶点的偏移量 (采用ohem) FPN官方给的训练时候是前面共享参数的,对结果影响不大,说是特征金字塔使得不同层学到了相同层次的语义特征 FPN在得到多层金字塔模块的proposals结果之后,放到一块做nms处理 FPN每层金字塔模块的scale都是一样的,因为对应到不同的feature map上面刚好检测不同大小的物体 *************

聊聊Bert

旧城冷巷雨未停 提交于 2019-12-24 15:29:57
在上一篇文章中我们提到了Transformer,详见: 聊聊Transformer 。在这篇文章中,我们讲解一下BERT模型。 ** 1.BERT模型 ** BERT 的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,设计了两个任务来预训练该模型。第一个任务是采用 MaskLM 的方式来训练语言模型,通俗地说就是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号[MASK]来代替它们,之后让模型根据所给的标签去学习这些地方该填的词。第二个任务 Next Prediction 在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务,即预测输入BERT的两段文本是否为连续的文本,引入这个任务可以更好地让模型学到连续的文本片段之间的关系。最后的实验表明BERT模型的有效性,并在11项NLP任务中夺得SOTA结果。 BERT相较于原来的RNN、LSTM可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于word2vec,其又能根据句子上下文获取词义,从而避免歧义出现。同时缺点也是显而易见的,模型参数太多

文档对象模型

旧城冷巷雨未停 提交于 2019-12-24 01:12:17
文档对象模型定义 文档对象模型英文名为 Document Object Model , 简称 DOM ,它是一种比较重要的软件设计模式,不是编程技巧。可以这么说,平生不认 DOM ,便称英雄也枉然,大家应当多多了解它的能力。 文档对象模型是面向对象编程技术的集中体现,若没有完整的面向对象编程思想,是不可能理解和开发文档对象模型,若开发者能开发出文档对象模型,那就说明他 / 她比较完整的理解和掌握了面向对象编程思想。 W3C 国际组织对文档对象模型是这样定义的(摘自 http://www.w3.org/DOM/ ) The Document Object Model is a platform- and language-neutral interface that will allow programs and scripts to dynamically access and update the content, structure and style of documents. The document can be further processed and the results of that processing can be incorporated back into the presented page. This is an overview of DOM

文本分类实战(一)—— word2vec预训练词向量

浪子不回头ぞ 提交于 2019-12-23 12:30:54
1 大纲概述   文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列:    word2vec预训练词向量    textCNN 模型    charCNN 模型    Bi-LSTM 模型    Bi-LSTM + Attention 模型    RCNN 模型    Adversarial LSTM 模型    Transformer 模型    ELMo 预训练模型    BERT 预训练模型    所有代码均在 textClassifier 仓库中。 2 数据集   数据集为IMDB 电影影评,总共有三个数据文件,在/data/rawData目录下,包括unlabeledTrainData.tsv,labeledTrainData.tsv,testData.tsv。在进行文本分类时需要有标签的数据(labeledTrainData),但是在训练word2vec词向量模型(无监督学习)时可以将无标签的数据一起用上。 3 数据预处理   IMDB 电影影评属于英文文本,本序列主要是文本分类的模型介绍,因此数据预处理比较简单,只去除了各种标点符号,HTML标签,小写化等。代码如下: import pandas as pd from bs4 import BeautifulSoup

易语言学习笔记(2)

家住魔仙堡 提交于 2019-12-23 08:30:40
易语言学习笔记(2) 编写一个MP3播放器 windows控制台程序 易语言的命令 学会查找命令 方法型语句 命令型语句 命令表(系统核心支持库) 数值处理命令 判断命令 循环命令 跳转命令 常用命令 编写一个MP3播放器 打开易语言,点击工具栏的快捷按钮【新建】,并在弹框中选择Windows窗口程序,如图所示 在新窗体中画一个编辑框和两个按钮控件。各自选中按钮后,打开属性面板,分别将这两个按钮的标题属性改为“播放MP3”和“停止播放”。 双击标题为【播放MP3】的按钮,自动切换到 _按钮1_被单击 子程序代码区,输入以下代码: 播放MP3(1,编辑框1.内容) ;双击标题为【停止播放】的按钮,自动切换到 _按钮2_被单击 子程序代码区,输入以下代码: 停止播放() ; 菜单中点击【编译】-》【编译】,就可以生成exe文件了。一个简易MP3播放器就完成了。 windows控制台程序 【新建】-》【 windows控制台程序】,在 子程序名 下输入下列示例代码,运行后,在易语言底部的【输出】窗口查看结果。具体示例在下方。 易语言的命令 在 《易语言入门教程(1)》 中,用到了一个 到文本() 命令,类似于 javascript 的 toString() ,这就是 易语言的命令 。 命令是由易语言提供的能够完成某一特定功能的指令,书写格式为: 命令名称 (参数,...... ) 。

【文智背后的奥秘】系列篇——文本聚类系统

感情迁移 提交于 2019-12-22 19:56:25
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/131 来源:腾云阁 https://www.qcloud.com/community 一.文本聚类概述 文本聚类是文本处理领域的一个重要应用,其主要目标是将给定的数据按照一定的相似性原则划分为不同的类别,其中同一类别内的数据相似度较大,而不同类别的数据相似度较小。聚类与分类的区别在于分类是预先知道每个类别的主题,再将数据进行划分;而聚类则并不知道聚出来的每个类别的主题具体是什么,只知道每个类别下的数据相似度较大,描述的是同一个主题。因此,文本聚类比较适合用于大数据中热点话题或事件的发现。 文智平台提供了一套文本聚类的自动化流程,它以话题或事件作为聚类的基本单位,将描述同一话题或事件的文档聚到同一类别中。用户只需要按照规定的格式上传要聚类的数据,等待一段时间后就可以获得聚类的结果。通过文本聚类用户可以挖掘出数据中的热门话题或热门事件,从而为用户对数据的分析提供重要的基础。本文下面先对文本聚类的主要算法作介绍,然后再具体介绍文智平台文本聚类系统的原理与实现。 二.文本聚类主要算法 文本聚类需要将每个文档表示成向量的形式,以方便进行相似度的计算。词袋模型(bag of

【文智背后的奥秘】系列篇——情感分类

随声附和 提交于 2019-12-22 19:40:28
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息。比如,“日媒:认为歼-31能够抗衡F-35,这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题,而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点,持反面态度。这是一项具有较大实用价值的分类技术,可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。 文智系统提供了一套情感分类的流程,可以对句子极别的评论进行分析,判断情感的正负倾向。接入业务的用户只需要将待分析文本按照规定的协议上传,就能实时得到情感分析的反馈。如果持续上传不同时间段的评论

【文智背后的奥秘】系列篇——自动文本分类

社会主义新天地 提交于 2019-12-22 19:19:02
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/132 来源:腾云阁 https://www.qcloud.com/community 一.自动文本分类 概述文本分类,顾名思义,就是将一篇文档归为已知类别中的一类或者几个类,为了实现自动分类的目标,通常有以下几个步骤: 构建分类类别体系 获取带有类别标签的训练数据 训练数据的文本表达及特征选择 分类器的选择与训练 分类应用数据 给定一篇待分类的文档,若对其进行自动分类,通常需要把文档表达成机器可以处理的数据类型。目前常用的文本表达方式有向量空间模型(VSM),即把文档映射为一个特征向量 其中ti为文档分词后的词条项,w(ti)为相应词条项的权重。 我们的自动文本分类系统,为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本的所属类别。目前平台能识别类别囊括了软件、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,且系统算法支持快速迭代更新已有类别及增加新类别。 二.自动文本分类系统 1.系统主要框架 目前我们的自动分类系统框架如图1.1所示。系统主要分为三大块

文本分类 | (1) 任务定义

不打扰是莪最后的温柔 提交于 2019-12-21 06:21:11
近年来,文本的数量呈指数增长,为了能在许多应用中准确地对文本进行分类,需要对机器学习方法有更深入的了解。许多机器学习方法在自然语言处理方面都取得了突破性的结果。这些学习算法的成功取决于其拟合数据中存在的非线性关系的能力。然而,寻找一种普适、通用的文本分类技术对研究人员来说仍然是一个巨大的挑战。 在文本分类专栏系列博客中,我将系统的介绍如何搭建一个完整的文本分类系统,包括数据预处理、主要方法的原理介绍和实现细节、实验结果与分析、网页Demo的构建以及项目文件的组织方式。 目录 1. 问题定义 2. 文本分类系统的类型 3. 文本分类流程 4. 总结 1. 问题定义 在过去的几十年中,文本分类问题在许多实际应用中得到了广泛的研究和解决。 文本分类技术在信息检索、信息过滤、推荐系统、情感分析以及推荐系统等多个领域都有广泛的应用。文本分类任务是指根据已经定义好的类别标签对现有的一段文本进行标注的任务。一般来说,文本数据集包含一系列长短不一的文本片段,如 ,其中 代表一个数据点或文本片段,每个 包含s个句子,每个句子又包含 个单词,每个单词又可以包含 个字符。每个数据点 都用一组 k 个不同离散值索引中的类别标签进行标记。 2. 文本分类系统的类型 按照分类文本规模来划分 1)文档级别:算法输出整个文档对应的类别。 2)段落级别:算法输出一个单独的段落 (文档的一部分)对应的类别。 3