文本分类

fastText文本分类cheatsheet

試著忘記壹切 提交于 2019-12-19 13:12:40
id: cheatsheet title: Cheatsheet Word representation learning In order to learn word vectors do: $ ./fasttext skipgram -input data.txt -output model Obtaining word vectors Print word vectors for a text file queries.txt containing words. $ ./fasttext print-word-vectors model.bin < queries.txt Text classification In order to train a text classifier do: $ ./fasttext supervised -input train.txt -output model Once the model was trained, you can evaluate it by computing the precision and recall at k (P@k and R@k) on a test set using: $ ./fasttext test model.bin test.txt 1 In order to obtain the k

前端HTML标签

三世轮回 提交于 2019-12-18 15:20:54
一. HTML是什么   HTML是超文本暴击语言( Hypertext Markup Language )是一种创建网页的标记语言,而不是一种编程语言   本质上是浏览器可识别的规则,我们按照规则写网页,浏览器根据规则渲染我们的网页.对也不同的浏览器,对同一个标签可能会有不同的解释   网页文件扩展名 : .html 或 .htm 二. HTML标签格式   HTML标签由尖括号包围的关键字 : < >   HTML标签通常是成对出现的 : <div></div> 第一个标签是开始,第二个标签是结束   标签内可以有若干属性,也可以不带属性   标签语法 :     <标签名 属性1='属性值1' 属性2='属性值2'.....>显示内容</标签名>     <标签名 属性1='属性值1' 属性2='属性值2'..../>    部分重要的属性 :     id : 定义标签的唯一ID,HTML文档内唯一     class : 为html元素定义一个或多个类名     style : 规定元素的内部样式   HTML注释 :     <!--注释内容--> 三. 最基本的HTML格式 <!DOCTYPE html> #声明为HTML5文档 <html lang="zh-CN">#文档开始标记,声明网页编码 <head>#定义了HTML文档的开头

机器学习笔记 DAY1-逻辑回归

半腔热情 提交于 2019-12-18 02:05:55
机器学习定义: 假设用P(Performace)来评估计算机程序在某类任务T(Task)上的性能,若一个程序通过利用经验E(Experience)在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。 机器学习笔记 DAY1-逻辑回归 https://blog.csdn.net/malele4th/article/details/89891430 以下是对DAY1的链接中部分名词解释 什么是分类算法、回归算法 https://blog.csdn.net/kwame211/article/details/81706552 1.分类问题的应用场景 分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类 2.回归问题的应用场景 回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的

Kaggle spooky NLP

只愿长相守 提交于 2019-12-17 18:54:41
https://www.kaggle.com/arthurtok/spooky-nlp-and-topic-modelling-tutorial 介绍 在本笔记本中,我将对这个Spooky Author数据集的主题建模进行非常基本的尝试。主题建模是我们尝试根据基础文档和文本语料库中的单词来发现抽象主题或“主题”的过程。我将在这里介绍两种标准的主题建模技术,第一种是称为潜在Dirichlet分配(LDA)的技术,第二种是非负矩阵分解(NMF)。我还将借此机会介绍一些自然语言处理基础知识,例如原始文本的标记化,词干化和向量化,这些也有望在用学习模型进行预测时派上用场。 该笔记本的概述如下: 探索性数据分析(EDA)和Wordclouds-通过生成简单的统计数据(例如,不同作者的词频)以及绘制一些词云(带有图像蒙版)来分析数据。 带有NLTK(自然语言工具包)的自然语言处理(NLP)-引入了基本的文本处理方法,例如标记化,停止单词删除,通过术语频率(TF)和反向文档频率(TF-IDF)提取文本和对向量进行矢量化 使用LDA和NNMF进行主题建模-实现潜在狄利克雷分配(LDA)和非负矩阵分解(NMF)的两种主题建模技术。 根据比赛页面,我们已经提供了三种不同的作者姓名缩写,这些姓名缩写与实际作者的映射如下: (如果单击其名称,则指向其Wikipedia页面配置文件的链接) EAP-埃德加

朴素贝叶斯进行文本分类

a 夏天 提交于 2019-12-17 04:23:57
这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中、居左、居右 SmartyPants 创建一个自定义列表 如何创建一个注脚 注释也是必不可少的 KaTeX数学公式 新的甘特图功能,丰富你的文章 UML 图表 FLowchart流程图 导出与导入 导出 导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 全新的界面设计 ,将会带来全新的写作体验; 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示; 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示; 全新的 KaTeX数学公式 语法; 增加了支持 甘特图的mermaid语法 1 功能; 增加了 多屏幕编辑 Markdown文章功能; 增加了 焦点写作模式、预览模式、简洁写作模式

NLP预训练模型:从transformer到albert

北慕城南 提交于 2019-12-16 00:56:54
转载自:《NLP预训练模型:从transformer到albert》( https://zhuanlan.zhihu.com/p/85221503 ) 背景 语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶。正好最近这几个月也在研究语言模型,就把我对transformer等几个具有代表性的nlp模型的理解记录一下。 1. transformer 1.1 transformer的背景 17年之前,语言模型都是通过rnn,lstm来建模,这样虽然可以学习上下文之间的关系,但是无法并行化,给模型的训练和推理带来了困难,因此论文提出了一种完全基于attention来对语言建模的模型,叫做transformer

中文文本分类

喜夏-厌秋 提交于 2019-12-14 21:33:19
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 中文分词算法:基于概率图模型的条件机场(CRF) 文本或句子的结构化可分为:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示 分词器 jieba 分词模式:默认切分、全切分、搜索引擎切分 分词的目的:文本实现了最基础的结构化 存储分词利用的数据结构:Bunch 机器学习算法库:Scikit-Learn //可以学习各种算法:http://scikit-learn.org/stable/ 停用词 //下载 http://www.threedweb.cn/thread-1294-1-1.html 权重策略:TF-IDF 词频逆文档频率 词频(Term Frequency):某个给定的词语在该文件中出现的频率 逆向文件频率(Inverse Document Frequency,IDF):一个词语重要性的度量 算法参见书: 常见文本分类算法:kNN最近邻算法、朴素贝叶斯算法、向量机算法 训练步骤:分词-》生成文件词向量文件-》词向量模型 分来结果评估 三个基本指标:①召回率(也叫查全率)②准确率 ③F-Measure 朴素贝叶斯算法的基本原理和简单的Python实现 朴素贝叶斯分类:一种简单的分类算法(思想基础简单:即一个对象中特征向量种每个维度都是相互独立的) 朴素贝叶斯分类的正式定义: 书 kNN

文本分类算法

六月ゝ 毕业季﹏ 提交于 2019-12-14 21:15:25
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者,训练集法更多的来自计算机或人工智能研究领域,而分类表法则更多地来自突出情报领域。本文主要介绍前一种。 基于训练集的文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下: 训练阶段: 1) 定义类别集合 ,这些类别可是是层次式的,也可以是并列式的。 2) 给出训练文档集合 ,每个训练文档 被标上所属的类别标识 。 3) 统计 中所有文档的特征矢量 ,确定代表 中每个类别的特征矢量 。 分类阶段: 1)对于测试文档集合 中的每个待分类文档 ,计算其特征矢量 与每个 之间的相似度 。 2)选取相似度最大的一个类别 作为 的类别。 有时也可以为 指定多个类别,只要 与这些类别之间的相似度超过某个预定的阈值。如果 与所有类别的相似度均低于阈值,那么通常将文档放在一边,有用户来做最终决定。如果这种情况经常发生,则说明需要修改预定义的类别,然后重新进行上述训练与分类工程。 从训练集中得出分类模式的方法很多,有基于文本特征向量相关性的方法、基于神经网络技术的方法、基于遗传算法的方法、基于关联的方法、基于EM算法的方法等。 §3.1朴素贝叶斯算法 朴素贝叶斯(Naive

Effective Use of Word Order for Text Categorization with Convolutional Neural Networks

為{幸葍}努か 提交于 2019-12-11 13:06:12
卷积神经网络有效地利用词序进行文本分类(2015年) code: https://github.com/tensorflow/models/tree/master/research/sentiment_analysis (但是这份代码只是简单实现了parallel CNN,并没有实现seqCNN和bowCNN,聊胜于无) 摘要 卷积神经网络(CNN)是可以利用数据的内部结构(例如图像数据的2D结构)的神经网络。 本文研究CNN的文本分类,以利用文本数据的一维结构(即单词顺序)进行准确预测。 与其像通常那样将低维单词向量用作输入,不如将CNN直接应用于高维文本数据,直接学习嵌入小文本区域的嵌入矩阵以用于分类。 除了将CNN从图像直接转换为文本之外,还提出了一种简单而新颖的变体,该变体在卷积层中采用了词袋转换。 还探索了组合多个卷积层的扩展,以提高准确性。 实验证明了我们的方法与最新技术方法相比的有效性。 1.介绍 文本分类是自动为以自然语言编写的文档分配预定义类别的任务。 不同的文本分类任务处理不同类型的文档,例如主题分类以检测讨论的主题(例如,体育,政治),垃圾邮件检测以及确定产品或电影评论中通常具有的情感的情感分类 。文本分类的一种标准方法是通过词袋矢量(即表示哪些单词出现在文档中但不保留单词顺序的矢量)表示文档,并使用诸如SVM的分类模型。 已经注意到

情感分析

一曲冷凌霜 提交于 2019-12-10 09:10:34
情感分析 自然语言处理(NLP) 将自然语言(文本)转化为计算机程序更容易理解的形式 预处理得到的字符串 -> 向量化 经典应用 情感分析 文本相似度 文本分类 简单的情感分析 情感字典(sentiment dictionary) 人工构造一个字典,如:like -> 1, good -> 2, bad -> -1, terrible-> -2 根据关键词匹配 如 AFINN-111: http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010,虽简单粗暴,但很实用 问题: 遇到新词,特殊词等,扩展性较差 使用机器学习模型,nltk.classify 来源: CSDN 作者: qq_2353304647 链接: https://blog.csdn.net/qq_39888135/article/details/103455633