文本分类

NLP(十六)轻松上手文本分类

匿名 (未验证) 提交于 2019-12-02 23:54:01
# -*- coding: utf-8 -*- # time: 2019-08-13 11:16 # place: Pudong Shanghai from kashgari.tasks.classification import CNN_LSTM_Model # 获取数据集 def load_data(data_type): with open('./data/cnews.%s.txt' % data_type, 'r', encoding='utf-8') as f: content = [_.strip() for _ in f.readlines() if _.strip()] x, y = [], [] for line in content: label, text = line.split(maxsplit=1) y.append(label) x.append([_ for _ in text]) return x, y # 获取数据 train_x, train_y = load_data('train') valid_x, valid_y = load_data('val') test_x, test_y = load_data('test') # 训练模型 model = CNN_LSTM_Model() model.fit(train_x, train_y,

情感分析

▼魔方 西西 提交于 2019-12-02 23:34:06
情感分析 本教程源代码目录在 book/understand_sentiment ,初次使用请您参考 Book文档使用说明 。 # 背景介绍 在自然语言处理中,情感分析一般是指判断一段文本所表达的情绪状态。其中,一段文本可以是一个句子,一个段落或一个文档。情绪状态可以是两类,如(正面,负面),(高兴,悲伤);也可以是三类,如(积极,消极,中性)等等。情感分析的应用场景十分广泛,如把用户在购物网站(亚马逊、天猫、淘宝等)、旅游网站、电影评论网站上发表的评论分成正面评论和负面评论;或为了分析用户对于某一产品的整体使用感受,抓取产品的用户评论并进行情感分析等等。表格1展示了对电影评论进行情感分析的例子: 电影评论 类别 在冯小刚这几年的电影里,算最好的一部的了 正面 很不好看,好像一个地方台的电视剧 负面 圆方镜头全程炫技,色调背景美则美矣,但剧情拖沓,口音不伦不类,一直努力却始终无法入戏 负面 剧情四星。但是圆镜视角加上婺源的风景整个非常有中国写意山水画的感觉,看得实在太舒服了。。 正面 表格 1 电影评论情感分析 在自然语言处理中,情感分析属于典型的文本分类问题,即把需要进行情感分析的文本划分为其所属类别。文本分类涉及文本表示和分类方法两个问题。在深度学习的方法出现之前,主流的文本表示方法为词袋模型BOW(bag of words),话题模型等等;分类方法有SVM(support

lda主题模型python实现篇

匿名 (未验证) 提交于 2019-12-02 22:54:36
个人博客地址: http://xurui.club/ 最近在做一个动因分析的项目,自然想到了主题模型LDA。这次先把模型流程说下,原理后面再讲。 lda实现有很多开源库,这里用的是gensim. 大概说下文本的样子,LDA是无监督模型,也就是说不需要标签,只要传入文本就好。LDA要学习文档-主题分布和主题-词分布,所以我们把一个人的数据join在一起作为一条文档。对文档进行分词,使用的jieba分词工具包。注意,这里要做去停用词处理,包括标点和一些没用的词,如“呵呵”,“哈哈”。做项目时,第一版没有去无用词,最后提出的主题都是“你”“我”“他”“你好”这样的东西,去掉之后可以较好提高结果质量。 即将所有文档数表示成m*n的矩阵D,m表示有m篇文档,n表示这篇文档有n个词,n不定长。 用gensim.corpora.Dictionary包 这个包讲下吧 from gensim.corpora import Dictionary text = [['我', '想吃', '大龙虾', '和', '烤猪蹄']] dictionary = Dictionary(text) print ((dictionary)) doc = dictionary.doc2bow([ '我' , '想吃' , '大龙虾' , '和' , '我' , '你' , '烤猪蹄' ]) print (doc) ###

New UWP Community Toolkit - Markdown

匿名 (未验证) 提交于 2019-12-02 22:10:10
概述 前面 New UWP Community Toolkit 文章中,我们对 V2.2.0 版本的重要更新做了简单回顾,其中简单介绍了 MarkdownTextBlock 和 MarkdownDocument,本篇我们结合代码详细讲解一下 Markdown 相关功能。 Markdown 是一种非常常用的标记语言,对于编写文档或者文章排版等有很大帮助: Markdown 维基百科 。关于 Markdown 语法,大家可以去网络查询,很容易上手,一次书写,到各个平台都能有一样的操作体验,非常的简便实用。而 UWP Community Toolkit 对 Markdown 的解析和渲染提供了完整的支持,即使复杂的 Markdown 文本,也可以在低配置的硬件上获得流畅的体验。UWP Community Toolkit 完成 Markdown 整个功能的两个重要组成部分就是:MarkdownTextBlock 和 MarkdownDocument。 MarkdownDocument 提供了对 markdown 的解析操作,传递给 MarkdownTextBlock,负责 markdown 解析后内容的渲染操作,然后显示在界面。 MarkdownTextBlock Source: https://github.com/Microsoft/UWPCommunityToolkit/tree

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

ε祈祈猫儿з 提交于 2019-12-02 21:50:38
目录 前言 一、Attention Is All You Need Attention机制 Transformer 成绩 二、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Vanilla Transformer 循环机制 相对位置编码 Transformer-XL 成绩 RECL 三、XLNet: Generalized Autoregressive Pretraining for Language Understanding BERT 有序因子排列 双流自注意力 XLNet 成绩 预训练参数 前言 正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时,XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet,大一统预训练模型的成功,无疑昭示着行业的快速进步。现在是最好的时机。回到正题,本文虽篇幅较长,但能提供不一样的视角,帮你迅速理清模型的细节。废话不多说,笔者这就将带你快速品读,XLNet 诞生之路上最重要的三篇论文: Attention Is All You Need (12 Jun. 2017) Transformer-XL: Attentive Language Models Beyond a Fixed-Length

怎么在比较文本时限制Beyond Compare每行字符数

孤人 提交于 2019-12-02 20:44:04
Beyond Compare是一款功能强大、省时高效的文件和文件夹比较工具,可以用来管理源代码、保持文件夹同步、比较程序输出并验证数据有效性。当使用 Beyond Compare 软件执行文本比较会话操作时,如果对比文件内容过于冗长和繁杂,限制比较窗格每行的字符数,将会更加直观和清晰的展示文本内容,以下内容将讲解文本比较限制每行字符数的方法。 具体操作步骤如下所示 步骤一:打开Beyond Compare软件,选择文本比较会话,打开会话操作界面。单击“打开文件”按钮,选择需要比较的文本文件。 步骤二:单击文本比较会话菜单栏“视图”按钮,在展开的菜单中选择“文件格式”选项,打开文本比较—文件格式窗口界面。 Beyond Compare文本比较工具菜单图例 步骤三:在文件格式窗口右侧切换到“转换”页面,页面底端设有“每行字符数限制”栏目,您可以根据个人文本比较内容的多少设置相对的行字符数值,单击“确定”按钮,关闭文件格式窗口页面。 Beyond Compare文本格式转换页面图例 完成每行字符数限制数值的设置后,再次回到文本比较会话操作界面,如下图图例所示,左右两侧的窗格中,文本内容清晰,差异明显。您也可以单击工具栏“差异”或者“相同”按钮,进一步分类查看对比的文本内容。 Beyond Compare文本比较会话操作界面图例 以上内容简单清晰的讲解了,在使用Beyond

前端开发 ― HTML

匿名 (未验证) 提交于 2019-12-02 20:32:16
HTML HTML 超文本标记语言 HTML特征: 对换行和空格不敏感 空白折叠 标签也称为标记。 标签的种类: 1.双闭合标签 2.单闭合标签 meta 提供基本网站元信息的标签 <meta charset="UTF-8"> <!--标签的属性:使用的编码―'utf-8'--> title 显示网站的标题 link 链接css资源文件、网站图标 <link rel="stylesheet" href="css/index.css"> script 链接脚本js(JavaScript)文件 <script src="js/index.js"> style 内嵌样式 h1~h6标题标签 例: 标题1 p标签 段落标签 <p> 人们感动于老英雄淡泊名利无私奉献的精神,敬佩老党员一辈子深藏功名、坚守初心的境界大家纷纷表示。 </p> &nbsp;空格字符 a (anchor 锚点)超链接标签 href : 链接到一个新的地址 回到顶部 跳转邮箱 下载文件 title 鼠标悬浮上的标题 style 行内样式 target 目标 默认是_self ,在当前页面中打开新的链接 _blank 在新的空白页面打开新的链接 <a href="https://www.apeland.cn" style="text-decoration:none;color:red; " title="小圆圈">小猿圈

html和css入门 (一)

匿名 (未验证) 提交于 2019-12-02 20:21:24
HTML简介 什么是HTML 超文本标记语言(Hyper Text Markup Language) ,这种语言给我们提供一种建立结构性文档的方法。通过表示结构性的标签语法,我们可以创建包含标题,段落,列表,图片以及其他内容的文档。简而言之,HTML语法是用来描述文档内容的。 HTML发展历程 HTML文档结构 要创建一个HTML文档,最简单的方法是创建一个文本文件,然后将其扩展名保存成.html。 组成文档结构的元素只有4个,这也是任何HTML文档都必须有的元素。 <!DOCTYPE html> <html lang="en"> <head> <title>首页</title> </head> <body> <p>My cat is very grumpy</p> </body> </html> HTML元素 开始标签(Opening tag): 开始标签有标签名和尖括号组成。 闭合标签(Closing tag): 闭合标签在标签名之前多了一个斜线(/)。 内容(Content): 元素的内容。 元素(Element): 由开始标签、闭合标签以及标签之间的内容组成。 空元素 并不是所有的元素都由开始标签、内容、闭合标签3部分组成,有些元素只有一个单标签,这些元素通常用来在文档中插入一些东西,比如: 元素会在页面上嵌入一张图片。 <img src="./images/imgdemo

常用python机器学习库总结

佐手、 提交于 2019-12-02 17:08:42
原文地址:https://www.cnblogs.com/Fighting365/p/6132707.html 开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Python工具包可供使用,所以作为Pythoner,也是相当幸福的。如果仔细留意微博和论坛,你会发现很多这方面的分享,自己也Google了一下,发现也有同学总结了“Python机器学习库”,不过总感觉缺少点什么。最近流行一个词,全栈工程师(full stack engineer),作为一个苦逼的程序媛,天然的要把自己打造成一个full stack engineer,而这个过程中,这些Python工具包给自己提供了足够的火力,所以想起了这个系列。当然,这也仅仅是抛砖引玉,希望大家能提供更多的线索,来汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。 1. Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据,这个时候,爬虫就显得格外重要了,幸好