文本分类

用例建模Use Case Modeling

删除回忆录丶 提交于 2019-12-03 05:28:00
---恢复内容开始---   我的工程实践项目为《基于情感词典的文本情感分析》,情感分析是指通过机器学习或者自然语言处理技术,从文本中分析出人们对实体或属性所表达的观点、情感、评价、态度和情绪,情感分析也被称为情感挖掘、意见挖掘、观点抽取等。文本情感分析的主要任务是判断文本的情感倾向性,即对作者表达的情感是积极的还是消极的,正面的还是负面的,褒义的还是贬义的判断,因此也被情感分类。基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟。其原理通过考察并分析文本中所有的具有情感色彩的词语,并对这些词语以及修饰词的情感强度进行量化加权来计算整个文本情感倾向的方法。其具体的实现方法为:首先对输入文本进行分词和去除停用词,然后将每个处理过的分词与构建的情感词典进行匹配,最后根据匹配结果得到文本的情感极性。主要的用例有: 获取数据集:本项目所针对的目标是京东电子商品评论,获取数据集的主要方式有网络爬虫,下载公开数据集、利用公开API获取。 数据预处理:主要的工作是对原始数据进行去重、缺失值处理、分词和去除停用词。 构建领域情感词典:领域情感词典的构建是本项目的主要工作,实现的方式为在公开的情感词典基础上利用语义的相识度来进行扩充,计算相识度的主要方法有word2vec、PMI算法 情感分析:主要的任务是利用文本分词与领域情感词典的匹配情况,得到情感值

BizCharts使用采坑教程

一个人想着一个人 提交于 2019-12-03 04:53:47
了不起的BizCharts 最近项目的管理后台都在用阿里粑粑开源的管理框架 Ant Design Pro ,说真话,还是比较好用的。该框架内部也封装了一些图标插件,但是在最近的一个项目中发现,这些图标可定制性还是差了点,不能满足客户需求。 好在它的后面也介绍了自己亲生的BizChart可视化图表组件,因为定制性比较高,但是api中的介绍又不是每个都有例子,更没有组合使用的例子,经过度娘介绍,发现这片文章备受我青睐,我怕作者哪天不高兴放弃了,所以转存了一份,顺便把自己实践到的补充到后面。 原文 作为一个前端打字员,除了绿茶婊之外,最讨厌的就是图表:一个让我伤心,一个让我难过;比这更讨厌的就是文档写得不清不楚的图表库(大概率是九年义务教育期间没有学好语文),让我又爱又恨!所以本篇博文会比较枯燥,只简单描述一下使用BizCharts的过程,当然,重要的是总结遇到的坑(遵从一个坑不踩两次,一个女生不泡两次原则)。 By the way,提到BizCharts,让我们感谢一下阿里巴巴:其开源了这个好用的(虽然偶尔不那么好用,还偶得挺经常的)的react图表库供大家使用,对使用react技术栈的前端打字员来说简直就是福音。本文不会有过多的api解释,具体的接口可以看官网文档鬼门关。 正经篇幅 刚开始,视觉设计师哄我说:“我的要求并不高,待我从前一样好”,啊呸,说错了,“我的要求是

【转载】poi读取word文档

断了今生、忘了曾经 提交于 2019-12-03 04:30:06
转载地址: https://blog.csdn.net/wangxintong_1992/article/details/80920843 目录 1 读docx文件 1.1 通过XWPFWordExtractor读 1.2 通过XWPFDocument读 2 写docx文件 2.1 直接通过XWPFDocument生成 2.2 以docx文件作为模板 POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象: l XWPFParagraph:代表一个段落。 l XWPFRun:代表具有相同属性的一段文本。 l XWPFTable:代表一个表格。 l XWPFTableRow:表格的一行。 l XWPFTableCell:表格对应的一个单元格。 1 读docx文件 跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。 1.1 通过XWPFWordExtractor读

文本分类实例

匿名 (未验证) 提交于 2019-12-03 00:40:02
Python机器学习项目的模板 1.定义问题 a)导入类库 b)导入数据集 from sklearn.datasets import load_files from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn.naive_bayes import MultinomialNB from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report from sklearn.metrics import accuracy_score from sklearn.model_selection import cross_val_score from sklearn.model_selection

数据挖掘学习(三)――文本挖掘

匿名 (未验证) 提交于 2019-12-03 00:38:01
对情感进行分析,对评论数据进行相应的分析。 可以用结巴进行分词,主要是划分各文本之间的关系,进行分词操作。 Dict.txt是指结巴使用的分词,也可以自己定义相应的结巴词典,也可以下载一些好用的词典。 第一个参数:我们的词汇; 第二个参数:词频(即重要的程度); 第三个参数:词性 1)使用jieba进行分词: #!/usr/bin/env python # _*_ UTF-8 _*_ import jieba sentence = " 我喜欢东方明珠 " # cut_all=True :为全模式。 # cut_all=FALSE :精准模式。 words = jieba.cut(sentence , cut_all = True ) print (words) # 全模式分词,用的是循环才能获取相应的结果,如果直接 print 则显示不成功。 for item in words: print (item) print ( "----------------" ) # 精准模式分词。 words2 = jieba.cut(sentence , cut_all = False ) for item in words2: print (item) print ( "----------------" ) # 搜索引擎分词: words3 = jieba.cut_for_search

文本挖掘预处理之TF-IDF

匿名 (未验证) 提交于 2019-12-03 00:37:01
原文: http://www.cnblogs.com/pinard/p/6693230.html  在 文本挖掘预处理之向量化与Hash Trick 中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足     在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在 文本挖掘预处理之向量化与Hash Trick 这篇文章中,我们将下面4个短文本做了词频统计: corpus =[ " I come to China to travel " , " This is a car polupar in China " , " I love tea and Apple " , " The work is to write some papers in science " ]     不考虑停用词,处理后得到的词向量如下: [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0

对于单条短文本数据的分类(噪声数据过滤)

匿名 (未验证) 提交于 2019-12-03 00:37:01
VERB - verbs (all tenses and modes) 动词 NOUN - nouns (common and proper) 名词 PRON - pronouns 代词(人称代词) ADJ - adjectives 形容词 ADV - adverbs 副词 ADP - adpositions (prepositions and postpositions) 介词 CONJ - conjunctions 连接词 DET - determiners 限定词 NUM - cardinal numbers 数字 PRT - particles or other function words 小品词或结构词、虚词 X - other: foreign words, typos, abbreviations 缩略词等 . - punctuation 标点 无用推文 [(('NOUN', 'NOUN'), 2575), (('PRON', 'VERB'), 1498), (('NOUN', 'VERB'), 1268), (('DET', 'NOUN'), 1047), (('VERB', 'VERB'), 981), (('ADJ', 'NOUN'), 873), (('VERB', 'PRON'), 853), (('NOUN', 'ADP'), 765), (('VERB

分类算法(二)―― FastText

匿名 (未验证) 提交于 2019-12-03 00:22:01
原理介绍 fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。 fastText的架构和word2vec中的CBOW的架构类似,因为它们的作者都是Facebook的科学家Tomas Mikolov,而且确实fastText也算是words2vec所衍生出来的。 安装 重点说问题,上代码。 解决方法 代码示例 训练数据和测试数据来自网盘: https://pan.baidu.com/s/1jH7wyOY https://pan.baidu.com/s/1slGlPgx 参考链接: https://blog.csdn.net/john_bh/article/details/79268850 https://blog.csdn.net/grafx/article/details/78697881 https://blog.csdn.net/yick_liao/article/details/62222153 https://blog.csdn.net/sinat_26917383/article/details/54850933 https://blog.csdn.net/lxg0807/article/details/52960072 文章来源

文本关键词提取小结

匿名 (未验证) 提交于 2019-12-03 00:22:01
网上看到一篇文章总结了几个关键词抽取的算法( 如何做好文本关键词提取?从达观数据应用的三种算法说起 ),想到这是一个很重要的课题还是有必要小结一下的,有不足之处大家可以讨论讨论 还有几个比较好的链接供大家参考 中文分词原理及工具 中文分词工具测评 自然语言处理入门(4)――中文分词原理及分词工具介绍 大体上关键词抽取算法分三种:有监督(二分类问题,需提供大量标注好的训练数据),半监督(提供少量的有标注的训练数据作为种子数据构建模型),无监督(一些方法自动发现关键词) 有监督的方法需要大量的标注数据,这一点比较耗费人工,所以还是能无监督就无监督 对英语来说可以直接考虑以词语为单位,但是汉语处理还需要先经过分词处理,分词的准确率影响后来的算法准确率,分词的package包括jieba(github上有很多),NLTK,standford的分词器,清华大学,哈尔滨工业大学,中科院计算所都有各自的分词工具等等,不一而足,当然也可以自己尝试使用HMM,CRF等模型自己写一个分词工具 基于统计的关键词抽取 利用文档中的词语统计信息抽取,比如基于词性,词频,逆文本频率等,还可以依据词在文档中出现的位置提取 词性:现在的关键词绝大多数为名词或动名词,因为这些结构有比较大的,不容易产生歧义的信息量,可与其他指标结合 词频:一般来说一个词在文档中出现的次数越多越重要

js-浅谈DDOM的操作

匿名 (未验证) 提交于 2019-12-03 00:05:01
①DOM的分层结构(节点树): 节点关系: 节点的分类: 属性节点:指的是HTML标签的属性。 文本节点:指的是HTML标签的内容。 空白节点:在主流浏览器中标签和标签之间的换行会理解为一个空白节点,在IE浏览器中不会。 ②访问节点的方法: 1.getElementById(id) 获取网页指定id名字的元素。返回一个对象。 注意:1.不是所有标签都有name值; 2.在低版本的浏览器中,getElementsByName和getElementsByClassName有兼容性。 ES5选择器: ③节点属性的基本操作: 写在元素内的所有东西都是元素的属性,如link的href,img的src等。 元素的属性分为内置属性和非内置属性。 内置属性举例: 内置属性是标签固有的,可以直接使用 节点.属性名 来获取属性值,使用 节点.属性名 = "修改后的内容" 来修改属性值。 非内置属性(自定义属性) 获取指定对象的属性名的属性值:节点.getAttribute(name) 给指定对象设置属性名和属性值:节点.setAttribute(name,value) 修改和设置的方法一样。修改的属性名是之前设置过的属性名即可。 移除指定对象的属性:节点.removeAttribute(name) ④节点的公共属性: 父节点.firstChild:返回第一个子节点,包含空白节点(文本节点) 父节点