文本分类

文件处理

纵然是瞬间 提交于 2020-02-15 05:42:25
目录 一、字符编码 1.1计算机基础   1.2文本编译器存取文件的原理   1.3Python解释器执行py文件的原理   1.4 Python解释器与文本编译的异同   1.5 字符编码介绍     1.5.1 什么是字符编码     1.5.2 涉及到字符编码的两个场景     1.5.3 字符编码发展史与分类     1.5.4内存为什么不用UTF-8呢?     1.5.5 字符编码之文本编译器操作     1.5.6 乱码分析   1.6总结 二、Python2和3字符编码的区别   2、1 字符编码应用之Python   2、1、1 执行Python程序的三个阶段   2、2 Python2与Python3字符串类型的区别   2、2、1 Python2 三、 基本的文件操作   3、1 什么是文件?   3、2 为什么要有文件?   3、3 如何用文件?   3、4 总结 四、绝对路径和相对路径   4、1 绝对路径   4、2 相对路径 五、文件的三种打开方式   5、1 文件打开模式之r模式   5、2 文件打开模式之w模式   5、3 文件打开模式之a模式   5、4 文件打开读取二进 六、with管理文件操作上下文 七、文件的高级应用 八、文件修改的两种方式   8、1 方式一   8、2 方式二 一、字符编码 1.1计算机基础 CPU:控制程序的运行

Python短文本自动识别个体是否有自杀倾向【新手必学】

喜你入骨 提交于 2020-02-12 17:43:14
我们以微博树洞为例,讲解了怎么自动爬取单个微博的评论。今天我们就要用上这些数据做一个自杀倾向分类器,这样的分类器如果应用得当,将可以帮助成千上万误入歧途的人们挽回生命。 为了简化问题,我们将短文本分为两种类别中的一种,即要么是正常微博、要么是自杀倾向微博。这样,有了上次的微博树洞,训练集和测试集就非常好获得了。由于是短文本二分类问题,可以使用 scikit-learn 的 SVM 分类模型。 不过要注意的是,我们的分类器并不能保证分类出来的结果百分百正确,毕竟心理状态是很难通过文本准确识别出来的,我们只能通过文字,大致判断其抑郁情况并加以介入。实际上这是一个宁可错杀一百,不可放过一个的问题。毕竟放过一个,可能就有一条生命悄然流逝。 本文源代码: https://github.com/Ckend/suicide-detect-sv... 欢迎一同改进这个项目,在训练集和模型方面,改进的空间还相当大。 PS:另外很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致自己放弃,为此我建了个Python全栈开发交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目可拿,不懂的问题有老司机解决哦,一起相互监督共同进步 1. 数据准备 数据集整体上分两个部分,一部分是训练集、一部分是测试集。其中

浅析微博编辑页面图文混排中遇到的问题

旧巷老猫 提交于 2020-02-11 19:54:41
在表情键盘的图文混排中,会有很多细节问题。有的时候不理解其中的原因是很难改正的。本文主要是整理我遇到的各种问题及解决方案,供大家分享。如果你以前也遇到过类似的问题可以用我的方法修正了,希望能够对博友们有所帮助。本文使用swift语言,OC的可能看不惯,但大多方法基本是一样的就是语法不同。 上期回顾: 关于微博编辑页面添加表情键盘 如果你不是在董铂然博客园看到本文, 请点击查看原文 。 1.默认每添加一个表情是添加到最后,但是我们想添加到光标位置 默认做法(其中的str是通过点击某个表情通过代理传来的表情字符串) // 会把用户选择的表情,拼接到最后! textView.text = textView.text + (str ?? "")! 如果想插入到光标位置 // 在用户光标位置插入表情文本 textView.replaceRange(textView.selectedTextRange!, withText: str!) 2.添加后的图标大小不一样。 解决方法:给所有的range设置一个统一的格式 // 设置整个属性字符串中的文本属性 let range = NSMakeRange(0, strM.length) // 让 可变的属性文本 的字体 和 textView 的保持一致! strM.addAttribute(NSFontAttributeName, value:

Vim快捷键分类

纵饮孤独 提交于 2020-02-10 02:56:20
别用ESC了,用ctrl-[ 更快捷 一. 移动: h,j,k,l: 左,下,上,右。 w: 下一个词的词首。 e:下一个词的词尾。 b:上一个词的词首。 <>: v 模式选中后进行缩进。 二. 跳转: %: 可以匹配{},"",(),[]之间跳转。 H、M、L:直接跳转到当前屏幕的顶部、中部、底部。 #H:跳转到当前屏的第#行。 #L:跳转到当前屏的倒数第#行。 zt: 当前编辑行置为屏顶。 zz: 当前编辑行置为屏中。 zb: 当前编辑行置为屏底。 G:直接跳转到文件的底部。 gg: 跳转到文件首。 ():跳转到当前的行首、行尾。 {}:向上、向下跳转到最近的空行。 [{:跳转到目前区块开头。 ]}:跳转到目前区块结尾。 0: 跳转到行首。 $: 跳转到行尾。 2$: 跳转到下一行的行尾。 #:跳转到该行的第#个位置。 #G: 15G,跳转到15行。 :#:跳转到#行。 f'n':跳转到下一个"n"字母后。 ctrl+b: 向后翻一页。 ctrl+f:向前翻一页。 ctrl+u: 向后翻半页。 ctrl+d: 向前翻半页。 ctry+e: 下滚一行。 三. 选择: 1.V: 选择一行。 2.^V: 矩形选择。 3.v3w: 选择三个字符。 四. 编辑: 1. 新增: i: 光标前插入。 I: 在当前行首插入。 a: 光标后插入。 A: 当前行尾插入。 O: 在当前行之前插入新行

【01】HTML_day01_03-HTML常用标签

荒凉一梦 提交于 2020-02-09 14:44:57
typora-copy-images-to: media 第01阶段.前端基础.HTML常用标签 学习目标 理解: 相对路径三种形式 应用 排版标签 文本格式化标签 图像标签 链接 相对路径,绝对路径的使用 1. HTML常用标签 首先 HTML和CSS是两种完全不同的语言,我们学的是结构,就只写HTML标签,认识标签就可以了。 不会再给结构标签指定样式了。 HTML标签有很多,这里我们学习最为常用的,后面有些较少用的,我们可以查下手册就可以了。 1.1 排版标签 排版标签主要和css搭配使用,显示网页结构的标签,是网页布局最常用的标签。 1)标题标签h (熟记) 单词缩写: head 头部. 标题 title 文档标题 为了使网页更具有语义化,我们经常会在页面中用到标题标签,HTML提供了6个等级的标题,即 标题标签语义: 作为标题使用,并且依据重要性递减 其基本语法格式如下: <h1> 标题文本 </h1> <h2> 标题文本 </h2> <h3> 标题文本 </h3> <h4> 标题文本 </h4> <h5> 标题文本 </h5> <h6> 标题文本 </h6> 显示效果如下: 小结 : 加了标题的文字会变的加粗,字号也会依次变大 一行是只能放一个标题的 传智播客学前端,    前端入门亦简单。    简单知识简单看,    重点勤练写三遍。    标题一共六级选,   

卷积神经网络 处理文本:word2vec、TF-IDF、TextRank、字符卷积、词卷积、卷积神经网络文本分类模型的实现(Conv1D一维卷积、Conv2D二维卷积)

我与影子孤独终老i 提交于 2020-02-08 06:22:14
nltk 处理文本 注意力机制 SENet、CBAM 卷积神经网络 处理文本:word2vec、TF-IDF、TextRank、字符卷积、词卷积、卷积神经网络文本分类模型的实现(Conv1D一维卷积、Conv2D二维卷积) 反向传播、链式求导 梯度下降 最小二乘法(LS算法):实际为L2范数的一个具体应用(计算残差平方和) 线性回归 例子 ##### 文本分类使用的tools ##### import re import csv import tensorflow as tf #文本清理函数 def text_clearTitle_word2vec(text,n=12): text = text.lower() #将文本转化成小写 text = re.sub(r"[^a-z]"," ",text) #替换非标准字符,^是求反操作。 text = re.sub(r" +", " ", text) #替换多重空格 #text = re.sub(" ", "", text) #替换隔断空格 text = text.strip() #取出首尾空格 text = text + " eos" #添加结束符 text = text.split(" ") return text #将标签转为one-hot格式函数 def get_label_one_hot(list): values = np

知识图谱是什么?

独自空忆成欢 提交于 2020-02-06 18:28:49
知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。 1. 定义 官方定义:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。 实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。 由上图,可以看到实体有地名和人;大理属于云南、小明住在大理、小明和小秦是朋友,这些都是实体与实体之间的关系。 通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。 2. 可视化表现 如果我们在百度搜索“周杰伦的老婆”的时候,搜索结果不是周杰伦,而是直接返回了昆凌的信息卡片,为什么呢? 因为底层知识图谱已经有了周杰伦和昆凌是夫妻关系,所以可以理解到你要找的是昆凌,而不是周杰伦,这也说明了知识图谱有理解用户意图的能力。 02 知识图谱构建的关键技术 知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为

决策树算法(四)

对着背影说爱祢 提交于 2020-02-04 10:24:09
8.特征提取 1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 2 特征提取API sklearn . feature_extraction 3 字典特征提取 作用:对字典数据进行特征值化 sklearn.feature_extraction.DictVectorizer(sparse=True,…) DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值 返回sparse矩阵 DictVectorizer.get_feature_names() 返回类别名称 3.1.使用 from sklearn . feature_extraction import DictVectorizer def dict_demo ( ) : """ 对字典类型的数据进行特征抽取 :return: None """ data = [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] # 1、实例化一个转换器类

[读论文]懒价格

让人想犯罪 __ 提交于 2020-02-03 15:18:40
COHEN, L., MALLOY, C. and NGUYEN, Q. (2020), Lazy Prices. The Journal of Finance. Accepted Author Manuscript. doi:10.1111/jofi.12885 哈佛商学院Lauren Cohen的这篇Lazy Prices,2018年放在NBER上,现在已经被Journal of Finance接收了。这篇文章的题目就挺吸引人的,故事也是蛮精彩。 文章的核心故事是说,公司会对会计文本信息进行更改,包括高管对企业经营状况描述的措辞方式会发生转变,而这些变化与公司股价和未来经营情况都是显著相关的。甚至于,如果在Fama-French五因子的基础上,卖出信息变化的股票并买入信息不变的股票,构建的这一投资组合可产生年化22%的alpha收益! 从三个方面简单总结一下这篇文章的主要工作: 度量披露信息的变化 作者从SEC的EDGAR系统中提取了1995年到2014年所有的常规季度披露信息(10-K,10-Q等)的电子文件。将其中数字字符数量占比大于15%的段落去除,留下文本内容。作者使用了四种自然语言处理(NLP)领域的常见方法来度量季度披露信息之间的相似度: (1)余弦相似度(cosine similarity),即文本的单词向量之间的夹角,夹角越小表示文本相似度越高。 (2

NLP入门(1)

扶醉桌前 提交于 2020-02-03 15:16:04
自然语言处理,简称:NLP,是指对人们平时日常使用的交流语言进行处理的一项技术。NLP 经过多年的发展,现今可以划分为两部分内容,即:自然语言的理解和自然语言的生成。 本文将以文本分类为目标,介绍自然语言处理相关的基础操作和应用。 (来自 https://www.shiyanlou.com/courses/1208 ) 做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 术语解释: 分词:词是 NLP 中能够独立活动的有意义的语言成分。即使某个中文单字也有活动的意义,但其实这些单字也是词,属于单字成词。 词性标注:给每个词语的词性进行标注,比如 跑/动词、美丽的/形容词等等。 命名实体识别:从文本中识别出具有特定类别的实体。像是识别文本中的日期,地名等等。 词义消歧:多义词判断最合理的词义。 句法分析:解析句子中各个成分的依赖关系。 指代消解:消除和解释代词「这个,他,你」等的指代问题。 1.Python字符串操作 变量名.count("A"):返回子串A在字符串中出现的次数 .strip() 方法可以去除字符串首尾的指定符号。无指定时,默认去除空格符 ' ' 和换行符 '\n'