文本分类

【转】Python 之Web编程

被刻印的时光 ゝ 提交于 2020-04-07 10:45:39
转: https://www.cnblogs.com/chenyanbin/p/10454503.html 一 、HTML是什么? #   htyper text markup language 即超文本标记语言   超文本:就是指页面内可以包含图片、链接、甚至音乐、程序等非文字元素   标记语言:标记(标签)构成的语言   静态网页:静态的资源,如xxx.html   动态网页:html代码是由某种开发语言根据用户请求动态生成   html文档树结构图: 二 、 什么是标签? #   - 由一对尖括号包裹的单词构成,如<html> 所有标签中的单词不可能从数据开头   - 标签不区分大小写<html>和<HTML>,建议使用小写   - 标签分两部分:开始标签<a>和结束标签</a>,两个标签之间的部分,叫标签体   - 有些标签功能比较简单,使用一个标签即可,这种标签叫做自闭合标签,如:<br/>、<hr/>、<input/>、<img/>   - 标签可以嵌套,但不能交叉嵌套。如:<a><b></a></b> 三 、 标签的属性 #   - 通常是以键值对形式出现的,例如 name="alex"   - 属性只能出现在开始标签 或 自闭合标签中   - 属性名字全部小写,属性值必须使用双引号或单引号包裹,如:name="alex"   - 如果属性值和属性名完全一样

POI读写Word docx文件

不羁的心 提交于 2020-04-07 08:01:13
标签: poi word docx | 发表时间:2014-04-18 15:56 | 作者:234390216 分享到: 出处:http://www.iteye.com 使用 POI 读写 word docx 文件 目录 1 读docx文件 1.1 通过XWPFWordExtractor读 1.2 通过XWPFDocument读 2 写docx文件 2.1 直接通过XWPFDocument生成 2.2 以docx文件作为模板 POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象: l XWPFParagraph:代表一个段落。 l XWPFRun:代表具有相同属性的一段文本。 l XWPFTable:代表一个表格。 l XWPFTableRow:表格的一行。 l XWPFTableCell:表格对应的一个单元格。 1 读docx文件 跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。 1.1

文本处理工具和正则表达式

三世轮回 提交于 2020-04-06 09:46:03
1 文本编辑工具之神VIM 1.1 vi和vim简介 在Linux中我们经常编辑修改文本文件,即由ASCII,Unicode或其他编码的纯文字的文件。 文本编辑种类: 全屏编辑器:nano(字符工具),gedit(图形化工具),vi,vim 行编辑器:sed vi Visual editor,文本编辑器,是Linux必备工具之一,功能强大,学习曲线较陡峭,学习难度大 vim VIsual editor iMproved,和vi使用方法一致,但功能更为强大。 1.2 使用vim初步 1.2.1 vim命令格式 vim [OPTION]... FILE... 常用选项 +# 打开文件后,让光标处于第#行的行首,+默认行尾 +/PATTERN 让光标处于第一个被PATTERN匹配到的行行首 -b file 二进制方式打开文件 -d file1 file2... 比较多个文件,相当于vimdiff -m file 只读打开文件 -e file 直接进入ex模式,相当于执行ex file 说明: 如果该文件存在,文件被打开并显示内容 如果该文件不存在,当编辑后第一次存盘时创建它 1.2.2 三种主要模式和转换 vim是一个模式编辑器,击键行为是依赖于vim的“模式” 三种常见模式: 命令或普通(Normal)模式:默认模式,可以实现移动光标,剪切/粘贴文本 插入(Insert)或编辑模式

Python数据预处理:机器学习、人工智能通用技术(1)

僤鯓⒐⒋嵵緔 提交于 2020-04-06 04:54:40
Python数据预处理:机器学习、人工智能通用技术 白宁超 2018年12月24日17:28:26 摘要: 大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据,严重影响到数据建模的执行效率,甚至可能导致模型结果的偏差,因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后,不仅提高了数据质量,而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。( 本文原创,转载必须注明出处 .) 1 什么是数据预处理 数据预处理简而言之就是将 原始数据 装进一个 预处理的黑匣子 之后,产生出 高质量数据 用来适应相关技术或者算法模型。为了大家更明确的了解数据预处理,我们举个新闻分类的例子: 将原始的数据直接进行分类模型训练,分类器准确率和召回率都比较低。因为我们原始数据存在很多干扰项,比如 的 , 是 等这些所谓停用词特征对分类起的作用不大,很难达到工程应用。 我们将原始数据放假预处理黑匣子后,会自动过滤掉干扰数据,并且还会按照规约的方法体现每个词特征的重要性,然后将词特征压缩变换在数值型矩阵中,再通过分类器就会取得不错的效果,可以进行工程应用。 总结 :数据预处理前的数据存在不完整、偏态、噪声、特征比重、特征维度、缺失值

一丶HTML介绍

為{幸葍}努か 提交于 2020-03-30 02:17:02
import socket def main(): sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) sock.bind(('localhost',8089)) sock.listen(5) while True: connection, address = sock.accept() buf = connection.recv(1024) connection.sendall(bytes("HTTP/1.1 201 OK\r\n\r\n","utf8")) connection.sendall(bytes("<h1>Hello,World</h1>","utf8")) connection.close() if __name__ == '__main__': main() html css 以及js的关系 HTML的学习 HTML 是什么? htyper text markup language 即 超文本标记语言 超文本: 就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。 标记语言: 标记(标签)构成的语言. 网页==HTML文档,由浏览器解析,用来展示的 静态网页: 静态的资源,如xxx.html 动态网页: html代码是由某种开发语言根据用户请求动态生成的 html文档树形结构图: 什么是标签

Word是保存网页最好的工具

只谈情不闲聊 提交于 2020-03-25 19:37:33
题记: 上网看到好的文章资料等,总想将其保存到自己的硬盘。据我实践.用 Word 来保存网上的资料.是不错的选择,因为 Word 保存的内容便于编辑.处理.满足您不同的需求。 网页成为重要的“知识来源”是一种趋势,收藏和再加工网页及管理收集的网页成为一项日常的“学习活动”。 MS Word 的普及、易用性和对网页编辑良好的支持(对非网页设计者而言),成为网页收集加工等的首选基础平台。 针式个人知识库管理系统 正是基于此种想法的一个作品,方便“天天在学习”的知识工作者,收集网页、加工(格式处理、标注)等和搜索等 平时,我们往往会将一些觉得不错的网页进行收藏,以备用。 因为经自己的筛选、判断,所以针对要解决的问题的相关度很高,且经过自己的加工,基本可以达到“高质量” 。 用 Word 来保存网页,最大的好处就是可以再编辑,去除一些无用的内容、不正确的内容和可以添加自己的内容等等。 针式个人知识库管理系统提供将分散的 Word 文件集中,提供方便的组织和检索功能等,让您可以专心于资料,而不必分心于文件管理等 。 一般步骤: 1、 复制要收集网页的内容 2、 粘贴的知识点的 Word 文档中 3、 有时可能要去除多余表格和对一些丢失的图片进行处理。 去除多余表格的技巧一般有: 1、 只要文字部分的,可以先复制到 Notepad (记事本)中,再复制粘贴到知识点的 Word 文档中 2、

SAP 讲解史上最牛smartforms

久未见 提交于 2020-03-25 15:47:44
Smart Forms. 1 文本模块... 2 节点元素... 3 Page节点... 3 窗口元素... 4 文本节点... 4 图形节点SE78. 5 模板节点... 6 地址节点... 7 样式... 7 小技巧:查看Form生成的函数... 9 SmartForm强制分页(抬头、项目表都显示)... 9 打印参数控制... 14 一次性输出多张报表... 15 SmartForm转PDF乱码问题... 15 定义打印机纸张类型... 16 Table节点循环问题... 19 ScriptForm转PDF并发送邮件... 19 SmartForm转PDF. 20 Smartform中多套页面之间的跳转(强制分页)... 22 smartform输出格式(输入类型)设置... 24 修改Smartform对象所在的包... 26 ScriptForm导出与导入、拷贝... 26 ScriptForm中调用Form.. 27 在程序中改变ScriptForm的起始页... 27 为ScriptForm增加后继页面... 28 Script\SmartForms使用禁用Word编辑器 Smart Forms Smart Forms是在SAPScript的基础上产生的一种新的表单制作方式,它完全兼容SAPScript。但Smart Forms 更独立,且使用起来更加方便

使用scikit-learn进行文本分类

拈花ヽ惹草 提交于 2020-03-23 18:45:59
3 月,跳不动了?>>> scikit-learn简介 scikit-learn 是Python最为流行的一个机器学习库。它具有如下吸引人的特点: 简单、高效且异常丰富的数据挖掘/数据分析算法实现; 基于NumPy,SciPy,以及matplotlib,从数据探索性分析,数据可视化到算法实现,整个过程一体化实现; 开源,有非常丰富的学习文档。 尤其是当我们要进行多种算法的效果对比评价,这种一体化实现的优势就更加能够凸显出来了。 既然 scikit-learn 模块如此重要,废话不多说,下面马上开搞! 项目组织及文件加载 项目组织 工作路径:`D:\my_python_workfile\Thesis\sklearn_exercise` |--data:用于存放数据 |--20news-bydate:练习用数据集 |--20news-bydate-train:训练集 |--20news-bydate-test:测试集 文件加载 假设我们需要加载的数据,组织结构如下: container_folder/ category_1_folder/ file_1.txt file_2.txt ... file_42.txt category_2_folder/ file_43.txt file_44.txt ... 可以使用以下函数进行数据的加载: sklearn.datasets.load

重磅!「自然语言处理(NLP)」一文带你了解TF-IDF

纵饮孤独 提交于 2020-03-17 07:59:13
来源: AINLPer 微信公众号( 每日更新… ) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-12 引言     本文主要整理TF-IDF的基本内容,能够让你很快了解TF-IDF到底是什么,为什么会存在,以及其优缺点? 1、向量化特征缺失     在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计: corpus = [ "I come to China to travel" , "This is a car polupar in China" , "I love tea and Apple " , "The work is to write some papers in science" ]     不考虑停用词,处理后得到的词向量如下: [ [ 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0 ] [ 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 ] [ 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 ] [ 0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1 ] ]     如果我们直接将统计词频后的19维特征做为文本分类的输入,会发现有一些问题。比如第一个文本,我们发现"come

文本深度特征提取

隐身守侯 提交于 2020-03-15 17:44:24
文本深度特征提取 注:本文内容摘自《深度学习算法实践》 为何要研究文本深度特征? ——因为文本深度特征无论对于文本分类还是文本预测,都是非常重要的。 文本特征的提取说白了就是将自然语言理解的问题转化成机器学习的问题。第一步肯定是找一种合适的方法,把语言表达数学化,即用可量化的方式来表示文本的特征。 下面将简单介绍一下文本的深度特征是如何量化的。 词特征表示 文本的深度特征有四种表示方法: 词表法 顾名思义,就是把词进行剔重、排序,和相对应的序号一一对应,形成字典。 举个例子: "今天天气甚好" (今天,1) (天气,2) (甚好,3) 那么,今天天气甚好,用向量表达就是[1,2,3],这样就方便扔到模型中进行计算了。 一般来说,对于Embedding层的输入基本上都使用词表示法处理后的向量表达。 Embedding层是什么? 是将词表中的单词在字典中的位置(索引)映射为固定维度的稠密的向量。 在Embedding这种结构出现之前,一般先用word2vec计算词向量,然后将词向量作为模型的输入层,计算词向量部分和模型是两个部分,而embedding出现后,就将这两个部分合并在一个模型中,输入层数据不是词向量,而是词在字典中的位置。Embedding主要不是作为降维使用,而是作为一种特征表示使用。 One-Hot表示 原理很简单,就是将每个词表示为一个向量,向量的长度就是句子的长度