文本分类

Python—发送邮件

不羁的心 提交于 2020-01-07 13:02:48
Python—发送邮件 一、发送纯文本邮件 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 import smtplib from email.mime.text import MIMEText from email.header import Header subject = "邮件标题" # 邮件的主题 content = "邮件内容" # 邮件的内容 sender = "156823568@qq.com" # 发件人 password = "qnrwndesjxmmijce" # 刚才我们在QQ邮箱里设置的授权密码 receiver = "3239568@qq.com" # 收件人 message = MIMEText(content, "plain" , "utf-8" ) # 发送的内容,内容的格式类型(plain与html),内容的编码方式 message[ "From" ] = sender # 发送邮箱 message[ "To" ] = receiver # 接收邮箱 message[ "Subject" ] = subject # 邮件标题 # message['Subject'] = Header(subject, 'utf-8') # subject # message = '

HTML

≡放荡痞女 提交于 2020-01-04 02:54:25
HTML 一个完整的网页是由html(超文本标记语言),css(层叠样式表)JavaScript(动态脚本语言)三部分组成 一、html 概念:超文本标记语言, “ 超文本 ” 就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素 结构构造:超文本标记语言的结构包括 “ 头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容 声明<!DOCTYPEhtml> html也有多个不同的版本,只有完全明白页面中使用的确切HTML版本,浏览器才能正确地显示HTML页面,这就是用处 什么是标签: 1、有尖括号包围的关键词 2、通常是成对出现的 3、也有单独呈现的标签,如:<img src="百度百科.jpg" />等。 4、标签不区分大小写.<html> 和 <HTML>. 推荐使用小写 5、标签对中的第一个标签是开始标签,第二个标签是结束标签 6、一般成对出现的标签,其内容在两个标签中间。单独呈现的标签,则在标签属性中赋值。如<h1>标题</h1>和 <input type="text" value="按钮" /> 7、有些标签功能比较简单.使用一个标签即可.这种标签叫做自闭和标签.例如: <br/> <hr/> <input /> <img /> 8、标签可以嵌套.但是不能交叉嵌套. <a><b></a></b>

FastReport报表设计(仔细看)

喜欢而已 提交于 2020-01-03 04:27:10
FastReport报表设计 2011-06-16 16:56:19 | 分类: 系统开发 | 举报 | 字号 订阅 下载LOFTER 我的照片书 | 目录 5.1 前言 5.2 基本概念及操作 5.3 报表设计与范例 5.4 常用功能及函数 5.5 报表设计常用技巧 5.1 前言 汽车业务管理系统(VBMS)使用FastReport3.0报表系统设计报表。 本文主要描述使用FastReport设计报表的基本概念、使用方法、设计技巧和范例,不是FastReport的用户手册因此并不针对每个细节进行阐述。立足于建立设计报表的概念和实用技巧范例的讲解,面对的是具有一定计算机操作水平的用户。 在VBMS中使用FastReport设计报表应该掌握以下知识: 1、 熟悉SQL语言,为设计报表准备数据源。 2、 掌握VBMS的数据结构,可参考相关资料。 3、 掌握FastReport报表的设计使用方法。 体系结构 学习报表设计前应当首先弄清楚VBMS系统与FastReport报表设计之间的关系。报表设计的目的是将VBMS数据库(Firebird1.5)中的数据按照需要的视图方式显示、统计出来,并且可以打印、导出。 VBMS数据库与VBMS管理系统以及FastReport报表设计之间的关系是: Firebird数据库系统是报表的数据源,它存储着客户的业务数据

Linux--文本处理三剑客之grep

家住魔仙堡 提交于 2020-01-01 22:51:58
grep概念解释 grep:文本过滤工具,其作用顾名思义是文本搜索工具,根据用户指定的“模式”对目标文本逐行进行匹配检查;打印匹配到 的行。而模式则是由正则表达式字符及文本字符所编写的过滤条件。 grep有三种命令形式:grep、egrep(支持拓展正则表达式搜索)、fgrep(不支持正则表达式搜索)。 使用方法介绍 1.grep的使用方法grep grep 命令选项[options] 条件[pattern] 文件名[filename] 当我们仅需要查看简单一些的文件内容时,可以不使用命令选项,如: 1 [root@localhost(mei) app]# grep root /etc/passwd 2 root:x:0:0:root:/root:/bin/bash 3 operator:x:11:0:operator:/root:/sbin/nologin 4 [root@localhost(mei) app]# grep "$user" /etc/passwd #$USER表示当前用户 5 root:x:0:0:root:/root:/bin/bash 6 bin:x:1:1:bin:/bin:/sbin/nologin 7 daemon:x:2:2:daemon:/sbin:/sbin/nologi grep命令选项如下: --color=auto

自然语言处理入门

心不动则不痛 提交于 2020-01-01 02:54:27
自然语言处理 分类 自然语言理解是个综合的系统工程,涉及了很多细分的学科。 代表声音的 音系学:语言中发音的系统化组织。 代表构词法的 词态学:研究单词构成以及相互之间的关系。 代表语句结构的 句法学:给定文本的那部分是语法正确的。 代表理解的语义 句法学 和 语用学 :给定文本的含义和目的是什么。 语言理解涉及语言、语境和各种语言形式的学科。但总的来说,自然语言理解又可以分为三个方面: 词义分析 句法分析 语义分析 自然语言的生成则是从结构化的数据(可以通俗理解为自然语言理解分析后的数据)以读取的方式自动生成文本。主要有三个阶段: 文本规划:完成结构化数据中的基础内容规划。 语句规划:从结构化数据中组合语句来表达信息流。 实现:产生语法通顺的语句来表达文本。 中文文本分类 做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 研究与应用 NLP 在现在大火的 AI 领域有着十分丰富的应用。总体来说,自然语言处理的研究问题(主要)有下面几种: 信息检索:对大规模文档进行索引。 语音识别:识别包含口语在内的自然语言的声学信号转换成符合预期的信号。 机器翻译:将一种语言翻译成另外一种语言。

文本处理方法概述

喜夏-厌秋 提交于 2020-01-01 02:52:34
https://www.cnblogs.com/arachis/p/text_dig.html 说明:本篇以实践为主,理论部分会尽量给出参考链接 摘要:   1.分词   2.关键词提取   3.词的表示形式   4.主题模型(LDA/TWE)     5.几种常用的NLP工具简介   6.文本挖掘(文本分类,文本标签化)     6.1 数据预处理     6.2 关于文本的特征工程     6.3 关于文本的模型   7.NLP任务(词性标注,句法分析)   8.NLP应用(信息检索,情感分析,文章摘要,OCR,语音识别,图文描述,问答系统,知识图谱)     8.1 知识抽取 内容:   1.分词   分词是文本处理的第一步,词是语言的最基本单元,在后面的文本挖掘中无论是词袋表示还是词向量形式都是依赖于分词的,所以一个好的分词工具是非常重要的。 这里以python的jieba分词进行讲解分词的基本流程,在讲解之前还是想说一下jieba分词的整个工作流程: 图1是jieba切词函数的4个可能过程,图2是一个根据DAG图计算最大概率路径,具体的代码走读请参考 jieba cut源码 讲了这么多,我们还是要回归到实践中去,看下jieba的分词接口 1 # encoding=utf-8 2 import jieba 3 4 seg_list = jieba.cut(

使用机器学习做文本分类知识点总结

孤街浪徒 提交于 2020-01-01 02:04:02
文本分类主要流程 获取数据集 使用爬虫从网上获取。 下载某些网站整理好的数据集。 公司内部数据资源。 数据预处理 数据预处理是按照需求将数据整理出不同的分类,分类预测的源头是经过预处理的数据,所以数据预处理非常重要,会影响到后期文本分类的好坏。 预处理主要分为以下几个步骤: 将数据集按类别做好不同分类 将分类好的数据集分为训练集和测试集 去除数据集中的空字段或对空字段添加标识 对文本进行分词 1. 加载自己需要的分词词典和停用词(使后期模型更加简单、准确) 2. 去除无用的字符符号 3. 进行分词 特征提取 对于文本分类的特征提取目前主要有Bag of Words(词袋法)、TfIdf、Word2Vec、Doc2Vec。 词袋法介绍 对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。没有考虑到单词的顺序,忽略了单词的语义信息。 TfIdf算法介绍 除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量,能够削减高频没有意义的词汇出现带来的影响,挖掘更有意义的特征,相对词袋法来说,文本条目越多,Tfidf的效果会越显著。缺点也是没有考虑到单词的顺序。 Word2Vec算法介绍 Word2Vec的优点就是考虑了一个句子中词与词之间的关系,关于两个词的关系亲疏,word2vec从两个角度去考虑。第一,如果两个词意思比较相近,那么他们的向量夹角或者距离

知识图谱学习笔记(七)——关系抽取

梦想的初衷 提交于 2019-12-31 17:47:56
关系抽取 1. 关系抽取任务定义 定义:Alexander Schutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。 eg. 特朗普是美国的总统。 总统(特朗普,美国) 网络文本信息结构 结构化数据(infobox):置信度高,规模小,缺乏个性化的属性信息 半结构化数据:置信度较高,规模较大,个性化的信息,形式多样,含有噪声 纯文本:置信度低,复杂多样,规模大。 结构化与半结构化文本信息(利用网页结构) 信息块的识别 模板的学习 属性值的抽取 非结构化文本的关系抽取分类 传统关系抽取 评测语料 专家制订类别,人工标注语料 开放域关系抽取 类别自动获取 语料自动生成 语言证据清晰表达的关系 2. 传统关系抽取 任务:给定实体关系类别,给定语料,抽取目标关系对 评测语料(MUC, ACE, KBP, SemEval) 专家标注语料,语料质量高 抽取的目标类别已经定义好 有公认的评价方式 目前主要采用统计机器学习的方法,将关系实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成分类模型,然后再识别实体间关系。 基于特征向量方法: 主要问题:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生描述实体语义关系的各种局部特征和简单的全局特征。 特征选取:从自由文本及其句法结构中抽取出各种词汇特征以及结构化特征

Linux 三剑客 -- awk sed grep

吃可爱长大的小学妹 提交于 2019-12-30 18:51:30
本文由本人收集整理自互联网供自己与网友参考,参考文章均已列出,如有侵权,请告知! 顶配awk,中配sed,标配grep awk 参考 sed 参考 grep 参考 在线查看linux命令速记表 appropos , history two long didn't read 整理 我们都知道,在Linux中一切皆文件,比如配置文件,日志文件,启动文件等等。如果我们相对这些文件进行一些编辑查询等操作时,我们可能会想到一些vi,vim,cat,more等命令。但是这些命令效率不高,这就好比一块空地准备搭建房子,请了10个师傅拿着铁锹挖地基,花了一个月的时间才挖完,而另外一块空地则请了个挖土机,三下五除二就搞定了,这就是效率。而在linux中的“挖土机”有三种型号:顶配awk,中配sed,标配grep。使用这些工具,我们能够在达到同样效果的前提下节省大量的重复性工作,提高效率。 接下来我们就看一下sed的详细说明 sed 是Stream Editor(字符流编辑器)的缩写,简称流编辑器。什么是流?大家可以想象以下流水线,sed就像一个车间一样,文件中的每行字符都是原料,运到sed车间,然后经过一系列的加工处理,最后从流水线下来就变成货物了。 [root@master ~]# dirname /etc/rc.d/init.d/functions /etc/rc.d/init.d [root

echart------属性详细介绍

情到浓时终转凉″ 提交于 2019-12-30 02:13:53
1 theme = { 2 // 全图默认背景 3 // backgroundColor: 'rgba(0,0,0,0)', 4 5 // 默认色板 6 color: ['#ff7f50','#87cefa','#da70d6','#32cd32','#6495ed', 7 '#ff69b4','#ba55d3','#cd5c5c','#ffa500','#40e0d0', 8 '#1e90ff','#ff6347','#7b68ee','#00fa9a','#ffd700', 9 '#6699FF','#ff6666','#3cb371','#b8860b','#30e0e0'], 10 11 // 图表标题 12 title: { 13 x: 'left', // 水平安放位置,默认为左对齐,可选为: 14 // 'center' ¦ 'left' ¦ 'right' 15 // ¦ {number}(x坐标,单位px) 16 y: 'top', // 垂直安放位置,默认为全图顶端,可选为: 17 // 'top' ¦ 'bottom' ¦ 'center' 18 // ¦ {number}(y坐标,单位px) 19 //textAlign: null // 水平对齐方式,默认根据x设置自动调整 20 backgroundColor: 'rgba(0,0,0,0)', 21