文本分类

CSS 学习手册--Super精心整理

本秂侑毒 提交于 2019-11-28 02:58:11
目录 CSS 简介 1.CSS 简介 CSS 概述 层叠次序 2.CSS 基础语法 CSS 语法 值的不同写法和单位 记得写引号 多重声明: 空格和大小写 3.CSS 高级语法 选择器的分组 继承及其问题 友善地对待Netscape 4 继承是一个诅咒吗? 4.CSS 派生选择器 派生选择器 5.CSS id 选择器 id 选择器 id 选择器和派生选择器 单独的选择器 6.CSS 类选择器 7.CSS 属性选择器 对带有指定属性的 HTML 元素设置样式。 8.CSS 创建 如何插入样式表 多重样式 CSS样式 9.CSS 背景 10.CSS 文本 缩进文本 水平对齐 字间隔 字母间隔 字符转换 文本装饰 处理空白符 文本方向 11.CSS 字体 CSS 字体系列 指定字体系列 字体风格 字体变形 字体加粗 字体大小 CSS 字体属性 12.CSS 链接 设置链接的样式 常见的链接样式 13.CSS 列表 14.CSS 表格 15.CSS 轮廓 轮廓(Outline) 实例: CSS 边框属性 CSS 框模型 16.CSS 框模型概述 浏览器兼容性 17.CSS 内边距 CSS padding 属性 单边内边距属性 内边距的百分比数值 CSS 内边距属性 18.CSS 边框 CSS 边框 边框与背景 边框的样式 边框的宽度 边框的颜色 19.CSS 外边距 CSS margin

【NLP】彻底搞懂BERT

不打扰是莪最后的温柔 提交于 2019-11-27 23:33:37
# 好久没更新博客了,有时候随手在本上写写,或者Evernote上记记,零零散散的笔记带来零零散散的记忆o(╥﹏╥)o。。还是整理到博客上比较有整体性,也方便查阅~ 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是写的不全面半懂不懂,重复内容占绝大多数 (这里弱弱吐槽百度的搜索结果多样化。。) 一句话概括,BERT的出现,彻底改变了 预训练产生词向量 和 下游具体NLP任务 的关系,提出龙骨级的训练词向量概念。 目录:   词向量模型:word2vec, ELMo, BERT比较   BERT细则:Masked LM, Transformer, sentence-level   迁移策略:下游NLP任务调用接口   运行结果:破11项NLP任务最优纪录 一、词向量模型 这里主要横向比较一下word2vec,ELMo,BERT这三个模型,着眼在模型亮点与差别处。 传统意义上来讲,词向量模型是一个工具,可以把真实世界抽象存在的文字转换成可以进行数学公式操作的向量,而对这些向量的操作,才是NLP真正要做的任务。因而某种意义上,NLP任务分成两部分,

使用scikit-learn进行文本分类

为君一笑 提交于 2019-11-27 21:14:53
1. 数据来源 所用的数据是分类好的数据,详细描述见 SMS Spam Collection v. 1 ,可以从 github下载 ,数据在第4章。每一行数据包括包括两列,使用逗号隔开, 第1列是分类(lable),第2列是文本。 sms = pd.read_csv(filename, sep=',', header=0, names=['label','text']) sms.head Out[5]: <bound method DataFrame.head of label text 0 ham Go until jurong point, crazy.. Available only ... 1 ham Ok lar... Joking wif u oni... 2 spam Free entry in 2 a wkly comp to win FA Cup fina... 3 ham U dun say so early hor... U c already then say... 4 ham Nah I don't think he goes to usf, he lives aro... 5 spam FreeMsg Hey there darling it's been 3 week's n... 6 ham Even my brother is not like

NLP之词袋模型二

假如想象 提交于 2019-11-27 19:28:01
在 NLP之词袋模型一 中介绍了最基本利用词袋模型(Bag of Words)进行词向量表达对方法,本文介绍几种提升词袋模型性能的方法。 提升词袋模型性能的方法主要在以下几个方面: 词袋的管理 词向量表达方法的选择 词袋的管理 管理词袋包括:词袋的创建、词袋的维护。 为了更好的管理词袋,我们首先考虑以下几个方面: 词袋可能会很大,特别是当我们处理较多文本的时候。 词袋很大的话,容易导致词向量比较稀疏(即0值特别多)。 因此,通过合理的方法压缩词袋的大小是很有必要的。压缩词袋的方法包括且不限于: 忽略人名、地名等对象的名字 忽略标点符号 忽略高频且无意义的词,如:a,the,的,了 自动改正拼写错误的词 将单词的变形(如过去式、过去分词)统一转化为词干 。。。 此外,还有一种略微复杂点的方法:用词组来组成词袋。以前词袋中是一个个的单词,现在换成词组的形式,不仅可以减少词袋的size,而且会更有意义。这种方法就是N-gram。 N-gram 什么是N-gram,看下面几个例子就明白了。 2-gram 下对上文第一句话的分词: “it was” “was the” “the best” “best of” “of times” 词向量表达方法的选择 词向量中值的分值(数值大小) 一旦选择了词汇表,就需要对示例文档中单词的出现进行评分。 在上文的示例中,我们已经看到了一种非常简单的评分方法

摘要-The Inventor Mentor

我怕爱的太早我们不能终老 提交于 2019-11-27 16:26:29
第一章 综述 什么是Open Inventor 只要对象,不用绘制(Objects,not Drawings) 。多种方式使用数据对象 。动画 Open Inventor与OpenGL的关系 Inventor工具包 。场景数据库 。节点工具包 。操作器 Inventor组件库 Inventor类树 扩展工具包 -概述Open Inventor的基本概念和分类,讨论Inventor与OpenGL,Inventor与X窗口系统之间的关系。 -认识组成Open Inventor工具包的几个关键组件。 -理解Open Inventor与OpenGL的关系。 -描述扩展Open Inventor的几种方法。 -概要的阐述组成Open Inventor的几个关键组件,并将简要描述如何使用Open Inventor来完成一些特殊的需求。本章还将解释Inventor与我们可能已经很熟悉的编程工具,例如OpenGL和X Window System之间的关系。本章提及大多数的主题都将在以后的章节中作详细解释。 第二章 一个Inventor例子 Hello,Cone 。红色圆锥体 。使用引擎旋转圆锥 。增加上轨迹球操作器 。增加Examiner观察器 命名约定 场景基本类型(Scene Basic Types) Inventor使用的坐标系统 包含文件 -首先创建一个包含有圆锥的简单程序

01_互联网基本原理和HTML入门

对着背影说爱祢 提交于 2019-11-27 15:58:53
从“上网”说开去 1.上网就是请求数据 老师现在进行一个互联网原理的 整体感知 的教学,你注意,整体感知中,一些具体的细节,可能令你没有安全感(很多的知识盲点)。没有关系,老师进行的是“整体感知”,就是为了让你宏观地学习一些东西,先不要在意细节。 网页是真实的物理存在,我们现在来看一下老师购买的一个服务器的操作。 所以我们就能通过网址www.shaoshanhuan.com/ aaa.html 来查看这个页面。 我们来看看文件夹的情况: www.shaoshanhuan.com/ccc/ddd.html 小问题:我们想访问 www.shaoshanhuan.com/haha/xixi/hehe.htm l 那么请问,我们的网页应该放在哪里? 答案:放在haha文件夹中的xixi文件夹中里面。 更深入的问题:我们平时输入网址,都是www.shaoshanhuan.com , 没有后缀 实际上等价于访问了www.shaoshanhuan.com/index.html文件。 index是英语目录、列表的意思,这是默认的首页文件。 文件夹的默认文件,也是index.html www.shaoshanhuan.com/aaa 等价于 www.shaoshanhuan.com/aaa/index.html 总结一下,一会儿我们马上展开研究: 也就是说,上网就是一个请求数据的过程

02_互联网基本原理和HTML入门

筅森魡賤 提交于 2019-11-27 15:58:29
上节课的知识复习 互联网的原理:服务器、浏览器、HTTP。知道网页文件是真实的物理存在,用HTTP请求这个文件。 要知道网址的含义: http://www.iqianduan.cn/aaa 请求哪个文件? 请求的是iqianduan.cn服务器上的aaa文件夹中的index.html文件。拓展一下,服务器可以进行默认页面的配置,比如配置为default.html或者default.php等等。但是默认的是index.html。 HTML页面是真正的传输到了你的电脑里面进行渲染的,保存这些文件的文件夹,临时文件夹。 纯文本: 只有字,没有样式。txt、html、java、php、css、js等等。能用记事本打开,并且打开之后不是乱码的,就是纯文本文件。 HTML是负责描述语义的 : <h1>我是一个主标题</h1> 功能是给文本增加“主标题”的语义,而不是变大黑粗。 p的功能是增加“段落”的语义。 Sublime使用: 任何的纯文本编辑器都能编辑网页html文件。学习的是编程,而不是某种软件。 骨架: <!DTD> <html> <head> </head> <body> </body> </html> DTD: HTML4.01 3种 , XHTML1.0 3种。 XHTML1.0明确的规定了标签名必须小写、所有的属性都是双引号封闭、自封闭结尾反斜杠。 strict : 严格版本

css样式

江枫思渺然 提交于 2019-11-27 15:55:08
1 <!DOCTYPE html> 2 <!--表示这是一段注释 --> 3 <html lang="en"> 4 <head> 5 <meta charset="utf-8"> 6 <title>学习css</title> 7 <!--style type="text/css"></style>--> style必须在head标签内 8 9 一.添加方法: 10 行内添加:标签内设置属性 11 内嵌添加:引用选择器设置样式 12 单独文件添加:通过链接外部文件设置样式 13 14 优先级:离元素就近原则 行内>内嵌>单独(链接)>浏览器默认样式 15 16 二.选择器类型:以下7种用法 17 标签选择器:与标签同名,如:body{},div{},p{}... 18 class选择器:即类别选择器,通过class属性值引用,以点.名称{}引用,如:.one{},.two{}... 19 id选择器:具有唯一性,通过id属性值引用,一般只引用一次,以#名称{}引用,如:#one{},#two{}... 20 嵌套声明:标签内在嵌套标签,格式标签空格标签{},如:p span{} 21 集体声明:多个标签一起引用,格式标签逗号标签{},如:h1,p{} 22 全局声明:全部标签一起引用,格式用*{}代表全部,可以清除浏览器默认样式,如:*{} 23 混合:1.多个class选择器混用

正则表达式

旧城冷巷雨未停 提交于 2019-11-27 15:14:30
正则表达式到底是什么东西? 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。 正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 很可能你使用过Windows/Dos下用于文件查找的 通配符(wildcard),也就是 *和 ?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里, *会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂——比如你可以编写一个正则表达式,用来查找 所有以0开头,后面跟着2-3个数字,然后是一个连字号"-",最后是7或8位数字的字符串(像 010-12345678或 0376-7654321)。 注:字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等等。 字符串是0个或更多个字符的序列。 文本也就是文字,字符串。说某个字符串 匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。 入门 学习正则表达式的最好方法是从例子开始,理解例子之后再自己对例子进行修改,实验。下面给出了不少简单的例子,并对它们作了详细的说明。 假设你在一篇英文小说里查找 hi,你可以使用正则表达式 hi。 这几乎是最简单的正则表达式了

XML基础知识归纳(通俗易懂)

末鹿安然 提交于 2019-11-27 13:09:12
XML:可扩展标记型语言 随着json等一些技术的普及,似乎xml的路子越来越窄,虽然xml的一些功能被其他的一些技术代替,但是学习xml还是非常有必要,如果用xml存储一些大量数据,还是有一定优势的,就算你不管这些,但是现有的很多框架以及技术的配置文件都存在于xml中,最起码你得对它的结构以及一些基本用法有一定了解 (一) 基本概述 (1) 概念 XML:Extensible Markup Language:可扩展标记型语言 标记型 :使用标签来操作,html就是一种常见的标记型语言 可扩展 :可以自定义标签,甚至可以用中文写标签 Eg: <person></person <张三><张三> (2) 用途 xml 主要用来存储数据,体现在 作配置文件 ,或者 充当小型数据库 ,在 网络中传输数据 A:配置文件:例如配置mysql数据库 前面我们常常书写 一个 jdbc.properties文件来做配置文件,好处呢就是如果想修改数据库的信息,不需要修改源代码,只要修改配置文件就可以了,而xml也可以作为配置文件来使用 url=jdbc:mysql://localhost:3306/db1 user=root password=root99 driver=com.mysql.jdbc.Driver <!--例如模拟配置mysql数据库 只为假设,与前面知识对应,实际配置文件后期会很常见