文本分类

文本三剑客之awk

房东的猫 提交于 2019-12-01 10:25:01
awk介绍 1 awk:Aho, Weinberger, Kernighan,报告生成器,格式化文本输出 2 有多种版本:New awk(nawk),GNU awk( gawk) 3 gawk:模式扫描和处理语言 4 基本用法: 5 awk [options] 'program' var=value file… 6 awk [options] -f programfile var=value file… 7 awk [options] 'BEGIN{action;… }pattern{action;… }END{action;… }' file ... 8 awk 程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块,共3部分组成 9 program (程序)通常是被放在单引号中 awk的工作原理 1 第一步:执行BEGIN{action;… }语句块中的语句 2 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块, 3 它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。 4 第三步:当读至输入流末尾时,执行END{action;…}语句块 5 BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块, 6 比如变量初始化

HTML

只愿长相守 提交于 2019-12-01 10:14:14
HTML web标准 w3c:万维网联盟组织,用来制定web标准的机构 web标准:制作网页遵循的规范 web标准的规范:结构标准,表现标准,行为标准 结构:html 表示:css 行为:javascript(js) 总结说明: 结构标准:相当于人的骨架。html就是用来制作网页的。 表现标准:相当于人的衣服。css是用来给网页进行美化的。 行为标准:相当于人的动作。JS就是让网页动起来,具有生命力 浏览器介绍: 强烈推荐: 浏览器 内核 火狐浏览器 gecko 谷歌浏览器 blink PS:「浏览器内核」也就是浏览器所采用的「渲染引擎」,渲染引擎决定了浏览器如何显示网页的内容以及页面的格式信息。 总结:渲染引擎是兼容性问题出现的根本原因。 开发工具 Visual Studio Code WebStorm Sublime text PyCharm .... html介绍 html全称(HyperText Markup Language): 超文本标记语言 ,不是一种编程语言。 是一种描述性的标记语言,用来描述超文本的显示方式。比如字体,颜色,大小等。 超文本:音频,视频,图片称为超文本 标记:称为标记,一个html页面都是由各种标记组成 作用 :html是负责描述文档 语义 的语言 注意 :HTML语言不是编程语言,而是一个标记语言( 没有编译过程 )

CSS

折月煮酒 提交于 2019-12-01 07:05:46
认识css 现在的互联网前端分为三层: HTML:超文本标记语言。从 语义 的角度描述页面 结构 CSS:层叠样式表。从 审美 的角度负责页面 样式 JS:Javascript。从 交互 的角度描述页面的 行为 css它是一个很神奇的东西,设计者可以通过修改样式表的定义从而使我们的网页呈现出完全不同的外观。 css简介 CSS全称为“层叠样式表”( Cascading Style Sheets ),它主要是用于定义HTML内容在浏览器内的显示样式,比如文字大小、颜色、字体加粗等等。 例: css语法 选择符 声明(属性:值) 选择符 :我们又称为选择器,指明网页中应用样式规则的元素,如p)的文本变为蓝色,而其它元素(如ul,ol等等)不会受到影响。 声明 :在英文大括号”{}”中的就是声明,属性和值之间用英文冒号”:“分割。当有多条声明时,中间可以英文分号”; css注释 用`/*注释语句*/`来表明(html中使用`<!--注释语句-->`) css基础 css引入的三种方式 内联式 嵌入式 外部式 内嵌式 css样式表把css代码直接写在现有的HTML标签中。 例: <p style='color:red;'>文字颜色为红色</p> 把对应的style属性,写在p标签的开始标签中。css样式代码要写在style=“”双引号中,如果有多条css样式代码设置可以写在一起

CSS基础

浪尽此生 提交于 2019-12-01 05:27:41
一  CSS显示模式    1,标签级别   CSS将HTML标签做了分类:文本级,容器级。   文本级标签只能嵌套文字,图片等信息。常用的文本级标签包含:span,p,em,img等。   容器级标签可以嵌套其他所有标签。常用的包含:div,ul,ol,table等所有结构化语义标签都是容器级,比如header,footer,nav,section等。       2,元素分类   CSS将所有HTML元素分为三大类:块级元素,行类元素,行内块级元素。   块级元素:独占一行;如果没有设置宽度,将继承父元素的宽度;如果设置了宽高,将按照设置值显示。   行内元素:在一行内共存。不能设置宽高(margin和padding依然可以使用)。默认按内容大小显示。   行内块级:不会独占一行,但可以设置宽高。   CSS对元素的这种分类,我们称之为显示模式。       3,显示模式转换   CSS使用display属性设置元素的显示模式。display属性有3个值:inline(行内),block(块级),inline-block(行内块级)。 二  CSS选择器       1,常用选择器   a),通配符     CSS使用(*)星号表示通配符选择器,选中所所有标签。 1 *{font-size:14px;}   b),特别重要     CSS可以在属性值后添加

Windows程序设计4(文字、对话框、各控件)

与世无争的帅哥 提交于 2019-12-01 01:47:28
一、 文字 1. 绘制文字: TextOut – 绘制单行文字: 将文字绘制在指定坐标位置 BOOL TextOut( HDC hdc, // 设备上下文 int nXStart, // 文本行开始位置 int nYStart, // LPCTSTR lpString, // 文本串 int cbString // 文本字符串的长度 );//成功返回TRUE,失败返回FALSE BOOL ExtTextOut( HDC hdc, //DC句柄 int X, //输出X位置 int Y, //输出Y位置 UINT fuOptions, //输出选项 CONST RECT* lprc, //输出的矩形框 LPCTSTR lpString, //字符串 UINT cbCount, //字符数量 CONST int* lpDx //字符间距的数组 DrawText- 在矩形内绘制文字 int DrawText( HDC hDC, //DC句柄 LPCTSTR lpString, //字符串 int nCount, //字符串长度 LPRECT lpRect, //绘制文字的矩形框,区域 UINT uFormat //绘制的方式,文本格式 );// 成功返回文本高度,失败返回 0 uFormat: DT_LEFT –靠左 DT_CENTER _水平居中 DT_RIGHT –靠右 DT_TOP

keras自然语言处理(四)

早过忘川 提交于 2019-12-01 00:55:50
第二章 如何使用NLTK手动清理文本 你不能直接从原始文本训练机器学习或深度学习模型,必须将文本转化成能够输入到模型的张量(tensor),这个过程意味着对原始文本进行处理,例如单词,标点和大小写等。实际上你可能需要一套文本处理方法,方法的选择取决于你的自然语言任务。下面我将介绍如何转化文本 2.1 简述 本节分为以下几个部分: 弗兰兹卡夫卡的Metamorphosis 特定任务的文本准备 手动标记 使用NLTK处理 其他文字处理事项 2.2 弗兰兹卡夫卡的Metamorphosis 首先选择数据集,我使用的是Franz Kafka编写的Metamorphosis来作为文本数据 数据地址请查看我的资源 文章开头是:One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin. 2.3 将文本为特定问题进行处理 获得文本后,怎么处理文本取决于面对的是一个怎么样的目标或者任务。另外文本的特定也需要大概了解一下。这份文本有如下几个特点: 他是纯文本,没有解析标注 纯英文 不存在拼写错误 有标点 有连词 有扩折号连接连续的句子 有名字 有分节号:Ⅰ,Ⅱ 后面我将介绍一般文本的清理步骤

HTML

眉间皱痕 提交于 2019-11-30 19:03:20
HTML 目录 web标准介绍 浏览器介绍 开发工具介绍 html介绍 html概念 html的网络术语 编写HTML的规范 HTML的基本语法特征 html结构 html 颜色表示 颜色表示 RGB色彩模式 html 标签 html 标签分类 html中的特殊字符 web标准介绍 web标准: w3c:万维网联盟组织,用来制定web标准的机构(组织) web标准:制作网页遵循的规范 web标准规范的分类:结构标准、表现标准、行为标准。 结构:html。表示:css。行为:Javascript。 总结说明: 结构标准:相当于人的骨架。html就是用来制作网页的。 表现标准: 相当于人的衣服。css就是对网页进行美化的。 行为标准: 相当于人的动作。JS就是让网页动起来,具有生命力的  如果大家还不明白,请看下图 浏览器介绍 浏览器是网页运行的平台,常用的浏览器有IE、火狐(Firefox)、谷歌(Chrome)、猎豹浏览器、Safari和Opera等 浏览器内核 : 浏览器 内核 IE trident chrome blink 火狐 gecko Safari webkit PS:「浏览器内核」也就是浏览器所采用的「渲染引擎」,渲染引擎决定了浏览器如何显示网页的内容以及页面的格式信息。 总结:渲染引擎是兼容性问题出现的根本原因。 开发工具介绍 Sublime Text的使用

将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》

拜拜、爱过 提交于 2019-11-30 18:53:24
将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》 2018-07-27 20:07:43 ttv56 阅读数 4552 更多 分类专栏: 自然语言处理 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/u014475479/article/details/81253506 本文发表于自然语言处理领域顶级会议 ACL 2018 原文链接 特别说明:笔记掺杂了本人大量的个人理解,以及口语化的语言,由于本人水平有限,极有可能曲解原文的意思,各位看官随意看看,切莫当真~ 摘要 迁移学习在图像领域大放异彩,可是在NLP领域却用途寥寥,这是因为现有的NLP模型都与迁移学习不兼容,每次更新任务都需要重头开始训练模型,否则就会导致模型习得的语言特征灾难性地丢失。本文深知迁移学习才是NLP研究的新方向,故本文提出了一个新型的可以用于所有NLP任务的“超级模型”——ULMFiT !!!!!!! 经过严密实验,本文提出的ULMFiT模型吊打一切现有NLP分类模型,牛得一批!!!!! 模型介绍 假设我们有源任务 T s Ts,我们想把它迁移到任意一个目标任务 T t Tt上去

地理文本处理技术在高德的演进(上)

馋奶兔 提交于 2019-11-30 18:24:46
一、背景 地图App的功能可以简单概括为定位,搜索,导航三部分,分别解决在哪里,去哪里,和怎么去的问题。高德地图的搜索场景下,输入的是,地理相关的检索query,用户位置,App图面等信息,输出的是,用户想要的POI。如何能够更加精准地找到用户想要的POI,提高满意度,是评价搜索效果的最关键指标。 一个搜索引擎通常可以拆分成query分析、召回、排序三个部分,query分析主要是尝试理解query表达的含义,为召回和排序给予指导。 地图搜索的query分析不仅包括通用搜索下的分词,成分分析,同义词,纠错等通用NLP技术,还包括城市分析,wherewhat分析,路径规划分析等特定的意图理解方式。 常见的一些地图场景下的query意图表达如下: query分析是搜索引擎中策略密集的场景,通常会应用NLP领域的各种技术。地图场景下的query分析,只需要处理地理相关的文本,多样性不如网页搜索,看起来会简单一些。但是,地理文本通常比较短,并且用户大部分的需求是唯一少量结果,要求精准度非常高,如何能够做好地图场景下的文本分析,并提升搜索结果的质量,是充满挑战的。 二、整体技术架构 搜索架构 类似于通用检索的架构,地图的检索架构包括query分析,召回,排序三个主要部分。先验的,用户的输入信息可以理解为多种意图的表达,同时下发请求尝试获取检索结果。后验的,拿到每种意图的检索结果时,进行综合判断

《驾驭文本:文本的发现组织和处理》中文PDF+英文PDF+源代码

本秂侑毒 提交于 2019-11-30 15:59:48
文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。 《驾驭文本:文本的发现组织和处理》中文PDF,342页,带书签目录,文字可以复制。 《驾驭文本:文本的发现组织和处理》英文PDF,322页,带书签目录,文字可以复制。配套源代码。 链接:https://pan.baidu.com/s/1Skd-ELn_MCiSipTha6naIA 提取码:siet 复制这段内容后打开百度网盘手机App,操作更方便哦 《驾驭文本:文本的发现组织和处理》的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。 来源: https://www.cnblogs.com/zhuqiangrr/p/11603006.html