文本分类

chapter2 一个完整的机器学习项目实战

一个人想着一个人 提交于 2020-01-18 04:34:39
误差计算 均方根误差(RMSE)计算对应欧几里得范数的平方和的根,也称作 l2 范数。 $$RMSE(X, h) = \sqrt{\frac{1}{m}\sum_{i=1} ^m(h(x)^{(i)} - y^{(i)})^2} $$ 平均绝对误差(MAE)计算对应 l1 范数的绝对值和,也成为曼哈顿范数,因为其测量了城市中的两点,沿着矩形的边行走的距离。 $$MAE(X, h) = \frac{1}{m}\sum_{i=1}^m|h(x^{(i)}) - y^{(i)}|$$ lk 范数定义如下,其中 l0 显示向量的基数(非零元素个数),l∞ 向量中最大的绝对值。 $$||V||_j = (|v_0|^k + |v_1|^k + \cdots + |v_n|^k)^{\frac{1}{k}}$$ 范数的指数越高,就越关注大的值而忽略小的值,这就解释了为什么 RMSE 比 MAE 对异常值更敏感。当异常值是指数分布(类似正态曲线),RMSE 就会表现很好。 创建测试集 datapath = "C://Users/LENOVO/Desktop/book_need_reading/sklearn&tensorflow/data/housing.csv" housing = pd.read_csv(datapath) 使用 python 的 np.random.permutation

SEO:8种方式UX和设计可以减少流量

徘徊边缘 提交于 2020-01-18 03:58:03
搜索性能大大降低,源于完全基于用户体验和设计的决策。这些决定导致内部链接结构发生变化,文本内容减少,这影响了搜索引擎依赖的权限和相关性信号对页面进行排名。 当然,在改变网站的外观和感觉时,SEO并不是唯一的考虑因素。但如果公司依赖有机搜索流量,这一点至关重要。 如果搜索引擎优化团队在早期参与决策或至少参与其中,则可以避免基于看似无关的选择的自然搜索性能下降。在许多组织中,SEO与用户体验和设计之间几乎没有联系。或者连接被误解了。结果可能是无法预料的自然搜索性能下降。 以下是八种常见的用户体验和设计决策,UX和设计错误,这些决策经常会无意中损害有机搜索流量。 1.过于专注于参与 转化,注册,保存和其他互动指标对电子商务至关重要。然而,自然搜索的优势在于填补 营销漏斗 的顶端,以创造意识和兴趣。战略团队纯粹通过参与度量来判断内容价值,可能会试图减少对自然搜索很重要的部分。 例如,销售洗衣工具和清洁商品可能会提供食品以吸引购物者。这些洗衣器可能不会导致当天的销售或注册,但它们可能是购物者与品牌的第一次互动。如果没有这些内容吸引新的购物者进行搜索,该网站将更加依赖于向其已建立的客户群进行销售。 2. 依赖图像 视觉效果可以立即向购物者传达通过文本进行沟通需要几秒钟的时间。然而,搜索引擎仍然不擅长破译图像的含义。即使图像的内容是文章,搜索引擎也无法对这些文字进行索引并在排名页面时进行考虑。

文本分类模型的几种方法介绍及比较

若如初见. 提交于 2020-01-18 00:08:33
文本分类模型 一、fastText https://fasttext.cc/docs/en/unsupervised-tutorial.html fastText模型架构: 其中x1,x2,…,xN−1,xN表示一个文本中的n-gram向量,每个特征是词向量的平均值。这和前文中提到的cbow相似,cbow用上下文去预测中心词,而此处用全部的n-gram去预测指定类别 代码如下,只能在linux环境运行: #!/usr/bin/python # -*- coding: UTF-8 -*- # -*- coding:utf-8 -*- import pandas as pd import random import fasttext import jieba from sklearn.model_selection import train_test_split import os """ 函数说明:加载数据 """ def loadData(): #利用pandas把数据读进来 df_military = pd.read_csv("./data/junshi.csv",encoding ="utf-8") df_military=df_military.dropna() df_sports = pd.read_csv("./data/sports.csv",encoding =

web前端入门到实战:CSS的文本格式化样式总汇

两盒软妹~` 提交于 2020-01-17 21:39:26
长度单位 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> <style type="text/css"> .box{ width: 300px; height: 300px; background-color: red; } .box1{ font-size: 20px; /*em数值根据当前元素字体大小变化而变化*/ width: 2em; /*百分比随着父元素变化而变化*/ height: 50%; background-color: yellow; } </style> </head> <body> <div class="box"> <div class="box1"></div> </div> </body> </html> 专门建立的学习Q-q-u-n ⑦⑧④-⑦⑧③-零①② 分享学习方法和需要注意的小细节,互相交流学习,不停更新最新的教程和学习技巧(从零基础开始到WEB前端项目实战教程,学习工具,全栈开发学习路线以及规划) 颜色 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> <style type="text/css"> .box1{ width: 100px; height: 100px

ABAP 常用函数、系统变量

你离开我真会死。 提交于 2020-01-16 00:56:32
常用的系统变量如下: 1. SY-PAGNO当前页号 2. SY-DATUM当前时间 3. SY-LINSZ当前报表宽度 4. SY-LINCT当前报表长度 5. SPACE空字符 6. SY-SUBRC执行状态为0,表示成功. 使用SELECT语句选择查询: SY-SUBRC = 0: 至少有一行数据,当ENDSELECT语句执行完,SY-DBCNT中保存着记录的个数。 SY-SUBRC = 4: 没有数据。 SY-SUBRC = 8: 只有使用“SELECT SINGLE FOR UPDATE”时才会有, 表示: WHERE条件指定的记录不止一行,结果是没有记录被选中。 使用INSERT语句,向表中插入一行,必须注意INSERT的顺序与表中字段的顺序一致: SY-SUBRC = 0: 插入成功,SY-DBCNT包含了插入的行数,0或1。 SY-SUBRC = 4: 由于有相同的KEY存在,所以插入失败。 使用LOOP语句来遍历一个内表: SY-SUBRC = 0: 循环至少被执行一次。 SY-SUBRC = 4: 循环没有被执行,可能是没有数据,也可能是没有符合条件的记录。 使用DELETE语句来删除一条记录: SY-SUBRC = 0: 找到一行并删除之,如果该表有不唯一主键,也就是有多条重复的记录,则只删除第一条记录。 SY-SUBRC = 4: 没有找到符合条件的记录

XHTML基础

一曲冷凌霜 提交于 2020-01-14 14:30:00
第一张 客户端网页编程简介 1.企业应用计算机的演变:主机/哑终端的集中计算模式(Mainframe/Terminal) 到 客户机/服务器计算模式(client/sever) 再到 浏览器/服务器计算模式(browser/sever)。 2.B/S结构Web应用程序工作原理:采用B/S计算模式开发的应用程序,我们一般称为Web应用程序。 3.Web应用程序的组成部分1:网页 : 网页的内容 网页的结构 网页的表现形式 网页的行为 4.Web应用程序的组成部分2:Web服务器 5.Web应用程序的组成部分3:Web浏览器 6.Web应用程序的组成部分4:HTTP协议 Web服务器和Web浏览器都讲同一种语言,叫做超文本传输协议HTTP(HyperText Transfer Protocol)。 HTTP协议是一套规则和过程,它使计算机能够通过Web交换信息。有了HTTP协议,那么不管这些计算机在哪个地方,使用的是什么操作系统,运行的是什么Web服务器软件,使用的是什么浏览器产品,它们都可以通过HTTP相互通讯。 7.网页的分类: 静态网页 客户端动态网页 服务器端动态网页 8.Web项目的分工 : 9.客户端网页编程工具:Dreamweaver WebStorm 第二章 XHTML基础(不要忘记结束标签) 1.<h1>-<h6>标签对标题(heading)定义,从<h1>至<h6

J2SE(4)之IO流(字节流)

妖精的绣舞 提交于 2020-01-12 07:51:28
1、IO流的基本概念和原理 1.1 什么是流 流 : 流动 、流向 从一端移动到另一端 源头与目的地, 程序 与 文件 | 数组 | 网络连接 | 数据库 进行数据交换,都是以流进行的 ,以程序为中心 1.2 IO流分类 1 、根据流向分 : 输入流与输出流 2 、根据数据分: 字节流 : 二进制,可以表示一切文件 , 包括 : 纯文本 、doc、 音频、视频等等 字符流: 文本文件,只能处理纯文本。 3、根据功能分: 节点流:包裹源头,比如:FileInputStream 处理流:增强功能,提升性能,比如:BufferedInputStream 1.3 IO流的相关接口及主要方法 1、字节流 流 接口 方法 实现类 输入流 InputStream read(byte[] b) 、 read(byte[] b, int off, int len) 、close() FileInputStream 输出流 OutputStream write(byte[] b) 、 write(byte[] b, int off, int len) 、flush() 、close() FileOutputStream 2、字符流 流 接口 方法 实现类 输入流 Reader read(char[] cbuf)、 read(char[] cbuf, int off, int len) 、close()

地理文本处理技术在高德的演进(下)

笑着哭i 提交于 2020-01-09 06:40:25
​在 【上篇】 里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1

HTML——标签_0

生来就可爱ヽ(ⅴ<●) 提交于 2020-01-08 22:27:25
标签列表(功能分类) 基础 标签 描述 <!DOCTYPE> 定义文档类型。 <html> 定义 HTML 文档。 <title> 定义文档的标题。 <body> 定义文档的主体。 <h1> to <h6> 定义 HTML 标题。 <p> 定义段落。 <br> 定义简单的折行。 <hr> 定义水平线。 <!--...--> 定义注释。 格式 标签 描述 <acronym> 定义只取首字母的缩写。 <abbr> 定义缩写。 <address> 定义文档作者或拥有者的联系信息。 <b> 定义粗体文本。 <bdi> 定义文本的文本方向,使其脱离其周围文本的方向设置。 <bdo> 定义文字方向。 <big> 定义大号文本。 <blockquote> 定义长的引用。 <center> 不赞成使用。 定义居中文本。 <cite> 定义引用(citation)。 <code> 定义计算机代码文本。 <del> 定义被删除文本。 <dfn> 定义定义项目。 <em> 定义强调文本。 <font> 不赞成使用。 定义文本的字体、尺寸和颜色 <i> 定义斜体文本。 <ins> 定义被插入文本。 <kbd> 定义键盘文本。 <mark> 定义有记号的文本。 <meter> 定义预定义范围内的度量。 <pre> 定义预格式文本。 <progress> 定义任何类型的任务的进度。 <q> 定义短的引用。

HTML标签功能分类

爱⌒轻易说出口 提交于 2020-01-08 21:39:04
按功能类别对HTML标签进行分类,源自 HTML 参考手册 基础 标签 描述 <!DOCTYPE> 定义文档类型。 html 定义 HTML 文档。 title 定义文档的标题。 body 定义文档的主体。 h1 - h6 定义 HTML 标题。 p 定义段落。 br 定义简单的折行。 hr 定义水平线。 <!--...--> 定义注释。 格式 标签 描述 acronym 定义只取首字母的缩写。 abbr 定义缩写。 address 定义文档作者或拥有者的联系信息。 b 定义粗体文本。 bdi 定义文本的文本方向,使其脱离其周围文本的方向设置。 bdo 定义文字方向。 big 定义大号文本。 blockquote 定义长的引用。 center 不赞成使用。定义居中文本。 cite 定义引用(citation)。 code 定义计算机代码文本。 del 定义被删除文本。 dfn 定义定义项目。 em 定义强调文本。 font 不赞成使用。定义文本的字体、尺寸和颜色 i 定义斜体文本。 ins 定义被插入文本。 kbd 定义键盘文本。 mark 定义有记号的文本。 meter 定义预定义范围内的度量。 pre 定义预格式文本。 progress 定义任何类型的任务的进度。 q 定义短的引用。 rp 定义若浏览器不支持 ruby 元素显示的内容。 rt 定义 ruby 注释的解释。