文本分类

HTML知识点汇总

吃可爱长大的小学妹 提交于 2019-12-02 17:06:50
一、什么是HTML HTML是用来描述网页的一种语言。 HTML是指超文本标记语言(不仅包含纯文本,还包含图片、超链接、音频、视频等)。 HTML使用一套标记标签来描述网页。 二、HTML标签的作用 充当网页骨架。 语义化,使网络爬虫更好的抓取网站信息。 三、HTML骨架 1 <!DOCTYPE html> 2 <html> 3 <head> 4 <!-- 作用:配置html文件 --> 5 </head> 6 <body> 7 <!-- 书写标签组成的网页结构 --> 8 </body> 9 </html> 1、DOCTYPE是document type(文档类型)的简写,在网页中用来说明当前使用的XHTML或者HTML是什么版本 2、head是对HTML进行一些附加信息,内容不显示在网页中 3、body是HTML的主体部分,显示在网页中的内容 四、head标签中可以放的元素 1、meta标签   <meta charset = "UTF-8" /> 用于声明字符编码级   <meta name="keywords" content = "内容"> 用于提供给搜索引擎关键字   <meta name = "discription" content = "内容"> 用于提供给搜索引擎网页简单描述 2、title标签 标识文档标题,该标题会显示在浏览器的标题栏的标签页上 3

文档对象模型 DOM

时间秒杀一切 提交于 2019-12-02 16:52:42
目录 文档对象模型 DOM 1、DOM概述 1-1 什么是DOM 12 DOM分类 1-3 DOM分级 1-4 DOM树 2、节点 2-1 什么是节点 2-2 节点的分类 23 节点属性 3、获取元素对象 4、文档结构和遍历文档 4-1 节点关系 4-2 作为节点树的文档 4-3 作为元素树的文档 5、属性 5-1 HTML标签的属性和元素对象的属性 5-2 获取和设置非标准的HTML属性 5-3 作为Attr节点的 6、元素的内容 6-1 作为HTML的元素内容 6-2 作为纯文本的元素内容 6-3 作为Text节点的元素内容 7、创建、插入、删除 节点 7-1 创建节点 7-2 插入节点 7-3 删除节点 7-4 替换节点 7-5 克隆节点 7-6 DocumentFragment 8、元素的尺寸、位置、滚动 8-1 元素坐标 8-2 判定某个元素在某点 8-3 查询元素的几何尺寸 8-4 滚动 9、Document对象 9-1 属性 9-2 方法 10、HTML表单中的相关对象 10-1 选取表单和表单元素 10-2 表单和表单元素的属性 10-3 from对象 10-4 按钮(button submit reset)对象 10-5 单选复选 10-6 文本(input textarea) 10-7 select对象 11、Table中相关对象 11-1 table对象 11

记录一天学不完HTML——第一天

自闭症网瘾萝莉.ら 提交于 2019-12-02 12:43:45
学习教程—— W3Vshcool 简介 HTML (超文本标记语言 (Hyper Text Markup Language))是使用一套标记标签 (markup tag)用来描述网页(HTML文档)的一种语言。 HTML标签:由尖括号包围的关键词,通常是成对出现的,比如 和 。第一个标签是开始/开放标签,第二个标签是结束/闭合标签。 编辑器 专业: Adobe Dreamweaver Microsoft Expression Web CoffeeCup HTML Editor 直接用文本编辑器: Notepad++(PC) TextEdit(Mac) 使用后缀.html或后缀.htm保存 我用Notepad++ 遇到 问题1 ——乱码 经百度添加了代码 < head > < meta http-equiv = " content-type " content = " text/html;charset=gb2312 " /> </ head > 多方尝试后,把notepad编码设置成使用 UTF-8-BOM 编码才不乱码(设置成utf-8还是乱的) 他们二者的区别见:博客https://blog.csdn.net/weixin_40449300/article/details/86567129 都说默认带bom,可能我的不带吧??/疑问 基础 标题 < h1 > This is a

自制文本分类

允我心安 提交于 2019-12-02 12:18:42
这几天公司需求,要做文本分类,看了些文章,各种机器学习、神经网络,看不懂。自己结合结巴分词做了个简单的文本分类实现功能,总体来说还可以。 运行结果: 自己写的,咋方便咋来,反正各种半自动,没怎么注重过程,小伙伴看了之后可以自己改一下,让它更便捷。 首先要有数据,我是爬的各种新闻网站,得到的各类数据。 有了数据之后,就可以写这次的代码了 首先是训练数据,通俗来说就是把文章处理成想要的格式。 第一部分代码,目的是把文章取出来,然后结巴分词之后再存起来: import jieba import os file_dir = 'D:\新闻数据\娱乐' for root, dirs, files in os.walk(file_dir): # print(root) # 当前目录路径 # print(dirs) # 当前路径下所有子目录 # print(files) # 当前路径下所有非目录子文件 for x in files: try: path = root + '\\' + x print(path) with open(path, "r+", encoding="utf-8") as f: content = f.read().replace('\n', '') #没有stopwords的去网上下载好了,这个是停用词,用来去掉那些没有意义的词语的 stopwords = [line

Keras自然语言处理(十八)

不想你离开。 提交于 2019-12-02 11:14:23
第十五章 开发字符级神经语言模型 语言模型可以根据序列中前面的特定单词预测序列中的下一个单词。你可以使用神经网络开发字符级的语言模型,基于字符的语言模型的好处在于处理任何单词,标点和其他文档结构时仅需要很小的词汇量,而且更加灵活,但这是以较大模型和训练缓慢为代价的,然而在神经语言模型领域,基于字符的模型为语言建模提供通用灵活和强大的方法,尽管参数大和训练缓慢,但是在其强大的泛华能力面前,这些缺点也是可以忍受的,接下来你将了解如何开发字符级的神经网路模型: 准备文本 使用开发LSTM训练模型 使用训练好的模型来生成文本 15.1 概述 本教程分为以下几个部分: 唱一首歌 准备数据 训练模型 生成文本 15.2 唱一首歌 我们选用Sing a song of sixpence 来开发字符级语言模型 Sing a song of sixpence , A pocket full of rye ; Four and twenty blackbirds , Baked in a pie . When the pie was opened , The birds began to sing ; Was not that a dainty dish , To set before the king ? The king was in his counting - house , Counting

数据分析

一个人想着一个人 提交于 2019-12-02 06:23:45
@ TOC 不懂统计和数据分析讲的是什么?看这篇就够了 python爬虫人工智能大数据 今天 以下文章来源于Ray的数据分析自习室 ,作者Ray Ray的数据分析自习室 Ray的数据分析自习室 数据干货 | 商业评论 | 职业发展 1 数据分析概述 数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。 目的/出发点:设立目标或业务需求,明确问题 方法:根据不同场景选定分析方法 结果:目标解释或业务应用(to do),创造价值 1.1 数据分析流程 目的和内容:明确项目整体框架或业务问题 数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息 数据预处理:检验-清理,可比(例如标准化、得分转换等),论证 数据分析:方法、工具的选取 数据表达:图表 数据报告:结论、建议&解决方案 1.2 数据分析方法 预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数) 基于数理统计:方差分析、回归分析、因子分析 数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归) 1.3 数据分析工具 Excel-SQL、R、Python、BI、HADOOP、Spark… 2 数据趋势 2.1 计量尺度

接入百度大脑一站式内容审核平台,可快速提升审核效率

寵の児 提交于 2019-12-02 03:02:23
一、功能介绍 通过界面化的操作,让百度内容审核服务完美契合您的业务审核需求,提升审核效率,降低人工成本。 二、应用场景 1、视频内容审核 配合关键帧抽取技术对视频帧中的图像、字幕进行审核,搭配语音识别和敏感声音检测技术,对视频内容进行全面审核。 2、电商平台内容审核 针对商家的广告宣传文本,通过图文审核判断是否符合新广告法,在双11、618、黑色星期五等购物节,通过百度内容审核,极大的弥补人力审核资源不足的问题,实时快速的对商品信息进行审核,保障平台内容安全。 3、UGC内容反垃圾 对论坛、贴吧等UGC内容中的图片、文章、评论进行合规性检查,并针对恶意推广、政治敏感、低俗辱骂、低质灌水内容进行审核,降低平台违规风险、有效提升平台内容质量、吸引更多用户与优质资源。 4、实名制社交头像审核 配合人脸识别针对用户头像进行多维度的图像、文本审核,确保图像中包含清晰人物正脸、非明星/卡通人脸,并且无色情、暴恐、政治敏感、微商广告、各类联系方式内容,保障平台使用体验。 三、使用攻略 说明:本文采用C# 语言,开发环境为.Net Core 2.1,采用在线API接口方式实现。 (1)创建策略 创建地址: https://ai.baidu.com/censoring#/strategylist 点击策略创建地址,选择“创建策略”。 填写策略名称,选择相应的APPID,并填写联系人信息

基于贝叶斯的文本分类实战

南楼画角 提交于 2019-12-01 18:52:50
2015-03-31 本文介绍如何使用scikit-learn工具包下的贝叶斯工具进行文本分类。 生成数据集 数据集是有8个分类的文本数据集,使用了结巴分词对每个文本分词,每个单词当作特征,再利用二元词串构造更多特征,然后去掉停用词,去掉出现次数太多和太少的特征,得到了19630个特征。取1998个样本用于训练,509个用于测试。基于 词袋模型 的思路将每个文本转换为向量,训练集和测试集分别转换为矩阵,并用python numpy模块将其保存为npy格式。这个预处理后的数据集保存在了 https://github.com/letiantian/dataset-for-classifying 。 关于贝叶斯 使用朴素贝叶斯分类器划分邮件 朴素贝叶斯的三个常用模型:高斯、多项式、伯努利 导入数据集 在 https://github.com/letiantian/dataset 下载text-classification.7z,解压后导入数据: $ ls test_data.npy test_labels.npy training_data.npy training_labels.npy $ ipython >>> import numpy as np >>> training_data = np.load("training_data.npy") >>> training_data

人工智能主要应用

痞子三分冷 提交于 2019-12-01 17:05:30
仅供学习使用 2019-10-16 14:46:06 人工智能主要应用 1. 图像识别 识别图片中的内容、对象。 KNN、卷积神经网络 2. 情感分析 分析文本中包含的 文本,是正面的、负面的、中性的。 文本的表示:词向量、TFIDF 文本预处理、清洗 分类算法,逻辑回归、决策树、朴素贝叶斯 3. 金融风控 分析一个用户会不会逾期。 通过用户的信息,基本信息,行为数据 分类问题。 4. 用户群体分析 营销领域 分析群体的特点,做个性化的营销方案 用户的分层 K-means 5. 广告点击率预测 优化广告系统。 预测一个用户,是否点击一个广告。 分类算法、特征工程、特征选择 6.新闻推荐 对象是文本,推荐领域。 基于内容的推荐 新闻个性化推荐 7. chatbot的意图识别 闲聊型 任务导向型 解决一个问题 意图识别,SVM、核函数 “明天有没有机票,从北京飞往上海?” 8. 股价预测 未来证券投资,依赖AI。量化投资 每个领域都有自己的评估方法。 来源: https://www.cnblogs.com/xuehuiping/p/11694970.html

一篇说尽Excel常见函数用法

狂风中的少年 提交于 2019-12-01 12:12:14
一篇说尽Excel常见函数用法 Word,PPT,Excel这三个Office软件是职场办公里最常用的三个软件,但是我发现简书上写PPT的教程多,Excel的少,即使有,也是零零散散。因为Excel的系统庞大其实你如果耐心钻研下去的话,发现excel难度不亚于任何专业软件的难度。总体来说,excel的常用功能包括以下五项: 本篇只讲函数。因为函数用好了,也可以节省很多的时间。我看到有很多职场新人只会用自动求和和求平均数,所以普及一下常用函数还是很有必要(其实也算不上普及,共同学习而已)。 很多人都会有这样一个概念,遇到问题再百度呗,我觉得那样是被动的,不系统的,如果提前了解一下到时候再百度也会有大概一个方向。 写完才发现,写了很长,高能预警,最后有彩蛋。 excel 2016中函数共有400多个:如图 较常用的是文本函数,逻辑函数,日期与时间函数,查找与引用函数,数学函数等,很多人一看到这些就头大,感觉太多了,没有头绪?那么哪些函数是最常用的呢? 下面我打破这个顺序,按照类型讲一下。 为节省字数,我尽量多用图,并且把同一类型的对比着来讲,不会很散: 相对引用于绝对引用: 相对引用:单元格或单元格区域的相对引用是指相对于包含公式的单元格的相对位置。例如,单元格 B2 包含公式 =A1 ;Excel 将在距单元格 B2 上面一个单元格和左面一个单元格处的单元格中查找数值。 绝对引用:1