文本分析

决策树算法(四)

对着背影说爱祢 提交于 2020-02-04 10:24:09
8.特征提取 1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 2 特征提取API sklearn . feature_extraction 3 字典特征提取 作用:对字典数据进行特征值化 sklearn.feature_extraction.DictVectorizer(sparse=True,…) DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值 返回sparse矩阵 DictVectorizer.get_feature_names() 返回类别名称 3.1.使用 from sklearn . feature_extraction import DictVectorizer def dict_demo ( ) : """ 对字典类型的数据进行特征抽取 :return: None """ data = [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] # 1、实例化一个转换器类

指纹识别零日攻击的仿真器

筅森魡賤 提交于 2020-02-04 07:14:12
Argos:指纹识别零日攻击的仿真器 摘要 简介 2.背景和相关工作 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中、居左、居右 SmartyPants 创建一个自定义列表 如何创建一个注脚 注释也是必不可少的 KaTeX数学公式 新的甘特图功能,丰富你的文章 UML 图表 FLowchart流程图 导出与导入 导出 导入 摘要 当现代操作系统和软件变得越来越大也越来越复杂时,它们也更有可能包含bug,可能会允许攻击者获取非法途径。对于成功的网络或者系统保护来说,一种能够识别攻击并且快速产生策略的快速并且可靠的机制是至关重要的。在本文中我们提出了Argos,对于蠕虫和人们精心设计的攻击来说的一个封闭环境。Argos是建立在一个快速的x86模拟器上,它能够在整个执行过程中追踪网络数据来识别其无效用作跳转目标,函数地址,指令等。此外,系统调用规则不允许网络数据作为特定调用的参数来使用。当一个攻击被发现时,我们对相应的模拟器状态执行“智能的”进程或者内核感知日志来进行更进一步的离线处理。此外,我们注入自己的取证溢出代码来取代恶意的溢出代码,来收集被攻击进程的信息。通过将模拟器记录的数据和从网络上收集的数据相关联,我们能够为免于负载编译影响的漏洞利用生成精准的网络入侵检测签名

[读论文]懒价格

让人想犯罪 __ 提交于 2020-02-03 15:18:40
COHEN, L., MALLOY, C. and NGUYEN, Q. (2020), Lazy Prices. The Journal of Finance. Accepted Author Manuscript. doi:10.1111/jofi.12885 哈佛商学院Lauren Cohen的这篇Lazy Prices,2018年放在NBER上,现在已经被Journal of Finance接收了。这篇文章的题目就挺吸引人的,故事也是蛮精彩。 文章的核心故事是说,公司会对会计文本信息进行更改,包括高管对企业经营状况描述的措辞方式会发生转变,而这些变化与公司股价和未来经营情况都是显著相关的。甚至于,如果在Fama-French五因子的基础上,卖出信息变化的股票并买入信息不变的股票,构建的这一投资组合可产生年化22%的alpha收益! 从三个方面简单总结一下这篇文章的主要工作: 度量披露信息的变化 作者从SEC的EDGAR系统中提取了1995年到2014年所有的常规季度披露信息(10-K,10-Q等)的电子文件。将其中数字字符数量占比大于15%的段落去除,留下文本内容。作者使用了四种自然语言处理(NLP)领域的常见方法来度量季度披露信息之间的相似度: (1)余弦相似度(cosine similarity),即文本的单词向量之间的夹角,夹角越小表示文本相似度越高。 (2

NLP入门(1)

扶醉桌前 提交于 2020-02-03 15:16:04
自然语言处理,简称:NLP,是指对人们平时日常使用的交流语言进行处理的一项技术。NLP 经过多年的发展,现今可以划分为两部分内容,即:自然语言的理解和自然语言的生成。 本文将以文本分类为目标,介绍自然语言处理相关的基础操作和应用。 (来自 https://www.shiyanlou.com/courses/1208 ) 做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 术语解释: 分词:词是 NLP 中能够独立活动的有意义的语言成分。即使某个中文单字也有活动的意义,但其实这些单字也是词,属于单字成词。 词性标注:给每个词语的词性进行标注,比如 跑/动词、美丽的/形容词等等。 命名实体识别:从文本中识别出具有特定类别的实体。像是识别文本中的日期,地名等等。 词义消歧:多义词判断最合理的词义。 句法分析:解析句子中各个成分的依赖关系。 指代消解:消除和解释代词「这个,他,你」等的指代问题。 1.Python字符串操作 变量名.count("A"):返回子串A在字符串中出现的次数 .strip() 方法可以去除字符串首尾的指定符号。无指定时,默认去除空格符 ' ' 和换行符 '\n'

【NLP】文本分类综合(rnn,cnn,word2vec,TfidfVectorizer)

淺唱寂寞╮ 提交于 2020-01-31 11:25:03
目录 0.中文评论情感分析(keras+rnn) 0.1 需要的库 0.2 预训练词向量 0.3 词向量模型 0.4 训练语料 (数据集) 0.5 分词和tokenize 0.6 索引长度标准化 0.7 反向tokenize 0.8 构建embedding matrix 0.9 padding(填充)和truncating(修剪) 0.10 用keras搭建LSTM模型 0.11 结论 0.12 错误分类 1.新浪新闻分类(tensorflow+cnn) 2.搜狐新闻文本分类(word2vec) 2.1 数据的准备 2.2 word2vec模型 2.3 特征工程: 2.4 模型训练,模型评估 2.4.1 标签编码: 2.4.2 逻辑回归模型 2.4.3 保存模型 2.4.4 交叉验证 2.4.5 模型测试 2.5 总结 3.搜狐新闻文本分类(TfidfVectorizer) 0.中文评论情感分析(keras+rnn) 0.1 需要的库 # 首先加载必用的库,jieba和gensim专门中文 # %matplotlib inline功能是可以内嵌绘图,并且可以省略掉plt.show()这一步 % matplotlib inline import numpy as np import matplotlib . pyplot as plt import re #正则化用 import

lucent,solr,ES比较

随声附和 提交于 2020-01-31 07:57:02
| 0 什么是全文搜索 什么是全文搜索引擎? 百度百科中的定义 : 全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 从定义中我们已经可以大致了解全文检索的思路了,为了更详细的说明,我们先从生活中的数据说起。 我们生活中的数据总体分为两种: 结构化数据 和 非结构化数据 。 结构化数据 : 指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据 : 非结构化数据又可称为全文数据,指不定长或无固定格式的数据,如邮件,word文档等。 当然有的地方还会有第三种: 半结构化数据 ,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。 根据两种数据分类,搜索也相应的分为两种:结构化数据搜索和非结构化数据搜索。 对于结构化数据,我们一般都是可以通过关系型数据库(mysql,oracle等)的 table 的方式存储和搜索,也可以建立索引。 对于非结构化数据,也即对全文数据的搜索主要有两种方法: 顺序扫描法 , 全文检索 。 顺序扫描 :通过文字名称也可了解到它的大概搜索方式

BeautifulSoup

早过忘川 提交于 2020-01-30 02:28:20
一 什么是BeautifulSoup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释如下:   Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。   Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。所以需要配合解析器一起使用!   Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4。 解析器:   Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同。 解析器对比:   官方文档 # 安装 Beautiful Soup

《Python编程:从入门到实践》第十章:文件和异常,童话Alice in wonderland.txt

偶尔善良 提交于 2020-01-29 16:08:36
《Python编程:从入门到实践》第十章:文件和异常 分析文本小节中出现了“ Alice in wonderland ”这个文本 从这个网站可以下载 免费电子书——古德堡计划 建议谷歌浏览器打开,可以翻译 链接: Alice in wonderland.百度云分享保存 密码:pq8t 来源: CSDN 作者: weixin_lyy 链接: https://blog.csdn.net/weixin_45237889/article/details/104106057

[论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs

十年热恋 提交于 2020-01-27 04:07:12
[论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容 摘要 前言 相关工作 基于TDN的表示的框架结构 方法 文本信息的表示 网络结构的embedding方法 模型训练过程 定义 训练 过程 实验 数据集 实验的参数设置 链接预测 实验结果分析 结论 读后感 文章下载链接:https://github.com/ciecus/papers/blob/master/%E7%9F%A5%E8%AF%86%E5%92%8C%E8%AF%AD%E4%B9%89%E7%BB%93%E5%90%882019%E5%B9%B4%E6%96%B0%E6%96%87%E7%AB%A0/TDN-%20An%20Integrated%20Representation%20Learning%20Model%20of%20Knowledge%20Graphs.pdf 文章代码链接:暂无 文章主要内容 摘要 知识图谱在人工智能领域起到了非常重要的作用。知识图谱致力于将实体和关系投影到连续的低维空间中。这种表示学习的方法可以通过预测潜在的三元组(head,relation,tail)用来完善知识图。在现有的方法种,人们主要集中于利用已有的三元组知识,但是忽略了融合文本信息和知识网的拓扑结构