文本分类

地理文本处理技术在高德的演进(下)

时间秒杀一切 提交于 2019-12-06 08:23:48
​在上篇里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1:先验和后验两部分均基于规则

机器学习:数据清洗和特征选择

孤街醉人 提交于 2019-12-06 07:01:23
数据清洗和特征选择 数据清洗 清洗过程 数据预处理: 选择数据处理工具:数据库、Python相应的包; 查看数据的元数据及数据特征; 清理异常样本数据: 处理格式或者内容错误的数据; 处理逻辑错误数据:数据去重,去除/替换不合理的值,去除/重构不可靠的字段值; 处理不需要的数据:在进行该过程时,要注意备份原始数据; 处理关联性验证错误的数据:常应用于多数据源合并的过程中。 采样: 数据不均衡处理:上采样、下采样、SMOTE算法 样本的权重问题 数据不平衡 在实际应用中,数据的分布往往是不均匀的,会出现"长尾现象",即绝大多数的数据在一个范围/属于一个类别,而在另外一个范围或者类别中,只有很少一部分数据。此时直接采用机器学习效果不会很好,因此需要对数据进行转换操作。 长尾效应: 解决方案01 设置损失函数的权重, 使得少数类别数据判断错误的损失大于多数类别数据判断错误的损失 ,即:当我们的少数类别数据预测错误的时候,会产生一个比较大的损失值,从而导致模型参数往让少数类别数据预测准确的方向偏。 可通过设置sklearn中的class_weight参数来设置权重。 解决方案02 下采样/欠采样(under sampling): 从多数类中随机抽取样本从而减少多数类别样本数据 ,使数据达到平衡的方式。 集成下采样/欠采样:采用普通的下采样方式会导致信息丢失

地理文本处理技术在高德的演进(上)

做~自己de王妃 提交于 2019-12-06 02:37:29
一、背景 地图App的功能可以简单概括为定位,搜索,导航三部分,分别解决在哪里,去哪里,和怎么去的问题。高德地图的搜索场景下,输入的是,地理相关的检索query,用户位置,App图面等信息,输出的是,用户想要的POI。如何能够更加精准地找到用户想要的POI,提高满意度,是评价搜索效果的最关键指标。 一个搜索引擎通常可以拆分成query分析、召回、排序三个部分,query分析主要是尝试理解query表达的含义,为召回和排序给予指导。 地图搜索的query分析不仅包括通用搜索下的分词,成分分析,同义词,纠错等通用NLP技术,还包括城市分析,wherewhat分析,路径规划分析等特定的意图理解方式。 常见的一些地图场景下的query意图表达如下: query分析是搜索引擎中策略密集的场景,通常会应用NLP领域的各种技术。地图场景下的query分析,只需要处理地理相关的文本,多样性不如网页搜索,看起来会简单一些。但是,地理文本通常比较短,并且用户大部分的需求是唯一少量结果,要求精准度非常高,如何能够做好地图场景下的文本分析,并提升搜索结果的质量,是充满挑战的。 二、整体技术架构 搜索架构 类似于通用检索的架构,地图的检索架构包括query分析,召回,排序三个主要部分。先验的,用户的输入信息可以理解为多种意图的表达,同时下发请求尝试获取检索结果。后验的,拿到每种意图的检索结果时,进行综合判断

基于文本向量空间模型的文本聚类算法

一曲冷凌霜 提交于 2019-12-06 01:51:24
基于文本向量空间模型的文本聚类算法 @[vsm|向量空间模型|文本相似度] 本文源地址 http://www.houzhuo.net/archives/51.html vsm概念简单,把对文本内容的处理转化为向量空间中的 向量 计算,以空间上的相似度来直观表达语义上的相似度。 目录 基于文本向量空间模型的文本聚类算法 文本聚类 向量空间模型vsm 文本预处理 获取每篇文档词频 获得相同长度的向量 归一化 idf频率加权 tf-idf加权并归一化 计算向量间的夹角 文本聚类 文本聚类 主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种 无监督的机器学习 方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。 向量空间模型vsm 所有的文本都可表现成向量的形式: 向量中的每一维都代表在文档中出现的一个独立词组或单个词,并且我们给每个词组赋予一个 权值 (最简单就是词频,或者广为人知的tf_idf权重)。所以一个文档就会转换成一个n维的向量。 向量夹角公式 接下来就是利用中学所学的的公式来计算向量之间的夹角,夹角越小即代表较高的相似度。当然,我们比较之前需要将两个向量转化为同一维度(下面的代码中将加以演示) 文本预处理: __author__ = 'iothz'

推荐 | 中文文本标注工具Chinese-Annotator(转载)

拜拜、爱过 提交于 2019-12-05 22:11:37
自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴。 本文分享一个中文文本标注工具Chinese-Annotator。 https://github.com/crownpku/Chinese-Annotator 最前沿的 NLP 技术往往首先针对英文语料。英文 NLP 的生态很好,针对不同有意思的问题都有不少大规模语料公开供大家研究,如斯坦福的 SQuAD 阅读理解语料。中文方面开源语料就少得多,各种英文 NLP 上的犀利模型和前沿技术都因为中文语料的匮乏很难迁移过来。 另一方面,对于一些垂直领域,如医疗、金融、法律、公安等等,专有名词和特有需求甚多,很难将比较 general 的比如在 wikipedia dump 上面训练的模型直接拿过来用。 传统人工标注数据的过程往往是繁琐和低效率的。刚标了一个“联想”是公司名,又来一个“联想集团”,再标一次又来一个“联想集团有限公司”,如此的例子令标注过程含有大量的重复劳动。另一方面也没有一个易上手的标注 UI,标注工作者往往需要直接按预先定好的格式直接在写字板之类的软件中修改原始数据,格式错误率也较高。 能不能构建一个中文文本的标注工具,可以达到以下两个特点: 1.

机器学习和数据集介绍、数据集划分、特征抽取、归一化

谁说我不能喝 提交于 2019-12-05 21:04:59
机器学习介绍和数据集介绍 机器学习:    机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为 工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。   很难明确的定义,简单的来说,机器学习就是利用数学方法和计算机技术通过对历史数据进行分析得到规律(模 型),并利用规律对未知数据进行预测。 数据集:   机器学习是从历史数据获得规律,那这些历史数据是什么样的呢? 可以获取的数据集 : scikit-learn数据量较小, 方便学习 kaggle大数据竞赛平台,80万科学家, 真实数据,数据量巨大 UCI收录了360个数据集,覆盖科学,生活,经济等领域,数据量几十万 常用的数据集结构组成 : 特征值 + 目标值 # 注意 : 有些数据集可以没有目标值 。每一行就是一个样本。 每一列就是一个特征。 最后 要预测的值 就是目标。 scikit-learn   scikit-learn是基于Python语言的机器学习工具 简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在Numpy , SciPy 和 matplotlib上 开源 , 可商业使用 -BSD许可证 Scikit-learn 数据集API介绍 1. sklearn.datasets 1.1 加载获取流行数据集 1.2

知识图谱从哪里来:实体关系抽取的现状与未来

隐身守侯 提交于 2019-12-05 01:59:57
原地址:https://zhuanlan.zhihu.com/p/91762831 作者:韩旭、高天宇、刘知远 (欢迎转载,请标明原文链接、出处与作者信息) 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。来到2019年的今天,深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言,要做到精细深度的语义理解,单纯依靠数据标注与算力投入无法解决本质问题。如果没有先验知识的支持,“中国的乒乓球谁都打不过”与“中国的足球谁都打不过”,在计算机看来语义上并没有巨大差异,而实际上两句中的“打不过”意思正好相反。因此,融入知识来进行知识指导的自然语言处理,是通向精细而深度的语言理解的必由之路。然而,这些知识又从哪里来呢?这就涉及到人工智能的一个关键研究问题——知识获取。 知识图谱 现有大型知识图谱,诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储。如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。这样,美国作家马克·吐温的相关知识就以结构化的形式记录下来。 目前,这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。但与现实世界快速增长的知识量相比

前端:HTML5学习之路(二)

我的未来我决定 提交于 2019-12-05 01:45:25
第2章 HTML5文本 2.1 标题和正文   1)标题    HTML5把标题分为6级,分别使用<h1><h2><h3><h4><h5><h6>标签进行标识,它们包含信息的重要性逐级递减。其中h1表示最重要的信息,而h6表示最次要的信息。关于这些标签常用的有<h1><h2><h3><h4>, 使用示例代码如下:    1 <!doctype html> 2 <html> 3 <head> 4 <meta charset="utf-8"> 5 <title></title> 6 </head> 7 8 <body> 9 <h1>所有产品分类</h1> 10 <h2>进口商品</h2> 11 <h2>食品饮料</h2> 12 <h3>糖果/巧克力</h3> 13 <h4>巧克力 果冻</h4> 14 <h4>口香糖 棒棒糖 软糖 奶糖 QQ糖</h4> 15 <h3>饼干糕点</h3> 16 <h4>饼干 曲奇</h4> 17 <h4>糕点 蛋卷 面包 薯片/膨化</h4> 18 <h2>粮油副食</h2> 19 <h3>大米面粉</h3> 20 <h3>食用油</h3> 21 </body> 22 </html> View Code   2)段落    网页正文主要通过段落文本来表现。HTML5使用<p>标签定义段落文本。    1 <!doctype html> 2 <html>

自然语言学习01

梦想与她 提交于 2019-12-04 21:05:46
按照中文语料处理的过程,在获取到语料之后开始分词,分词之后可以进行一些统计和关键字提取,并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量,把文本数据转换成计算机可以计算的矩阵向量。后续从机器学习简单的有监督分类和无监督聚类入手,到深度学习中神经网络的应用,以及简易聊天机器人和知识图谱的构建。 结构化数据、半结构化和非结构化数据 对于结构化数据而言:关系型数据库以及基于 Hadoop 的 HDFS 分布式文件系统、Hive 数据仓库和非关系型数据库 Hbase,以及 Elasticsearch 集群等数据存储的关系数据库或者 NoSQL,可以用来管理和存储数据。基于 MapReduce、Spark 和 Storm、Flink 等大数据处理框架可以分别处理离线和实时数据等。 半结构化、非结构化的数据:除了以 ELK 为代表的日志处理流程,过去在其它限定领域基于规则和知识库也取得了一定的成果 图灵测试 自然语言处理(NLP)的研究对象是计算机和人类语言的交互,其任务是理解人类语言并将其转换为机器语言。在目前的商业场中,NLP 技术用于分析源自邮件、音频、文件、网页、论坛、社交媒体中的大量半结构化和非结构化数据、 获取语料 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代

100G光模块分类

只愿长相守 提交于 2019-12-04 16:15:41
100G模块按照速率的构成来分,主要有3种:10 10G, 4 25G ,和2 50G 模块 按照封装形式来分,有CFP CFP2 CFP4 QSFP28 一般情况前期的CFP才会用10 10G来处理,主要是因为前期的功耗以及体积的问题;后面演进了CFP2 和CFP4 , 最后到现在的QSFP28 封装,主流选择的都是QSFP28封装。 同时100G的速率也有4 25G 以及4 28G ,4*28G的112G光模块速率主要是应用于OTU4光网络上。 这里写自定义目录标题 欢迎使用Markdown编辑器 新的改变 功能快捷键 合理的创建标题,有助于目录的生成 如何改变文本的样式 插入链接与图片 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中、居左、居右 SmartyPants 创建一个自定义列表 如何创建一个注脚 注释也是必不可少的 KaTeX数学公式 新的甘特图功能,丰富你的文章 UML 图表 FLowchart流程图 导出与导入 导出 导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能