分类数据

地图POI类别标签体系建设实践

风流意气都作罢 提交于 2019-11-28 18:06:21
导读 POI是“Point of interest”的缩写,中文可以翻译为“兴趣点”。在地图上,一个POI可以是一栋房子、一个商铺、一个公交站、一个湖泊、一条道路等。在地图搜索场景,POI是检索对象,等同于网页搜索中的网页。在地图客户端上,用户选中一个POI,会有一个悬浮的气球指向这个POI。 如上图左边,这家商场内的屈臣氏是一个POI;而所谓类别标签,就是在类别维度对POI属性的一种概括,比如,屈臣氏的类别标签化妆品,而屈臣氏所坐落的凯德mall,类别标签是商场;右侧则是商场query搜索召回的一系列POI,都具有和query相匹配的类别属性。 上图也展示了类别标签的两种主要使用场景:为用户提供丰富信息和支持决策,一方面在前端为用户显示更丰富的信息,另一方面支持搜索的类别搜索需求,主要是在地图场景query和POI双方都具有丰富的多义表达,通过传统的文本匹配引擎或者简单的同义词泛化是难以达到目的的,因此挖掘标签作为召回和排序依据。 我们的类目体系建设主要依据以下几点: 用户实际的query表达,主要为了支持用户的搜索需求; 真实世界的客观类目分布,以及pm对该分布的认知; 不同标签间的从属、并列关系。 最终每个大类将构建一个多层的多叉树体系,比如购物类别的划分: 类别标签建设的难点 我们的目标是打标,就是将POI映射到上面类目树体系的各个节点上,很显然这是一个分类问题

YOLO_V2

怎甘沉沦 提交于 2019-11-28 15:22:37
YOLOv2:代表着目前业界最先进物体检测的水平,它的速度要快过其他检测系统(FasterR-CNN,ResNet,SSD),使用者可以在它的速度与精确度之间进行权衡。 YOLO9000:这一网络结构可以实时地检测超过 9000 种物体分类,这归功于它使用了 WordTree,通过 WordTree 来混合检测数据集与识别数据集之中的数据。 目前的检测数据集(Detection Datasets)分类标签的信息太少,图片的数量小于分类数据集,检测数据集的成本太高,使其无法当作分类数据集进行使用。而现在的分类数据集却有着大量的图片和十分丰富分类信息。 提出了一种新的训练方法–联合训练算法。这种算法可以把这两种的数据集混合到一起。使用一种分层的观点对物体进行分类,用巨量的分类数据集数据来扩充检测数据集,从而把两种不同的数据集混合起来。 联合训练算法的基本思路就是:同时在检测数据集和分类数据集上训练物体检测器(Object Detectors ),用检测数据集的数据学习物体的准确位置,用分类数据集的数据来增加分类的类别量、提升鲁棒性。 YOLO9000 就是使用联合训练算法训练出来的,他拥有 9000 类的分类信息,这些分类信息学习自ImageNet分类数据集,而物体位置检测则学习自 COCO 检测数据集。 来源: https://www.cnblogs.com/pacino12134

keras分类猫狗数据(中)使用CNN分类模型

别等时光非礼了梦想. 提交于 2019-11-28 10:41:22
keras分类猫狗数据(上)数据预处理 keras分类猫狗数据(中)使用CNN分类模型 keras分类猫狗数据(下)迁移学习 keras分类猫狗数据(番外篇)深度学习CNN连接SVM分类 1 . 如下代码,数据增强,并根据文件夹创建数据流(我的保存为了 catvsdogs/morph.py )。 from keras.preprocessing.image import ImageDataGenerator train_dir= "E:/MLdata/kaggle_Dogsvs.Cats/min_trainfordata/train" test_dir= "E:/MLdata/kaggle_Dogsvs.Cats/min_trainfordata/test" train_pic_gen=ImageDataGenerator(rescale= 1. / 255 ,rotation_range= 20 ,width_shift_range= 0.2 ,height_shift_range= 0.2 , shear_range= 0.2 ,zoom_range= 0.5 ,horizontal_flip= True ,fill_mode= 'nearest' ) test_pic_gen=ImageDataGenerator(rescale= 1. / 255 ) train_flow

深度学习笔记14_猫狗分类案例优化 - 数据增强

不想你离开。 提交于 2019-11-28 10:39:27
猫狗分类案例优化 - 数据增强 数据增强的基本概念 **数据增强:**利用多种数字图像处理方法(旋转,剪切,错切,缩放,翻转,边缘填充)生成可信图像. 其目标是,模型在训练时不会两次查看完全相同的图像。这让模型能够观察到数据的更多内容,从而具有更好的泛化能力。 在keras中可以通过:ImageDataGenerator函数来实现图像的随机变换. rotation_range 是角度值(在 0~180 范围内),表示图像随机旋转的角度范围。 width_shift 和 height_shift 是图像在水平或垂直方向上平移的范围(相对于总宽度或总高度的比例)。 shear_range 是随机错切变换的角度。 zoom_range 是图像随机缩放的范围。 horizontal_flip 是随机将一半图像水平翻转。如果没有水平不对称的假设(比如真实世界的图像),这种做法是有意义的。 fill_mode是用于填充新创建像素的方法,这些新像素可能来自于旋转或宽度/高度平移。 import os , shutil original_data_dir = "G:/Data/Kaggle/dogcat/train" base_dir = "G:/Data/Kaggle/dogcat/smallData" if os . path . isdir ( base_dir ) == False :

7天入门机器学习总结

人走茶凉 提交于 2019-11-28 09:44:39
初识机器学习 机器学习的概念 机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。 机器学习的类型 按学习方式分为三大类 监督学习(Supervised learning):从给定的训练数据集(历史数据)中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集需要包括输入和输出,也可以说是特征和目标/Label。训练集中的目标是由人标注的。 非监督学习(Unsupervised learning):与监督学习相比,输入的数据没有人为标注的结果,模型需要对数据的结构和数值进行归纳。 强化学习(Reinforcement learning):输入数据可以刺激模型并且使模型做出反应。反馈不仅从监督学习的学习过程中得到,还从环境中的奖励或惩罚中得到。 机器学习的一般过程 机器学习是一个由数据建立模型的过程。 首先是对训练数据进行数据处理,选择算法进行建模和和评估,再对算法进行调优,最后得到一个模型。 数据处理到算法调优这个过程是一个不断完善、循环往复的过程,这个过程相当于做实验,直到得出一个在接受度范围内的模型,但是这个过程是可以被一些先验经验指导的,需要识别问题、识别场景、算法原理掌握等等。 机器学习中的数据处理 样本级数据处理

机器学习简介

我是研究僧i 提交于 2019-11-28 09:41:56
主要内容 • 机器学习的概念 • 机器学习主要分类 • 监督 学习 三要素 • 监督学习模型评估策略 • 监督学习模型求解算法 一、机器学习的概念 • 机器学习 是什么 • 机器学习的开端 • 机器学习的定义 • 机器学习的过程 • 机器学习示例 机器学习是什么 • 什么是学习 – 从人的学习说起 – 学习理论 ;从实践经验中 总结 – 在理论上推导;在实践中检验 – 通过各种手段获取知识或技能的过程 • 机器怎么学习? – 处理某个特定的任务,以大量的“经验”为基础 – 对任务完成的好坏,给予一定的评判标准 – 通过分析经验数据,任务完成得更好了 机器学习的定义 • 机器学习 (Machine Learning, ML) 主要研究 计算机系统 对于特定任务的性能, 逐步 进行 改善的算法和统计模型 。 • 通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测 。 • 是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 机器学习的过程 二 、机器学习的分类 • 机器学习的主要分类 • 无监督学习 • 无监督学习应用 • 监督学习 • 监督学习应用 机器学习主要分类 • 有监督学习

sklearn朴素贝叶斯分类

倖福魔咒の 提交于 2019-11-28 09:18:24
from sklearn import datasets from sklearn.naive_bayes import GaussianNB #导入数据集中的鸢尾花数据(每项有4个特征数据值,1个目标类别值) iris=datasets.load_iris() #X为特征数据 y是类别值 X=iris.data y=iris.target #总数据条数 遍历显示 icount=X.shape[0] for i in range(icount-1): print(X[i],"--->",y[i]) #调用高斯朴素贝叶斯分类器 gnb=GaussianNB() #填入数据进行训练 gnb.fit(X,y) #训练完后预测(此处用的测试数据是训练数据同一份,实际可以用新输入数据) test_data=iris.data y_predicted=gnb.predict(test_data) #显示预测结果 print("\n预测结果:\n",y_predicted) #显示预测错误率 print("\n总数据%d条 预测失误%d条"%(iris.data.shape[0],(iris.target!=y_predicted).sum())) 来源: CSDN 作者: 一粒马豆 链接: https://blog.csdn.net/MAILLIBIN/article/details

数据挖掘与数据分析

岁酱吖の 提交于 2019-11-28 08:13:27
一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需要有太多的行业的专业知识。 3、交叉学科方面,数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析;数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合 数据挖掘和数据分析的相似之处: 1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。 2、都需要懂统计学,懂数据处理一些常用的方法,对数据的敏感度比较好。 3、数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。 二、数据挖掘 1 数学预备知识 概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。 矩阵论:线性代数中对数据挖掘最有用的部分,还有一些线性空间相关知识也很重要。 信息论

遥感影像数据解译基本步骤

大城市里の小女人 提交于 2019-11-28 07:17:28
前言:因论文数据需要,所以开始解译遥感影像数据,整个解译过程都是参考ESRI China的遥感事业部整理的Envi学习教程实现的,非常感谢该公司的学习资料,受益匪浅。同时,在这个过程中遇到了很多问题,幸得老师、师兄和同学的帮助得以解决,个人认为有必要记录各个流程以及问题的解决办法。趁着今天解译数据选样本快吐了,换个口味,整理一下。 (一)数据下载 我是在地理空间数据云( http://www.gscloud.cn )下载的遥感影像,当然也可以从美国地质调查局(USGS)网站( http://glovis.usgs.gov )下载,据说该网站的数据量大,可供选择的数据多,但由于本人不能翻墙,且地理空间数据云提供的数据满足我的要求,所以未翻墙。有需要的同学可以尝试一下,如果有什么好用的翻墙软件也可以推荐一下。 回到正题,地理空间数据云的数据提供了以下参数:数据标识、条带号、行编号、中心经度、中心维度、成像日期和云量,我下载的时候在选中研究区后,尽量选择云量低的影像,由于计划解译5类地类,建设用地和水域是比较容易识别的,所以主要是区分林地、耕地和未利用地, 因此在遥感图像的时相选择时需考虑植被生长阶段。植被生长茂盛期为 6 月下旬到 9 月上旬,各植物处于生长旺盛阶段,植被类型间的差异不明显,因此图像上也不易识别,反而 5 月中下旬至 6 月中旬对植被提取和分类最为有利。秋天树叶开始变色

支持向量机分类原理概述

自古美人都是妖i 提交于 2019-11-28 05:23:48
支持向量机分类原理概述 支持向量机(SVMs)是一组相关的监督学习方法,用于分析数据和识别模式,用于分类和回归分析。 最初的SVM算法是由弗拉基米尔。弗尼克发明的,目前的标准化身(软利润)是由科琳娜科尔特斯和弗拉迪米尔。瓦尼克提出的。 支持向量机在高或无限维度空间中构造超平面或超平面,可用于分类、回归或其他任务。 超平面与任何类最近的训练数据点之间的距离最大,因此,这是一个很好的分离,因为一般来说,越大的边界越低,分类器的泛化误差就越低。 我们想要找到最大的边缘超平面,它把有yi=1的点和yi=-1分开。 任何超平面都可以写成满足点的集合。 我们想要选择w和b来最大化边缘,或者在平行的超平面之间的距离,在分离数据的同时,尽可能地分开。 来源: https://www.cnblogs.com/277223178dudu/p/9513596.html