poi

深度学习在商户挂牌语义理解的实践

ぃ、小莉子 提交于 2019-12-06 16:47:40
​导读:高德地图拥有几千万的POI兴趣点,例如大厦、底商、学校等数据,而且每天不断有新的POI出现。为了维持POI数据的鲜度,高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂,多变,同时,名称制作工艺要求严格,通过人工来制作POI名称,需要花费大量的人力成本。 因此,POI名称的自动生成就显得格外重要,而机器对商户挂牌的语义理解又是其中关键的一环。本文主要介绍相关技术方案在高德的实践和业务效果。 一、背景 现实世界中,商户的挂牌各式各样,千奇百怪,如何让机器正确的理解牌匾语义是一个难点。商户挂牌的文本种类有很多,如下图所示,我们可以看到一个商户牌匾的构成。 结合POI的名称制作工艺,我们目前将POI的牌匾的文本行分为4大类:主名称、经营性质(包括经营范围,具体的进行项目)、分店名、噪声(包括非POI文字,地址,联系方式),前面3个类别会参与到POI名称制作中。如上图所示的牌匾,它输出的规范名称应该是“世纪宏图不动产 (兴业路店)”。其中“世纪宏图”是主名称,“不动产”是经营范围,而“兴业路店”是分店名。 从牌匾中找出制作名称所需要的文字,不仅仅需要文本行自身的一些特征,还需要通过结合牌匾上下文,以及图像的信息进行分析。单纯的文本行识别会遇到下面的问题,如下图,在两个牌匾中都提到了“中国电信”,但是它们的意义是不一样的,这时必须结合上下文的理解。 二、技术方案

高德地图POI采集(URL-API)

半腔热情 提交于 2019-12-06 10:26:38
新手从零学起,成功跑通,记一下,技术大神们多多指点。 ———————————————— 1-概述 POI:兴趣点。对于百度、高德等电子地图来说,一个POI是地图上的一个店铺/商场/小区等等。 这次要解决的问题是统计全国范围内某行业实体店的数量。采用的方法就是从地图软件上搜索行业关键词,抓取返回结果的办法。 2-途径 经过对比,选取的平台是高德地图开放平台 https://lbs.amap.com/api (同类型的还有百度地图,但是经测试BUG太多,放弃) 平台提供多种接口,选择了最小白的途径,URL API。举个例子,我要搜索北京东城区 https://restapi.amap.com/v3/place/text?keywords= 宠物&city=& 东城区&output= json&offset= 50&page= 1&key= ********* 我把key隐掉了,这样抠搜是因为每个开发者每天能请求的次数是有限的, 大家可以去https://lbs.amap.com自己注册申请一个试一下。 (这里是每个开发者的调用限制说明,https://lbs.amap.com/api/webservice/guide/tools/flowlevel) 直接访问拼接好的URL,就能获取到Json格式的POI数据。我这里采用的是地点搜索功能,每个地点支持最多1000条以下的信息搜集

POI 读取 Excel 文件(2003版本与2007版本的差异之处)

ε祈祈猫儿з 提交于 2019-12-06 07:57:57
已整理成完整项目,并进行了优化。看参考地址: https://gitee.com/andy_longjie/exceltools 或者 https://github.com/youmulongjie/exceltools 我们在做用POI读物 Excel文件时,往往会忽略了Excel的版本,到底是2003还是2007。于是在读取或写入Excel文件时,用2003版本的Excel和用2007版本的Excel文件,会出现不兼容情况。抛出异常,大概信息如下:org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF); 异常指出我们用了Office2007以上的版本(包含2007),要我们用XSSF来代替HSSF。 于是我们开始替换我们的代码,用XSSF代替HSSF。可是我们却意外的发现poi.jar包中

java基于poi实现快速操作Excel的工具[v2.1.0]版本更新

て烟熏妆下的殇ゞ 提交于 2019-12-06 07:14:59
Excel4J v2.x 一. v2.x新特性 Excel读取支持部分类型转换了(如转为Integer,Long,Date(部分)等) v2.0.0之前只能全部内容转为String Excel支持非注解读取Excel内容了,内容存于 List<List<String>> 对象内 现在支持 List<List<String>> 导出Excel了(可以不基于模板) Excel新增了Map数据样式映射功能(模板可为每个key设置一个样式,定义为:&key, 导出Map数据的样式将与key值映射) 新增读取Excel数据转换器接口 com.github.converter.ReadConvertible 新增写入Excel数据转换器接口 com.github.converter.WriteConvertible 修复已知bug 二. 基于注解(/src/test/java/modules/Student2.java) @ExcelField(title = "学号", order = 1) private Long id; @ExcelField(title = "姓名", order = 2) private String name; // 写入数据转换器 Student2DateConverter @ExcelField(title = "入学日期", order = 3,

Java POI导出EXCEL经典实现 Java导出Excel弹出下载框

℡╲_俬逩灬. 提交于 2019-12-06 07:14:35
在web开发中,有一个经典的功能,就是数据的导入导出。特别是数据的导出,在生产管理或者财务系统中用的非常普遍,因为这些系统经常要做一些报表打印的工作。而数据导出的格式一般是EXCEL或者PDF,我这里就用两篇文章分别给大家介绍下。(注意,我们这里说的数据导出可不是数据库中的数据导出!么误会啦^_^) 呵呵,首先我们来导出EXCEL格式的文件吧。现在主流的操作Excel文件的开源工具有很多,用得比较多的就是Apache的POI及JExcelAPI。这里我们用Apache POI!我们先去Apache的大本营下载POI的jar包:http://poi.apache.org/ ,我这里使用的是3.0.2版本。 将3个jar包导入到classpath下,什么?忘了怎么导包?不会吧!好,我们来写一个导出Excel的实用类(所谓实用,是指基本不用怎么修改就可以在实际项目中直接使用的!)。我一直强调做类也好,做方法也好,一定要通用性和灵活性强。下面这个类就算基本贯彻了我的这种思想。那么,熟悉许老师风格的人应该知道,这时候该要甩出一长串代码了。没错,大伙请看: import java.util.Date; public class Student { private long id; private String name; private int age; private boolean sex

使用Apache POI创建Excel,并从数据库中读取数据写入到Excel文件中

╄→гoц情女王★ 提交于 2019-12-06 03:06:58
使用Apache POI创建Excel,并从数据库中读取数据写入到Excel文件中 介绍: Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案读和写的功能。 结构: HSSF - 提供读写Microsoft Excel格式档案的功能。 XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。 HWPF - 提供读写Microsoft Word格式档案的功能。 HSLF - 提供读写Microsoft PowerPoint格式档案的功能。 HDGF - 提供读写Microsoft Visio格式档案的功能。 详情: http://poi.apache.org/ 步骤: 数据库字段 创建一个连接数据库(UtilsUtils.java) package org.html.model; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class Utils { private static Connection con; private

Java使用POI实现大数据量导出

我们两清 提交于 2019-12-06 03:05:27
项目架构:springboot 项目 单体服务 -----下一篇是使用dubbo的服务 1)第一步:pom引入poi对应的jar包: <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.0.0</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.0.0</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml-schemas</artifactId> <version>4.0.0</version> </dependency> 工具类: package com.alibaba.poi; /** * @description EXCEL常量类 */ public class ExcelConstant { /** * 每个sheet存储的记录数 100W */ public static final Integer PER_SHEET_ROW_COUNT =

地理文本处理技术在高德的演进(上)

做~自己de王妃 提交于 2019-12-06 02:37:29
一、背景 地图App的功能可以简单概括为定位,搜索,导航三部分,分别解决在哪里,去哪里,和怎么去的问题。高德地图的搜索场景下,输入的是,地理相关的检索query,用户位置,App图面等信息,输出的是,用户想要的POI。如何能够更加精准地找到用户想要的POI,提高满意度,是评价搜索效果的最关键指标。 一个搜索引擎通常可以拆分成query分析、召回、排序三个部分,query分析主要是尝试理解query表达的含义,为召回和排序给予指导。 地图搜索的query分析不仅包括通用搜索下的分词,成分分析,同义词,纠错等通用NLP技术,还包括城市分析,wherewhat分析,路径规划分析等特定的意图理解方式。 常见的一些地图场景下的query意图表达如下: query分析是搜索引擎中策略密集的场景,通常会应用NLP领域的各种技术。地图场景下的query分析,只需要处理地理相关的文本,多样性不如网页搜索,看起来会简单一些。但是,地理文本通常比较短,并且用户大部分的需求是唯一少量结果,要求精准度非常高,如何能够做好地图场景下的文本分析,并提升搜索结果的质量,是充满挑战的。 二、整体技术架构 搜索架构 类似于通用检索的架构,地图的检索架构包括query分析,召回,排序三个主要部分。先验的,用户的输入信息可以理解为多种意图的表达,同时下发请求尝试获取检索结果。后验的,拿到每种意图的检索结果时,进行综合判断

聊聊redis的数据结构的应用

风流意气都作罢 提交于 2019-12-06 02:12:50
序 本文主要研究一下redis的数据结构的应用 string 最常用的就是incr操作,比如可以用来维护用户在某个抽奖活动的剩余抽奖次数 setnx方法可以用来实现分布式锁 hashmap 可以用来存储session,作为分布式session的一个实现方案 可以用来存储用户购物车,value值存储的key为物品,value为其数量 set set可以用来存储每个标签对应的文章id 也可以用来存储每个文章的已投票用户id,通过add返回值可以判断该值之前是否已经存在 zset zset可以用来存储文章的得票数,使用得票数作为score,使用zset排序得出投票最高的前N篇文章 或者用来存储最近登录的用户id,使用时间作为score,使用zset排序得出最近登录的前N个用户id 也可以存储用户最近浏览的物品,使用时间作为score,使用zset排序得出用户最近浏览的前N个物品 也可以存储物品最近浏览的用户,使用时间作为score,使用zset排序得出最近浏览该物品的前N个用户 list 可以作为简单的消息队列,通过list的lpush以及brpop作为消息队列的入队及消费的操作 hyperloglog 用来粗略统计网站的每日UV geo( 底层使用zset ) 使用geo来存储poi信息,比如存储门店的经纬度,之后可以根据半径查询附件的门店信息 bitmaps( 底层是string结构

Springboot导入Excel(使用POI)

允我心安 提交于 2019-12-06 01:59:32
在工作的业务中,有时候需要我们获取导入的excel里面的数据,来自动生成系统数据。其实实现的原理并不复杂,只需要使用Http协议的MultiFile将文件上传到服务器,然后利用POI的HSSFWorkbook来解析上传的Excel,然后根据业务需要解析出Excel中单元格的值,将需要的值插入或修改到数据库即可。直接上代码:   代码案例是我们要实现一个导入员工的功能:   1.Controller层我们要接收客户端上传的文件,并解析上传的excel,取出我们需要的单元格里面的值:    @RequestMapping("/import") public RespBean importEmployee(@RequestParam("file") MultipartFile file) throws IOException { List<Nation> allNations = nationService.getAllNations();//获取民族 List<PoliticsStatus> allPolitics = politicsService.getAllPolitics();//获取政治面貌 List<Department> allDeps = departmentService.getAllDepartments();//获取部门 List<Position> allPos