Hive

沃尔玛的产品知识图谱

那年仲夏 提交于 2020-08-11 04:02:07
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

备注

╄→гoц情女王★ 提交于 2020-08-11 02:28:56
分治法 找到缺失的整数: https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653189951&idx=1&sn=0181c95484b67d108672235b14e5ebbb&chksm=8c9905e5bbee8cf3362ccc4c7e091caa18b5783183ce4475b6f011c09c1cb03847ea4cb5220c&scene=21#wechat_redirect 最小栈实践: https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653190073&idx=1&sn=c20c002127e2ce3fe0c71a00aee70806&chksm=8c990563bbee8c75521c54ea8eb44b009ad07266b1e5fbf22926baf9a7b7302c7e4f7657dbb8&scene=21#wechat_redirect 桶排序: 无序数组排序后的最大相邻差值 https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653190318&idx=1&sn=5f79c533a9b39104c8b939a6d6c27d07&chksm

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

情到浓时终转凉″ 提交于 2020-08-11 01:06:31
官宣!ASF官方正式宣布Apache Hudi成为顶级项目 马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。 Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。 Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。” Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。

用户画像系统架构——从零开始搭建实时用户画像(二)

前提是你 提交于 2020-08-10 18:51:51
​ ![]( https://img2020.cnblogs.com/blog/1089984/202005/1089984-20200525090508335-1536539425.png ) ​ 在《[什么的是用户画像]( https://mp.weixin.qq.com/s/169tCtjgUiDNeHIKLtGO9w )》一文中,我们已经知道用户画像对于企业的巨大意义,当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢? # 挑战 - ## 大数据 随着互联网的崛起和智能手机的兴起,以及物联网带来的各种可穿戴设备,我们能获取的每一个用户的数据量是非常巨大的,而用户量本身更是巨大的,我们面临的是TB级,PB级的数据,所以我们必须要一套可以支撑大数据量的高可用性,高扩展性的系统架构来支撑用户画像分析的实现。毫无疑问,大数据时代的到来让这一切都成为可能,近年来,以Hadoop为代表的大数据技术如雨后春笋般迅速发展,每隔一段时间都会有一项新的技术诞生,不断驱动的业务向前,这让我们对于用户画像的简单统计,复杂分析,机器学习都成为可能。所以整体用户画像体系必须建立在大数据架构之上。 ![]( https://img2020.cnblogs.com/blog/1089984/202005/1089984-20200525090411478

某二手交易平台大数据平台从 0 到 1 演进与实践

|▌冷眼眸甩不掉的悲伤 提交于 2020-08-10 15:46:00
在人口流量红利不再,获客成本越来越高的时代,精益创业、MVP 的概念已经深入人心,精细化运营也是大势所趋,而这些背后本质上都依赖数据化运营,那如何根据现有业务,快速从 0 开始打造一个契合业务的数据产品呢?本文将以某二手交易平台业务为基础,讲述整个数据平台从 0 到 1 的演进与实践,希望对大家能有所启发。 1、背景 在某二手交易平台开始大数据平台建设之前,整个数据从需求提出到研发流程再到数据报表、数据产品,也是经历过一段非常混沌的时期,而且效率和质量往往很难得到保障,主要表现为以下几个方面: (1)可用性差 比如经常出现计算延迟、异常,数据指标也常常数据对不上,很多相似的指标不清楚具体差异在哪,即使同一个指标也可能不同的同学开发的而对不上。另外数据波动无感知,比如日志格式出错,结果第二天才发现有问题。 (2)维护成本高 成百上千的日志模块,不知从何维护,出了问题也不知道从哪里可以追溯到源头和负责人。 (3)业务快速迭代,精细化、数据化运营需求和研发资源之间的矛盾 2、目标与方案 (1)目标 数据可管理、可维护、可扩展、高可用 及时、准确、直观的呈现业务数据与问题 降低使用门槛,提升使用效率 (2)方案 数据仓库化 数据平台化 3、数据仓库建设 结构化 层次化 主题化 模型化:用户模型/事件模型 ETL ETL 是整个数据仓库的核心,正如业界流传的一句话:Garbage In,

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

耗尽温柔 提交于 2020-08-10 15:27:27
基于搜狗sogou_500w的日志数据分析 数据预处理 查看数据 数据扩展 数据加载 构建数据仓库 创建外部表 创建分区表 数据分析需求 条数统计 关键词分析 UID分析 用户行为分析 点击次数与rank之间的关系分析 直接输入URL作为查询词的比例 独立用户行为分析 数据下载 请点击我 ,提取码:cutx,觉得有用希望您能点一个赞哦。 数据预处理 查看数据 [hadoop@hadoop000 hive_data]$ less sogou.500w.utf8 20111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1 1 http://www.qiyi.com/ 20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人修仙传 3 1 http://www.booksky.org/BookDetail.aspx?BookID=1050804&Level=1 20111230000007 b97920521c78de70ac38e3713f524b50 本本联盟 1 1 http://www.bblianmeng.com/ [hadoop@hadoop000 hive_data]$ wc -l sogou.500w.utf8 5000000 sogou.500w.utf8 数据扩展 主要目的

想了解大数据的鼻祖Hadoop技术栈,这里有一份优质书单推荐!

╄→гoц情女王★ 提交于 2020-08-10 12:52:37
​ 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。 程序猿们就是有这么实在,坐在地铁上还能那么投入的讨论技术问题。那么,这些听起来高大上的技术,究竟都是干什么用的呢?他们之间的有什么区别和联系? 通常,一个技术的兴起,都是由现实需求驱动的。了解了我们面临的问题,就能更好的理解各个大数据技术的使用场景,各类大数据技术的区别也就显而易见了。 今天这一份书单,我们就将从Hadoop生态圈开始入手,推荐几本关于Hadoop生态圈的优质书籍! Hadoop技术栈系列书单 ​ Hadoop权威指南:大数据的存储与分析(第4版) 本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。 全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发

Sqoop快速入门系列(2) | Sqoop数据导入与导出

只谈情不闲聊 提交于 2020-08-10 12:12:16
 此篇为大家带来的是Sqoop数据导入与导出。 目录 一. 导入数据 RDBMS到HDFS RDBMS到Hive RDBMS到Hbase 二. 导出数据 HIVE/HDFS到RDBMS 三. 脚本打包 一. 导入数据   在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。 RDBMS到HDFS 确定Mysql服务开启正常 [bigdata@hadoop002 sqoop]$ mysql -uroot -p199712 1 在Mysql中新建一张表并插入一些数据 // 创建脚本 [bigdata@hadoop002 datas]$ vim company.sql create database company; use company; create table staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255)); insert into staff(name, sex) values('Thomas', 'Male'); insert into staff(name, sex) values('Catalina', 'FeMale'); insert

Hive实现自增列的两种方法

a 夏天 提交于 2020-08-10 09:14:27
多维数据仓库中的维度表和事实表一般都需要有一个代理键,作为这些表的主键,代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列,但它也有一些对自增序列的支持,通常有两种方法生成代理键:使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。 用row_number()函数生成代理键 INSERT OVERWRITE TABLE my_hive_table select row_number() over ( order by create_time asc ) as id, key from my_mid_table 用UDFRowSequence生成代理键 add jar viewfs: // hadoop - meituan / user / hadoop - data / user_upload / weichao05_hive - contrib - 3.1 . 0 .jar; create temporary function row_sequence as ' org.apache.hadoop.hive.contrib.udf.UDFRowSequence ' ; INSERT OVERWRITE TABLE my_test_table select row_sequence() as id, key

数仓分层

扶醉桌前 提交于 2020-08-10 09:09:53
数仓分层 ODS :Operation Data Store 原始数据 DWD :data warehouse detail(数据清洗) 数据明细详情,去除空置,脏数据,超过极限范围的 明细解析 具体表 DWS :data warehouse service(宽表-用户行为,轻度聚合) 服务层-留存-转化-GMV-复购率-日活 点赞、评论、收藏 轻度聚合对DWD ADS :Application data store(出报表结果) 做分析同步到RDS数据库里边 数据集市 :狭义ADS层,广义上指DWD,DWS,ADS从hadoop同步到RDS的数据 数据搭建之ODS & DWD 1)创建gmall数据库 create database gmall 说明:如果数据库存在且有数据,需要强制删除时执行:drop database gmall cascade; 2)使用gmall数据库 use gmall; 1.ODS层 原始数据层,存放原始数据,直接加载日志、数据,数据保持原貌不做处理 1)创建启动日志表ods_start_log 创建输入数据是lzo输出时text,支持Json解析的分区数据 drop table if exists ods_start_log; create external table ods_start_log('line' string) partition