Hive | 易学教程

沃尔玛的产品知识图谱

阅读更多关于沃尔玛的产品知识图谱

作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴（销售商、供应商、品牌）提供的数据往往不完整，有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范（一种发送产品数据的约定格式），但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外，互联网上还有许多非结构化数据，如产品手册、产品评论、博客、社交媒体网站等。沃尔玛正致力于构建一个零售图谱(Retail Graph)，捕捉有关产品及其相关实体的知识，以帮助我们的客户更好地发现产品。它是一个产品知识图谱，可以在零售环境中回答有关产品和相关知识的问题，可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。沃尔玛的零售图谱是什么零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象，例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种：抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题，而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别，替代品和补充品（附件、兼容产品等）。它还试图将抽象概念

备注

阅读更多关于备注

分治法找到缺失的整数： https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653189951&idx=1&sn=0181c95484b67d108672235b14e5ebbb&chksm=8c9905e5bbee8cf3362ccc4c7e091caa18b5783183ce4475b6f011c09c1cb03847ea4cb5220c&scene=21#wechat_redirect 最小栈实践： https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653190073&idx=1&sn=c20c002127e2ce3fe0c71a00aee70806&chksm=8c990563bbee8c75521c54ea8eb44b009ad07266b1e5fbf22926baf9a7b7302c7e4f7657dbb8&scene=21#wechat_redirect 桶排序：无序数组排序后的最大相邻差值 https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653190318&idx=1&sn=5f79c533a9b39104c8b939a6d6c27d07&chksm

官宣！ASF官方正式宣布Apache Hudi成为顶级项目

阅读更多关于官宣！ASF官方正式宣布Apache Hudi成为顶级项目

官宣！ASF官方正式宣布Apache Hudi成为顶级项目马萨诸塞州韦克菲尔德（Wakefield，MA）- 2020年6月 - Apache软件基金会（ASF）、350多个开源项目和全职开发人员、管理人员和孵化器宣布：Apache Hudi正式成为Apache顶级项目（TLP）。在投票表决Hudi毕业时，Hudi总共获得了19票binding（其中包括ASF联合创始人Jim Jagielski的一票），21票non-binding。 Apache Hudi（Hadoop Upserts Delete and Incremental）数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发（代号和发音为"Hoodie"），于2017年开源，并于2019年1月提交给Apache孵化器。 Apache Hudi项目VP Vinoth Chandar说：“在孵化器中学习和发展Apache之道是一种有益的体验，作为一个社区，我们对我们共同推动该项目走了多远依然感到谦卑，与此同时，对即将到来的挑战感到兴奋。” Apache Hudi用于在Apache Hadoop分布式文件系统（HDFS）或云存储上使用流处理原语（例如插入更新和增量更改流）来管理PB级数据湖。Hudi数据湖提供了新鲜的数据，比传统批处理效率高一个数量级。

用户画像系统架构——从零开始搭建实时用户画像(二)

阅读更多关于用户画像系统架构——从零开始搭建实时用户画像(二)

![]( https://img2020.cnblogs.com/blog/1089984/202005/1089984-20200525090508335-1536539425.png ) 在《[什么的是用户画像]( https://mp.weixin.qq.com/s/169tCtjgUiDNeHIKLtGO9w )》一文中，我们已经知道用户画像对于企业的巨大意义，当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢？ # 挑战 - ## 大数据随着互联网的崛起和智能手机的兴起，以及物联网带来的各种可穿戴设备，我们能获取的每一个用户的数据量是非常巨大的，而用户量本身更是巨大的，我们面临的是TB级，PB级的数据，所以我们必须要一套可以支撑大数据量的高可用性，高扩展性的系统架构来支撑用户画像分析的实现。毫无疑问，大数据时代的到来让这一切都成为可能，近年来，以Hadoop为代表的大数据技术如雨后春笋般迅速发展，每隔一段时间都会有一项新的技术诞生，不断驱动的业务向前，这让我们对于用户画像的简单统计，复杂分析，机器学习都成为可能。所以整体用户画像体系必须建立在大数据架构之上。 ![]( https://img2020.cnblogs.com/blog/1089984/202005/1089984-20200525090411478

某二手交易平台大数据平台从 0 到 1 演进与实践

阅读更多关于某二手交易平台大数据平台从 0 到 1 演进与实践

在人口流量红利不再，获客成本越来越高的时代，精益创业、MVP 的概念已经深入人心，精细化运营也是大势所趋，而这些背后本质上都依赖数据化运营，那如何根据现有业务，快速从 0 开始打造一个契合业务的数据产品呢？本文将以某二手交易平台业务为基础，讲述整个数据平台从 0 到 1 的演进与实践，希望对大家能有所启发。 1、背景在某二手交易平台开始大数据平台建设之前，整个数据从需求提出到研发流程再到数据报表、数据产品，也是经历过一段非常混沌的时期，而且效率和质量往往很难得到保障，主要表现为以下几个方面：（1）可用性差比如经常出现计算延迟、异常，数据指标也常常数据对不上，很多相似的指标不清楚具体差异在哪，即使同一个指标也可能不同的同学开发的而对不上。另外数据波动无感知，比如日志格式出错，结果第二天才发现有问题。（2）维护成本高成百上千的日志模块，不知从何维护，出了问题也不知道从哪里可以追溯到源头和负责人。（3）业务快速迭代，精细化、数据化运营需求和研发资源之间的矛盾 2、目标与方案（1）目标数据可管理、可维护、可扩展、高可用及时、准确、直观的呈现业务数据与问题降低使用门槛，提升使用效率（2）方案数据仓库化数据平台化 3、数据仓库建设结构化层次化主题化模型化：用户模型/事件模型 ETL ETL 是整个数据仓库的核心，正如业界流传的一句话：Garbage In,

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

阅读更多关于大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

基于搜狗sogou_500w的日志数据分析数据预处理查看数据数据扩展数据加载构建数据仓库创建外部表创建分区表数据分析需求条数统计关键词分析 UID分析用户行为分析点击次数与rank之间的关系分析直接输入URL作为查询词的比例独立用户行为分析数据下载请点击我，提取码：cutx，觉得有用希望您能点一个赞哦。数据预处理查看数据 [hadoop@hadoop000 hive_data]$ less sogou.500w.utf8 20111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1 1 http://www.qiyi.com/ 20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人修仙传 3 1 http://www.booksky.org/BookDetail.aspx?BookID=1050804&Level=1 20111230000007 b97920521c78de70ac38e3713f524b50 本本联盟 1 1 http://www.bblianmeng.com/ [hadoop@hadoop000 hive_data]$ wc -l sogou.500w.utf8 5000000 sogou.500w.utf8 数据扩展主要目的

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

阅读更多关于想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据，都不好意思说自己是在IT圈混的。我敢打赌，你在中关村西二旗地铁站溜一圈，保准你会听到如下名词：Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。程序猿们就是有这么实在，坐在地铁上还能那么投入的讨论技术问题。那么，这些听起来高大上的技术，究竟都是干什么用的呢？他们之间的有什么区别和联系？通常，一个技术的兴起，都是由现实需求驱动的。了解了我们面临的问题，就能更好的理解各个大数据技术的使用场景，各类大数据技术的区别也就显而易见了。今天这一份书单，我们就将从Hadoop生态圈开始入手，推荐几本关于Hadoop生态圈的优质书籍！ Hadoop技术栈系列书单 Hadoop权威指南：大数据的存储与分析(第4版) 本书结合理论和实践，由浅入深，全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章，第Ⅰ部分介绍Hadoop基础知识，主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发

Sqoop快速入门系列(2) | Sqoop数据导入与导出

阅读更多关于 Sqoop快速入门系列(2) | Sqoop数据导入与导出

此篇为大家带来的是Sqoop数据导入与导出。目录一. 导入数据 RDBMS到HDFS RDBMS到Hive RDBMS到Hbase 二. 导出数据 HIVE/HDFS到RDBMS 三. 脚本打包一. 导入数据在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。 RDBMS到HDFS 确定Mysql服务开启正常 [bigdata@hadoop002 sqoop]$ mysql -uroot -p199712 1 在Mysql中新建一张表并插入一些数据 // 创建脚本 [bigdata@hadoop002 datas]$ vim company.sql create database company; use company; create table staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255)); insert into staff(name, sex) values('Thomas', 'Male'); insert into staff(name, sex) values('Catalina', 'FeMale'); insert

Hive实现自增列的两种方法

阅读更多关于 Hive实现自增列的两种方法

多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数（UDF）。用row_number()函数生成代理键 INSERT OVERWRITE TABLE my_hive_table select row_number() over ( order by create_time asc ) as id, key from my_mid_table 用UDFRowSequence生成代理键 add jar viewfs: // hadoop - meituan / user / hadoop - data / user_upload / weichao05_hive - contrib - 3.1 . 0 .jar; create temporary function row_sequence as ' org.apache.hadoop.hive.contrib.udf.UDFRowSequence ' ; INSERT OVERWRITE TABLE my_test_table select row_sequence() as id, key

数仓分层

阅读更多关于数仓分层

数仓分层 ODS ：Operation Data Store 原始数据 DWD ：data warehouse detail（数据清洗）数据明细详情，去除空置，脏数据，超过极限范围的明细解析具体表 DWS ：data warehouse service（宽表-用户行为，轻度聚合）服务层-留存-转化-GMV-复购率-日活点赞、评论、收藏轻度聚合对DWD ADS ：Application data store（出报表结果）做分析同步到RDS数据库里边数据集市：狭义ADS层，广义上指DWD，DWS，ADS从hadoop同步到RDS的数据数据搭建之ODS & DWD 1）创建gmall数据库 create database gmall 说明：如果数据库存在且有数据，需要强制删除时执行：drop database gmall cascade; 2）使用gmall数据库 use gmall; 1.ODS层原始数据层，存放原始数据，直接加载日志、数据，数据保持原貌不做处理 1）创建启动日志表ods_start_log 创建输入数据是lzo输出时text，支持Json解析的分区数据 drop table if exists ods_start_log; create external table ods_start_log('line' string) partition

订阅 Hive