Hadoop

win10下Spark的环境搭建

五迷三道 提交于 2020-12-19 07:18:02
win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置 二、scala 2.11.8 安装与配置 http://www.scala-lang.org/download/2.11.8.html 上面两步见《 win10下安装scala 》 三、spark 2.3.0 安装与配置 1、下载spark:官网地址: http://spark.apache.org/downloads.html 2、下载完成后解压到D盘根目录下即可。D:\spark-2.3.0-bin-hadoop2.6。 3、配置Path:将D:\spark-2.3.0-bin-hadoop2.6\bin添加到Path中。 4、通过spark-shell进入到spark交互式命令行模式下 上面可以看见安装的scala版本、jdk版本、spark版本。 注意:上面出现了异常信息,是由于hadoop导致的。所以还要下载安装hadoop进行相关配置。 四、hadoop 2.6.4 安装与配置 1、下载hadoop:官方地址: http://hadoop.apache.org/releases.html 2、解压到D盘根目录下。 3、配置环境变量:HADOOP_HOME 和 Path。 4、winutils下载: https://github.com/steveloughran

hive性能调优

亡梦爱人 提交于 2020-12-19 04:36:35
hive性能调优 (一)Hadoop 计算框架的特性 什么是数据倾斜 由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点 Hadoop框架的特性 不怕数据大,怕数据倾斜 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题 count(distinct ),在数据量大的情况下,效率较低,因为count(distinct)是按group by 字段分组,按distinct字段排序,一般这种分布方式是很倾斜的 (二)优化的常用手段 (1)解决数据倾斜问题 (2)减少job数 (3)设置合理的map reduce的task数,能有效提升性能。 (4)了解数据分布,自己动手解决数据倾斜问题是个不错的选择 (5)数据量较大的情况下,慎用count(distinct)。 (6)对小文件进行合并,是行至有效的提高调度效率的方法。 (7)优化时把握整体,单个作业最优不如整体最优。 (三)Hive的数据类型方面的优化 优化原则 (1)按照一定规则分区(例如根据日期)。通过分区,查询的时候指定分区,会大大减少在无用数据上的扫描,

ssh: Could not resolve hostname guard.: Temporary

瘦欲@ 提交于 2020-12-19 02:28:24
今天在通过./start-all.sh启动Hadoop集群的时候报了如下的错误 root@master:/usr/local/hadoop-2.7.2/sbin# ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 16/06/16 17:54:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Starting namenodes on [Java HotSpot(TM) Client VM warning: You have loaded library /usr/local/hadoop-2.7.2/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now. It's highly recommended that you fix the library with 'execstack

DOIT20-HDP02

情到浓时终转凉″ 提交于 2020-12-18 13:04:15
1 HDFS的shell客户端 [root@linux01 ~]# hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>] [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...] [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]]

6.2_基于协同过滤推荐系统

那年仲夏 提交于 2020-12-18 06:36:08
基于协同过滤的推荐系统 为了让推荐结果符合用户口味,我们需要深入了解用户和物品。用户的兴趣是不断变化的,但用户不会不停的更新兴趣描述。最后,很多时候用户并不知道自己喜欢什么,或者很难用语言描述自己喜欢什么,因此,我们需要通过算法自动发觉用户行为数据,从用户的行为中推测用户的兴趣,从而给用户推荐满足他们兴趣的物品。通常我们会给用户推荐其它用户看过的物品,或者是浏览物品相关的类似商品。 基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。顾名思义,协同过滤就是指用户可以齐心协力,通过不算地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而来满足自己的需求 用户行为数据简介 用户行为数据最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志,并将其存储在文件系统中。很多互联网业务会把多种原始日志按照用户行为汇总成会话日志。推荐系统和电子商务网站就会将原始日志描述成用户行为的会话日志。会话日志同存储在分布式数据仓库中,如支持离线分析的Hadoop Hive。这些日志记录了用户的各种行为,如在电子商务网站中这些行为主要包括网页浏览、购买、点击、评分和评论等。 用户行为在个性化推荐系统中一般分为两种:显性反馈行为和隐性反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为。这些主要的方式都是采用评分和喜欢

StreamSets学习系列之启动StreamSets时出现Caused by: java.security.AccessControlException: access denied (&qu...

烂漫一生 提交于 2020-12-18 04:00:38
  不多说,直接上干货!    问题详情 [hadoop@master streamsets-datacollector- 3.3 . 0 ]$ ./bin/ streamsets dc Java 1.8 detected; adding $SDC_JAVA8_OPTS of " -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144 " to $SDC_JAVA_OPTS WARN: Security is enabled and was unable to verify policy file ' file:///data/streamsets/sdc-stand-alone-dirs/configuration/sdc-security.policy ' Exception in thread " main " java.lang.IllegalArgumentException: Error: Security is enabled but sdc policy file is misconfigured at com.streamsets.pipeline.BootstrapMain.main(BootstrapMain.java: 109 ) Caused by:

Kerberos安全工件概述

半城伤御伤魂 提交于 2020-12-18 02:40:16
Cloudera 集群如何使用Kerberos工件,例如principal、keytab和委派令牌。 Cloudera建议使用Kerberos进行身份验证,因为仅原生的Hadoop身份验证仅检查HDFS上下文中的有效成员的 user:group 身份,而不像Kerberos那样对所有网络资源中的用户或服务进行身份验证。与可能更容易部署的其他机制不同,Kerberos协议仅在特定时间段内对发出请求的用户或服务进行身份验证,并且用户可能要使用的每个服务都需要在协议的上下文中使用适当的Kerberos工件。本节描述Cloudera集群如何使用其中一些工件,例如用于用户身份验证的Kerberos principal和Keytab,以及系统如何使用委派令牌在运行时代表已身份验证的用户对作业进行身份验证。 Kerberos principal 每个需要对Kerberos进行身份验证的用户和服务都需要一个 principal ,即一个实体,该实体在可能有多个Kerberos服务器和相关子系统的上下文中唯一标识该用户或服务。principal最多包含三段标识信息,以用户名或服务名(称为“ 主 ” )开头 。通常,principal的主要部分由操作系统中的用户帐户名组成,例如 jcarlos 用于用户的Unix帐户或 hdfs 与主机基础集群节点上的服务守护程序相关联的Linux帐户。

centos6.6安装hadoop-2.5.0(一、本地模式安装)

你。 提交于 2020-12-18 02:10:15
操作系统:centos6.6(一台服务器) 环境:selinux disabled;iptables off;java 1.8.0_131 安装包:hadoop-2.5.0.tar.gz hadoop的本地模式部署(适用于本地开发调试模式) 1、新建安装目录 #mkdir /data/hadoop/hadoopstandalone -p 2、解压压缩包 #tar zxvf hadoop-2.5.0.tar.gz -C /data/hadoop/hadoopstandalone/ 3、运行hadoop之前确保${JAVA_HOME}路径已添加环境变量 #${JAVA_HOME} 4、准备测试文件 #cat /data/hadoop/hadoopstandalone/hadoop-2.5.0/wc.input 5、运行hadoop自带的mapreduce demo #bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount wc.input output #ll output/ _SUCCESS表示JOB运行成功 part-r-00000表示输出文件结果 在hadoop本地模式运行时,会看到LocalJobRunner的字样。 来源: oschina 链接: https:/

超过O(n)时间复杂度的算法都是在耍流氓

不羁岁月 提交于 2020-12-18 01:59:45
超过O(n)时间复杂度的算法都是在耍流氓,借着机器性能好,你就可以不考虑算法复杂度了?就可以 O(n^2),O(n^3)嘛。。。 什么狗屁数学,什么狗屁学术,就是你自己编码水平太滥,才需要更强大的硬件。 一台服务器你用了不爽,要用十台。。要用千台。。干呀。。 你要1TB的传输量,一台机器硬盘IO怎么也得80-100MB/s, 1TB除下不就好了。 用这么多硬盘就行。为毛要比这个多得多的硬件。。。 还有CPU和内存,老是想码几十万行代码,我靠,那种功能,几万行就能解决好了,而且还用更高效的算法,O(logn)就搞定,你非要整个o(n^2),试问你是在应用,不是在学习。。。 还有,你想要效率,又不想学C,天天搞Java,你搞毛线呀。。。 Java动不动就几MB,几十MB的内存占用。。各种虚拟资源,你看C。。程序很小很小,3000行的代码,只有100KB。。。。  1MB得要多少行C代码。。而内存占用,从不含糊,需要多少就用多少,不会多一点乱用的内存。。。 还有现在开源好多也是这种风气。。。不考虑高性能。。  一秒种,插入10万次到磁盘,很艰难。 而要做到一秒插入30万条(78字节一条)磁盘,更难。 一般的开源软件,能到一万条就不错了。。。 哎,开源的东西,好多把高性能给放弃了,就算用了高性能,也需要大量的硬件,如:Hadoop。 memcached,内存里的数据库,竟然

AnalyticDB 如何支撑数据银行超大规模低成本实时分析

岁酱吖の 提交于 2020-12-16 03:55:07
前言 数据银行是一款品牌消费者运营的商业数据产品,由于其核心分析能力需要在海量数据上实现任意维度自由分析和响应时间上的强需求,我们大规模使用AnalyticDB作为底层的分析引擎,最终以较低的成本,出色的性能,支撑了上万品牌商大促期间每天百万级的OLAP查询。 当前数据银行在AnalyticDB中存储了约几十万亿条数据,占用存储空间约1.6P,查询平均响应时间在5秒以内。 数据银行业务介绍 数据银行作为消费者运营的商业数据产品,提供了链路流转分析、人群圈选、人群画像等众多数据能力。 链路流转分析 AIPL是数据银行的特有指标,用于衡量品牌和消费者关系的指标(AIPL是4个阶段的缩写,分别是A认知、I兴趣、P购买、L忠诚),链路流转分析用于获取品牌任意两天消费者AIPL关系的变化(如下图,某品牌在某个类目下,从去年双十一到今年双十一AIPL的变化,非真实数据)。 在这个场景,用户可以选择近540天内的任意两个日期,加上品牌和类目这两个维度,用户可能的输入情况在 百万亿级别 。 人群画像 人群画像是消费者运营产品的核心能力,数据银行除了可以针对用户沉淀的具体人群进行画像操作,还可以对链路流转的人群进行画像以帮助品牌分析消费者关系变化的原因(如下图,某品牌去年双十一是购买状态但今年双十一是流失状态的人群画像,非真实数据)。 在这个场景,数据银行为用户提供了200多个标签,大部分为行业相关