Hadoop

Linux基础命令总结

旧街凉风 提交于 2020-11-24 10:28:50
<font size='+0.5'>数据挖掘工程师并不是一直都在图形化界面中工作,并且随着大数据开源技术的发展,会有更多的任务需要在命令行环境下完成,比如在hadoop环境下进行数据文件的导入导出,在ubuntu环境下进行python库的安装与配置,因此就需要掌握一些基本的、常用的Linux命令。本文针对这一话题进行了总结梳理。</font> ##1.目录操作 ###(1)绝对路径与相对路径 绝对路径 :路径的写法一定由根目录”/”写起,比如:/usr/local/lib 相对路径 :路径的写法不是由根目录”/”写起,比如:local/lib。这时,这个目录相当于是将当前目录作为“根目录”,如果当前目录变化了,那么这个相对路径就要需要修改。 ###(2)打印当前目录:pwd 命令格式: pwd 返回当前目录的绝对路径。 ###(3)切换目录:cd 命令格式: cd 目录名 cd 绝对路径 cd 相对路径 cd . --切换到当前目录 cd .. --切换到上一层目录 cd / --切换到根目录 cd ~ --切换到home目录 ###(4)创建目录:mkdir 命令格式: mkdir 新目录名(既可以是绝对路径,也可以是相对路径) -p参数: mkdir -p 新目录名 -p的作用是,不使用-p参数时,如果要创建的目录所在的上层目录不存在时,就会报错;而使用了-p参数后

吐血整理!关于Python的基础知识第一部分!(附网盘链接)

只谈情不闲聊 提交于 2020-11-24 07:23:09
今天跟大家分享的是关于Python的基础知识第一部分, 文末获取网盘链接 1.计算机语言 2.运行Python 3.Python语言特点 4.基本规则 5.变量赋值 点击链接获取完整文档哦 链接: https://pan.baidu.com/s/1W_f96j1q_yTBAAF-mSUDCQ 提取码:2zd9 ※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南] CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领 来源: oschina 链接: https://my.oschina.net/u/4601114/blog/4696445

HBase(八)HBase的协处理器

孤街浪徒 提交于 2020-11-24 06:14:35
一、协处理器简介 1、 起源   Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成 了 MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的相 加或者聚合计算的时候, 如果直接将计算过程放置在 server 端,能够减少通讯开销,从而获 得很好的性能提升。 于是,HBase 在 0.92 之后引入了协处理器(coprocessors),实现一些激动 人心的新特性:能够轻易建立二次索引、复杂过滤器(谓词下推)以及访问控制等。 2、介绍   协处理器有两种: observer 和 endpoint   Observer 类似于传统数据库中的触发器,当发生某些事件的时候这类协处理器会被 Server 端调用。Observer Coprocessor 就是一些散布在 HBase Server 端代码中的 hook 钩子, 在固定的事件发生时被调用。比如:put 操作之前有钩子函数 prePut,该函数在 put 操作执 行前会被 Region Server 调用;在 put 操作之后则有 postPut 钩子函数  

mysql【yum方式安装/rpm包安装】

此生再无相见时 提交于 2020-11-24 04:49:52
创建mysql的yum源文件,其他默认的yum源的配置文件不用动 vi mysql.repo [ mysql ] name = mysql baseurl = https://mirrors.cloud.tencent.com/mysql/yum/mysql-5.6-community-el7-x86_64/ enabled = 1 gpgcheck = 0 yum clean all yum makecache fast yum install -y mysql-community-server yum -y install mysql-community-server ansible systemctl start mysqld 默认没有密码 mysql -u root -p 添加密码 grant all on *.* to root@ '%' identified by 'Tredis' ; grant all on *.* to root@ 'localhost' identified by 'Tredis' ; grant all on *.* to root@ 'test' identified by 'myPassword' ; flush privileges ; 卸载MySQL的步骤: 1.查看是否安装Mysql [atguigu@hadoop102 module

Java程序员工作三年,月薪达到38K,只因他掌握了这七大技能树

可紊 提交于 2020-11-23 09:55:04
Java架构师,首先要是一个高级java攻城狮,熟练使用各种框架,并知道它们实现的原理。jvm虚拟机原理、调优,懂得jvm能让你写出性能更好的代码;池技术,什么对象池,连接池,线程池…… Java构架师需要掌握的技术: 1、熟练使用各种框架,并知道它们实现的原理。 2、jvm虚拟机原理、调优,懂得jvm能让你写出性能更好的代码; 3、池技术,什么对象池,连接池,线程池……Java反射技术,写框架必备的技术,遇到有严重的性能问题,替代方案java字节码技术; 4、nio,没什么好说的,值得注意的是"直接内存"的特点,使用场景;java多线程同步异步;java各种集合对象的实现原理,了解这些可以让你在解决问题时选择合适的数据结构,高效的解决问题,比如hashmap的实现原理,好多五年以上经验的人都弄不清楚,还有为什扩容时有性能问题?不弄清楚这些原理,就写不出高效的代码,还会认为自己做的很对; 总之一句话,越基础的东西越重要,很多人认为自己会用它们写代码了,其实仅仅是知道如何调用api而已,离会用还差的远。 5、熟练使用各种数据结构和算法,数组、哈希、链表、排序树…,一句话要么是时间换空间要么是空间换时间,这里展开可以说一大堆,需要有一定的应用经验,用于解决各种性能或业务上的问题。 6、熟练使用linux操作系统,必备,没什么好说的 。 7、熟悉tcp协议

Hbase单机模式环境搭建

落花浮王杯 提交于 2020-11-23 09:46:03
Hbase 单机模式环境搭建 【注】 本文章为笔者2016年期间为北京某高校硕士班编写的Hbase实验课程,现将此分享至CSDN平台,供大家学习。 【实验目的】 学会Hbase单机模式配置 理解环境的配置文件 【实验原理】 Hbase单节点配置是在没有多台计算机节点的情况下,对Hbase的分布式存储和计算进行模拟安装和配置。通过在一台计算机节点上解压Hbase安装压缩包后,然后进行Hbase相关文件进行配置,让Hbase运行在一台机器上并实现对数据存储和计算的测试支持。默认情况下,Hbase运行在单机模式下。在单机模式中,Hbase使用本地文件系统,而不是HDFS。 【实验环境】 本次环境是:centos6.5 + jdk1.7.0_79 工具包在/simple/soft目录下 host01是计算机名称对应ip地址为 192.168.0.131,可以在/etc/hosts文件中查看映射关系 【实验步骤】 一、安装包解压 1.1 查找安装包位置。 进入/simple/soft目录,执行ls命令,发现hbase安装包hbase-0.96.2-hadoop2-bin.tar.gz。如下图1所示。 图1 1.2 解压安装文件到/simple。 执行命令tar -zxvf /simple/soft/hbase-0.96.2-hadoop2-bin.tar.gz,进行安装包解压。如下图2所示。

一张图看懂对象存储的发展历程

浪尽此生 提交于 2020-11-23 08:49:54
前些天,身兼多家硅谷技术公司顾问的Philippe Nicolas贴出了一张有趣的对象存储发展历程图片,以数据表形式详尽地展示了内容寻址存储(CAS)即对象存储的发展历程。 (点击可查看大图) 该图表汇总了多家企业不同产品的起源,X轴代表时间线,Y轴则为企业,项目和产品名称,并作出评论和分析。 和很多创新一样,这个图表充分说明,几乎所有的系统都来自小型厂商。其它IT细分市场是如此,存储亦是如此,即便后者始终与硬件和基础设施相关。 图表中蓝色星标代表一些网络巨头发表的重要论文。这些论文引起了一连串适用于超大规模环境的对象存储方案的商业运作。 GFS(谷歌文件系统),MapReduce和BigTable加上Hadoop,亚马逊Dynamo,雅虎MObStor和Facebook Cassandra一直是上图大多数公司的主要参考资料。但这些公司并未发现商用产品能够充分满足它们的预期需求,还不肯为产品和复杂性的限制大把烧钱,而更乐意基于它们强大的Linux DNA,设计,构建,开发,控制和掌握自身的技术。 为了方便阅读,左下方进行了标注说明。红圈代表收购案,橙圈代表OEM,实心蓝圈代表开源,空心代表特殊开源,菱形为公司或产品,蓝色星标为重要论文,红色星标为项目,橙色为Apache Hadoop(开源软件架构),绿色星标代表产品。 第一波浪潮

python推荐书籍

回眸只為那壹抹淺笑 提交于 2020-11-23 07:40:18
推荐的python电子书 python学习路线图 优先级 入门:python核心编程 提高:python cookbook 其他 (1).数据分析师 需要有深厚的数理统计基础,但是对程序开发能力不做要求。 需要熟练使用主流的数据挖掘(或统计分析)工具如 Business Analytics and Business Intelligence Software (SAS)、 SPSS 、EXCEL等。 需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。 经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。 (2).数据挖掘工程师 需要理解主流机器学习算法的原理和应用。 需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。 需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。 经典图书推荐:《数据挖掘概念与技术》

Hive 基本语法操练(四):Hive 复合类型

本小妞迷上赌 提交于 2020-11-23 07:25:59
hive语法中主要提供了以下复合数据类型: 1)Structs: structs内部的数据可以通过DOT(.)来存取。例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域a。 2)Map(K-V对):访问指定域可以通过["指定域名称"]进行。例如,一个Map中M包含了一个group->gid的K-V对,gid的值可以通过M['group']来获取。 3)Array:array中的数据为相同类型。例如,假如array A中元素['a','b','c'],则A[1]的值为'b' 1、Struct使用 1) 建表 hive> create table student_test(id int, info struct<name:string, age:int>) row format delimited fields terminated by ',' collection items terminated by ':' ; OK Time taken: 0.386 seconds  hive> show tables;  OK   student_test  Time taken: 0.046 seconds, Fetched: 1 row(s) 'FIELDS TERMINATED BY' :字段与字段之间的分隔符。'COLLECTION