超人学院

Hive 和普通关系数据库的异同

不问归期 提交于 2019-12-09 10:37:16
查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法(Hive 中默认有三个文件格式 TextFile,SequenceFile 以及 RCFile由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中,不同的数据库有不同的存储引擎,定义了自己的数据格式。所有数据都会按照一定的组织存储,因此,数据库加载数据的过程会比较耗时。 数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用

CDH集群中YARN的参数配置

喜欢而已 提交于 2019-12-07 10:17:29
CDH 集群中 YARN 的参数配置 前言: Hadoop 2.0 之后,原先的 MapReduce 不在是简单的离线批处理 MR 任务的框架,升级为 MapReduceV2 ( Yarn )版本,也就是把资源调度和任务分发两块分离开来。而在最新的 CDH 版本中,同时集成了 MapReduceV1 和 MapReduceV2 ( Yarn )两个版本,如果集群中需要使用 Yarn 做统一的资源调度,建议使用 Yarn 。 CDH 对 Yarn 的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了 CDH 中相比 MapReduceV1 一些参数改动的配置。 一、 CPU 配置 ApplicationMaster 虚拟 CPU 内核 yarn.app.mapreduce.am.resource.cpu-vcores // ApplicationMaster 占用的 cpu 内核数( Gateway-- 资源管理 ) 容器虚拟 CPU 内核 yarn.nodemanager.resource.cpu-vcores // 单 个 NodeManager 最大能分配的 cpu 核数 ( NodeManager -- 资源管理 ) 结论:当前 nodemanager 申请的 ApplicationMaster 数总 和小于 nodemanager 最大 cpu 内核数 二

java操作solr实现索引,查询,删除,拼写检查等功能

别等时光非礼了梦想. 提交于 2019-12-04 04:13:38
使用java操作solr 前面讲了很多对solr的操作都是直接在页面上操作的,实际工作中肯定是要使用java进行操作的,在这我们就看一下如何使用java来操作solr Solr提供了solrj来使用java操作solr,SolrJ是封装了httpClient方法,来操作solr的API的。首先添加maven依赖 <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>4.10.4</version> </dependency> 还要添加junit4的maven依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> 查询query 下面就可以写代码了,新建一个testSolr类, 执行的时候发现报错,是因为缺少common-logging的包,添加对应的maven依赖 <dependency> <groupId>commons-logging</groupId> <artifactId>commons-logging</artifactId> <version>1.1.1</version> <

bulk-load装载hdfs数据到hbase小结

大憨熊 提交于 2019-12-03 11:27:26
bulk-load 的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考 http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html : hbase提供了现成的程序将hdfs上的文件导入hbase,即bulk-load方式。它包括两个步骤(也可以一次完成): 1 将文件包装成hfile,hadoop jar/path/to/hbase.jar importtsv -Dimporttsv.columns=a,b,c <tablename><inputdir> 比如: Java 代码 hadoop dfs -cat test/1 1 2 3 4 5 6 7 8 hadoop dfs -cat test/1 1 2 3 4 5 6 7 8 执行 Java 代码 hadoop jar ~/hbase/hbase-0.90.2.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test hadoop jar ~/hbase/hbase-0.90.2.jar importtsv-Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test

第二届中国大数据技术沙龙成功举办

心已入冬 提交于 2019-12-02 18:22:26
6月18日由超人学院举办的第二届中国大数据技术沙龙在中关村人才市场举办。此次技术沙龙以经验分享、技术交流为主旨,与会人员共同探讨大数据技术的发展及经验的分享。上午10点整,会议正式开始。超人学院的吴总作会议开幕致辞,首先吴总表示对各位嘉宾以及来宾的感谢,接下来阐述了大数据技术的未来发展以及企业对大数据的应用,最后吴总衷心祝愿此次大数据技术沙龙圆满成功。 本次沙龙活动超人学院请到了三位嘉宾来为大家做技术交流。泰和佳通的大数据平台部总监用理论与实践相结合的方式为各位来宾分享了大数据技术方面的经验;暴风影音的数据中心-用户平台主管用现实生活中的例子给来宾做了大数据未来发展展望和大数据的应用;最后,北京云杉世界的hadoop工程师分享了工作中遇到的大数据相关问题的处理。与会来宾与三位嘉宾积极交流,现场气氛十分活跃。 历时两个小时第二届中国大数据技术沙龙成功闭幕。三位嘉宾表示此次技术沙龙他们很满意,能把自己知道的东西与大家分享,希望以后还会有这样的机会。与会来宾也表示此次技术沙龙收获颇多,希望超人学院今后还会提供大家有关大数据技术交流的机会。 超人学院会不负众望,力争为大数据行业培养优秀的大数据人才,为中国的大数据发展献上自己的一份绵薄之力! 免费观看超人学院公开课视频:https://ke.qq.com/course/53102#term_id=100145289

超人之星投票活动开始啦!

别来无恙 提交于 2019-12-02 18:22:14
为回馈广大学员对超人学院的支持,超人学院特推出微信投票“超人之星”活动,7月4日—7月17日报名者通过自己拉票的方式给自己投票,截至7月17日获得投票数多的未报名学员超人学院给予减免学费最高3000元! 想学习大数据课程的你还等什么呢,这样好的机会你要错过吗?扫描下方二维码关注超人学院微信公众号回复”超人投票“或者点击活动链接:http://www.crxy.cn/activi即可了解活动详情 来源: oschina 链接: https://my.oschina.net/u/2273204/blog/705283

面试要是13K,对方给20K你信吗?

爱⌒轻易说出口 提交于 2019-12-02 18:21:39
超人学院学员,培训完大数据课程后,面试要13K,对方结果开出20K薪资,超人学院的学员能力很强,就是不自信。这就是我们培训出来的效果,你信吗?我信,有图有真像!!!亲,还等什么呢,赶快报名吧,超人学院第三期火爆招生中,你也可以做到的!! http://www.crxy.cn/course/jobOffline2 来源: oschina 链接: https://my.oschina.net/u/2273204/blog/524799

CDH使用之CM、CDH4、5卸载

こ雲淡風輕ζ 提交于 2019-12-01 16:14:56
前言:无论是 CM 或者 CDH 使用的过程中,学习研究 CDH 使用、 CDH 升级、 CM 升级等等原因而考虑卸载 CM 、 CDH ,本教程使用于基于 CM 安装的 CDH 的卸载。当然,如果 CDH 采用独立安装方式安装,在删除对应目录时,更改相应目录即可,主要分为 CM 卸载和 CDH 卸载两部分,理论上使用于 CDH4 和 CDH5 的卸载(新版本如有更改则不适用)。 一、卸载 CM :( CM 主机执行) 1 、移除所有服务 
 先在 Cloudera Manager 管理端停止集群所有组件服务,然后删除所有服务。 2、 删除 Manager Server ( 一直选 yes. 卸载不成功执行步骤 3 ) 到 CM 所安装的主机上执行如下命令,需要 root 权限: sudo/usr/share/cmf/uninstall-cloudera-manager.sh 3 、如果没有该脚本,则可以手动删除,先停止服务: 命令如下: sudo service cloudera-scm-server stop sudo service cloudera-scm-server-db stop sudo yum remove cloudera-manager-server sudo yum remove cloudera-manager-server-db 二、卸载 CDH:

超人学院第九期大数据高薪就业班招生了

送分小仙女□ 提交于 2019-12-01 12:31:26
超人学院第九期 大数据高薪就业 班招生了 超人学院第九期大数据高薪就业班开始招生了,课程加量不加价,还设有奖学金。亲,还等什么呢,赶快来报名吧!! 我们来看看课程具体内容 课程主题 课程内容 Linux课程 Linux命令、shell编程、软件管理 Hadoop2课程 搭建伪分布式实验环境 介绍HDFS体系结构及shell、Java操作方式 介绍mapreduce体系结构及各种算法 zookeeper zookeeper介绍及集群搭建 使用命令及Java操作zookeeper hbase hbase伪分布式和集群安装,hbase各种操作 cm+cdh集群管理 CM+CDH集群安装 CM主机及各种服务管理 CDH集群的配置和参数调优、升级等 hive hive的数据库管理、数据表管理、表链接、查询优化、设计hive表结构 sqoop sqoop操作 flume flume体系结构,flume动态监控文件变化,如何把数据导入到hdfs中,动态监控日志文件 kafka kafka体系结构、安装、存储策略、发布订阅、使用zokeeper协调管理 storm storm基础结构、理论体系,部署storm进群,本地及分布式开发 redis redis的安装,各种类型讲解,redis事务、管道、持久化、优化等。 Scala Scala语言基础 spark spark介绍、环境搭建、缓存策略、容错

超人学院大数据高薪就业班第十二期火爆招生中

余生颓废 提交于 2019-12-01 10:37:02
超人学院大数据高薪就业班第十二火爆招生中,2016年大数据培训最新最全的课程内容,企业级的实战项目,来自互联网一线大数据开发工程师全职授课,让你学有所得,真正高薪就业,让你成功从码农华丽转身架构师,真正高薪工作。亲,还等什么呢,1月份报名还有更多优惠,赶快报名吧!!!还有每周一次神秘大咖分享企业项目经验,增加学员课外知识!! 更多课程内容请访问: http://www.crxy.cn/course/job12 扫一扫加入超人学院微信: 来源: oschina 链接: https://my.oschina.net/u/2273204/blog/601183