HDFS | 易学教程

基于JindoFS+OSS构建高效数据湖

阅读更多关于基于JindoFS+OSS构建高效数据湖

简介： Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎为什么要构建数据湖大数据时代早期，Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展，所有云厂商都在不断完善自家的对象存储，来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势，各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上，利用对象存储增强和拓展大数据 AI 也成为了业界共识，Apache Hadoop 社区也推出了原生的对象存储“Ozone”。从 HDFS 到对象存储，从数据仓库到数据湖，把所有的数据都放在一个统一的存储中，也可以更加高效地进行分析和处理。对于云上的客户来说，如何构建自己的数据湖，早期的技术选型非常重要，随着数据量的不断增加，后续进行架构升级和数据迁移的成本也会增加。在云上使用 HDFS 构建大规模存储系统，已经暴露出来不少问题。HDFS 是 Hadoop 原生的存储系统，经过 10 年来的发展，HDFS 已经成为大数据生态的存储标准，但我们也看到 HDFS 虽然不断优化，但是 NameNode 单点瓶颈，JVM 瓶颈仍然影响着集群的扩展，从 1 PB到 100+ PB

蘑菇街首页推荐视频流——增量学习与wide&deepFM实践（工程+算法）

阅读更多关于蘑菇街首页推荐视频流——增量学习与wide&deepFM实践（工程+算法）

欢迎关注我的公众号: 『诗品算法』禁止一切未经本人 @ 琦琦许可的转载一、楔子害，写个这么严肃的技术话题还需要楔子么？这不是让大家放松一下嘛！毕竟是我的处女作，还是要来个看似一本正经的开场白和自我介绍的。大家好，我是混迹于奋斗X之都——杭州的互联网大龄脱发女程序员一枚，大家可以关注我的公众号： “诗品算法” 。我会尽量保持每个月甚至每周更新一次的频率，在此立证（更新慢你也不能打我，只能用唾沫星子淹死我了哈哈）。下面进入正题，带你领略蘑菇街有（坎）趣（坷）的从0到1的增量学习历程。二、背景在online deep learning炒得尤其火热的今天，我们知道，实时性就是互联网的生命和活力所在。笔者前几天跟一个阿里的朋友吃饭，朋友说，ODL现在是他们组最容易出成果的方向，众人愕然，ODL？哪篇论文里的？随即一拍大腿，原来是deep online learning。。。试想，如果你刷抖音时，平台捕获到了你最近偏好旅行的即时兴趣，随即在很短时间内给你推荐了旅行相关的内容，你是不是会持续嗑药般地滑动下去？从而产生了心理学中所谓的无限“心流”，但我并不推崇这种类似沉迷游戏般的"心流"，这种带有引号的“心流”仅仅是感官的愉悦，与精神的满足与自我的成就感无关，与至高的纯粹的甘美的快乐无关，与灵魂真正的安宁与幸福更是无关，因这并不会让你获得实质性的进步。扯远了

Hbase集群搭建附安装包（基于Hadoop，zookeeper，hz见前文）

阅读更多关于 Hbase集群搭建附安装包（基于Hadoop，zookeeper，hz见前文）

Hbase集群搭建 1. 解压： hbase压缩包位置链接：https://pan.baidu.com/s/1HYQGn9-DqWxlCmV6QAOKqA 提取码：vtu5 [root@master /]# cd /soft #进入Hbase压缩包位置 [root@master soft]# tar -xzvf hbase-1.2.0-bin.tar.gz #解压 2. 创建软链接 [root@master soft]# ln -s hbase-1.2.0 /soft/hbase 3. 添加环境变量 [root@master soft]# vi /etc/profile #添加如下内容 export HBASE_HOME=/soft/hbase export PATH=$HBASE_HOME/bin:$PATH [root@master soft]# source /etc/profile #生效 4. 编辑hbase-env.sh文件（在$HBASE_HOME/conf下） [root@master hbase]# cd $HBASE_HOME/conf [root@master conf]# vi hbase-env.sh 添加如下配置 export JAVA_HOME=/soft/jdk #添加Java环境变量export HBASE_MANAGES_ZK=false

Difference between fs.defaultFS and fs.default.name

阅读更多关于 Difference between fs.defaultFS and fs.default.name

来源： https://stackoverflow.com/questions/30480847/difference-between-fs-defaultfs-and-fs-default-name

Writing SQL vs using Dataframe APIs in Spark SQL

阅读更多关于 Writing SQL vs using Dataframe APIs in Spark SQL

来源： https://stackoverflow.com/questions/45430816/writing-sql-vs-using-dataframe-apis-in-spark-sql

Move files between hdfs directories as aprt of spark scala application

阅读更多关于 Move files between hdfs directories as aprt of spark scala application

来源： https://stackoverflow.com/questions/50957668/move-files-between-hdfs-directories-as-aprt-of-spark-scala-application

Move files between hdfs directories as aprt of spark scala application

阅读更多关于 Move files between hdfs directories as aprt of spark scala application

来源： https://stackoverflow.com/questions/50957668/move-files-between-hdfs-directories-as-aprt-of-spark-scala-application

Can someone suggest alternative to HdfsSensor for airflow python3?

阅读更多关于 Can someone suggest alternative to HdfsSensor for airflow python3?

来源： https://stackoverflow.com/questions/55633627/can-someone-suggest-alternative-to-hdfssensor-for-airflow-python3

Can someone suggest alternative to HdfsSensor for airflow python3?

阅读更多关于 Can someone suggest alternative to HdfsSensor for airflow python3?

来源： https://stackoverflow.com/questions/55633627/can-someone-suggest-alternative-to-hdfssensor-for-airflow-python3

Why Impala spend a lot of time Opening HDFS File (TotalRawHdfsOpenFileTime)?

阅读更多关于 Why Impala spend a lot of time Opening HDFS File (TotalRawHdfsOpenFileTime)?

来源： https://stackoverflow.com/questions/63405856/why-impala-spend-a-lot-of-time-opening-hdfs-file-totalrawhdfsopenfiletime