分布式技术

Hadoop 2.2 YARN分布式集群搭建配置流程

人盡茶涼 提交于 2020-02-27 01:09:19
搭建环境准备:JDK1.6,SSH免密码通信 系统:CentOS 6.3 集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点 搭建用户:YARN Hadoop2.2下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/common/ 步骤一:上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0 外层的启动脚本在sbin目录 内层的被调用脚本在bin目录 Native的so文件都在lib/native目录 配置程序文件都放置在libexec 配置文件都在etc目录,对应以前版本的conf目录 所有的jar包都在share/hadoop目录下面 步骤二:配置环境变量    在~/.bashrc文件中添加以下配置: export JAVA_HOME=/export/servers/jdk1.6.0_25/ export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0 export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

分布式流式处理平台Kafka-简介与体系结构(一)

丶灬走出姿态 提交于 2020-02-26 17:13:34
来源 在技术的发展过程中,与人类世界是一样的一样的。现在的人都非常看重出身,当然这里不是否定出身差的就不能成功,成材。只是概率相对低。这也是现在社会的基本情况,社会阶级的固化,对于一般人只能出现意外才可以打破阶级的壁垒,而且只能是一点一点的打破,一个暴发户短时间内,甚至一代人都不能成为上层阶级。 技术领域也是这种现象,Kafka 起初是LinkedIn公司采用Scala语言开发的一个多分区,多副本且基于Zookeeper协调的分布式消息系统,现已捐献给Apache基金会,成为顶级项目。目前的Kafka已经是一个分布式流式处理平台,因具备高吞吐,可以持久化,可水平扩展,支持流数据处理等多种特性而广泛使用。 从Kafka的背景可以看出,Kafka 出生名门,后又进入最顶级的研究所培育,最终成为当下最热门的分布式流式处理工具。 Kafka 能有当下的地位,出身是一部分,自身又具备那些特点呢? 消息系统 :Kafka 与传统的消息系统(ActiveMQ,RabbitMQ)都具备解耦功能,存储,扩展性,削峰,可恢复性,缓冲,异步通信。Kafka 还具备一些一般消息系统不具备的消息顺序性及快照回溯消费的功能。 存储系统 :Kafka把消息持久化到硬盘,相比于基于内存存储的系统更加可靠,降低数据丢失的风险。Kafka 的持久化和多副本机制,可以把Kafka当作长期存储系统使用。 流式处理平台

多图预警——从 RAID 到分布式系统中的副本分布

末鹿安然 提交于 2020-02-26 08:27:54
原文首发于个人博客「 tobe的呓语 」欢迎大家的访问收藏啊~ 我们知道,在面对大规模数据的计算和存储时,有两种处理思路: 垂直扩展(scale up) :通过升级 单机 的硬件,如 CPU、内存、磁盘等,提高计算机的处理能力。 水平扩展(scale out) :通过添加 更多的机器 到分布式系统中,提高整个系统的处理能力。 在分布式技术尚未成熟的时候,小型机、中型机、大型机、超级计算机逐步升级的方案几乎是大型公司的唯一选择,但是这种垂直扩展是有天花板的,硬件升级的速度远远比不上数据规模的增速,即使是超级计算机也无法满足人们对计算资源的需求。 水平扩展方案,也就是在一个系统里不断添加机器的方案,就这么走上了历史舞台。这就是现在的分布式技术。 在这篇文章里,我将分别介绍单机系统下的 RAID 存储技术以及分布式系统下的存储分布技术,这两种技术在思想上有很相近的地方,希望读者慢慢体会。 RAID RAID,全称是 Redundant Array of Inexpensive/Independent Disks ,也就是磁盘冗余阵列,这里的 I 有两种说法,一种是 Inexpensive, 廉价 ,另一种是Independent , 独立 。所谓 RAID 就是将多块磁盘组合在一起,对外 抽象 成一个 容量大 , 读写速度高 , 容错性好 的大型磁盘。 我很喜欢「抽象」这个概念

分布式调度平台 xxl-job 个人改进(灌水)思路

旧街凉风 提交于 2020-02-26 02:06:09
分布式调度平台 xxl-job 个人改进(灌水)思路 本人 刚入门 后端开发, 错误之处请批评指正 被导师安排的🌚 本人于2019年9月6日与同事进行的分享 1 xxl-job 是什么 1.1 xxl-job 是什么 轻量级、易扩展的分布式任务调度框架 通过Cron表达式配置计划任务 0 0/30 9-18 ? * MON-FRI 朝九晚六每半个小时执行 支持多语言(Java、Shell、Python、NodeJS、PHP、PowerShell 等,需要执行器部署环境支持),任务逻辑可在 Web 界面编写代码,或在执行器编写代码 1.2 常见任务调度框架 Quartz Java 常用计划任务框架,虽然 Quartz 可以基于数据库实现作业的高可用,但分布式并行调度方面有所欠缺。 elastic-job 当当开发的弹性分布式任务调度系统,功能丰富强大,采用 zookeeper 实现分布式协调,实现任务高可用以及分片。 xxl-job 是大众点评员工徐雪里于2015年发布的分布式任务调度平台,是一个轻量级分布式任务调度框架,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。 1.3 xxl-job 与 elastic-job 怎么选 xxl-job 核心设计目标是开发迅速、学习简单、轻量级、易扩展 登记在用公司数>228家 开箱即用 持续更新,社区活跃、文档齐全 elastic

GitHub上整理的一些工具

放肆的年华 提交于 2020-02-25 11:50:11
技术站点 Hacker News:非常棒的针对编程的链接聚合网站 Programming reddit:同上 MSDN:微软相关的官方技术集中地,主要是文档类 infoq:企业级应用,关注软件开发领域 OSChina:开源技术社区,开源方面做的不错哦 cnblogs,51cto,csdn:常见的技术社区,各有专长 stackoverflow:IT技术问答网站 GitHub:全球最大的源代码管理平台,很多知名开源项目都在上面,如Linux内核, OpenStack等免费的it电子书: http://it-ebooks.info/ DevStore:开发者服务商店 不错的书籍 人件 人月神话 代码大全2 计算机程序设计艺术 程序员的自我修养 程序员修炼之道 高效能程序员的修炼(成为一名杰出的程序员其实跟写代码没有太大关系) 深入理解计算机系统 软件随想录 算法导论(麻省理工学院出版社) 离线数学及其应用 设计模式 编程之美 黑客与画家 编程珠玑 C++ Prime Effective C++ TCP/IP详解 Unix 编程艺术 《精神分析引论》弗洛伊德 搞定:无压力工作的艺术 平台工具(都是开源的好东东哦) Redmine/Trac:项目管理平台 Jenkins/Jira(非开源):持续集成系统(Apache Continuum,这个是Apache下的CI系统,还没来得及研究)

分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD

℡╲_俬逩灬. 提交于 2020-02-24 15:48:10
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。 文章索引::”机器学习方法“,”深度学习方法”,“三十分钟理解”原创系列 2017年3 月,谷歌大脑负责人 Jeff Dean 在 UCSB 做了一场题为《通过大规模深度学习构建智能系统》的演讲[9]。Jeff Dean 在演讲中提到,当前的做法是: 解决方案 = 机器学习(算法)+ 数据 + 计算力 未来有没有可能变为: 解决方案 = 数据 + 100 倍的计算力? 由此可见,谷歌似乎认为,机器学习算法能被超强的计算力取代[9]。 [11]研究工作表明,任务表现与训练数据数量级呈线性增长关系。或许最令人震惊的发现是视觉任务的表现和用于表征学习的训练数据量级(对数尺度)之间的关系竟然是线性的!即使拥有 300M 的大规模训练图像,我们也并未观察到训练数据对所研究任务产生任何平顶效应(plateauing effect)。 上图说明预训练模型在 JFT-300M 不同子数据集中的目标检测性能。其中 x 轴代表数据集的大小,y 轴代表在 mAP@[.5,.95] 中 COCO-minival 子数据集上的检测性能。 要完成超大规模数据的训练,以及训练超大规模的神经网络,靠单GPU是行不通的(至少目前来看)

SpringCloud创建微服务电商项目

烈酒焚心 提交于 2020-02-24 07:46:03
技术选型 A. 项目采用SpringBoot2.x+SpringCloud2.x构建微服务电商项目 1.使用SpringCloudEureka作为注册中心,实现服务治理 2.使用Zuul网关框架管理服务请求入口 3.使用Ribbon实现本地负载均衡器和FeginHttp客户端调用工具 4.使用Hystrix服务保护框架(服务降级、隔离、熔断、限流) 5.使用消息总线Stream RabbitMQ和Kafka 6.微服务API接口安全控制与单点登陆系统CAS+JWT+Oauth2.0 B. 分布式基础设施环境构建 1.分布式任务调度平台XXL-Job 2.分布式日志采集系统ELK 3.分布式事务解决方案LCN 4.分布式锁解决方案Zookeeper、Redis 5.分布式配置中心携程阿波罗 6.高并发分布式全局ID生成雪花算法 7.分布式Session框架Spring-Session 8.分布式服务追踪与调用链ZipKin C.项目运营与部署环境 1.分布式设施环境,统一采用docker安装 2.使用jenkins+docker+k8s实现自动部署 3.微服务API管理ApiSwagger 4.使用GitLab代码管理 5.统一采用第三方云数据库 6.使用七牛云服务器对静态资源实现加速 第一节 需求讨论与技术架构选型 第二节 微服务架构环境搭建Maven私服仓库

收藏!2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台

佐手、 提交于 2020-02-24 07:14:25
工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则。选择与开发内容相匹配的工具,常常会使我们事半功倍。但面对人工智能的多个领域,如:机器学习、深度学习、NLP等等,多样的工具有时也让我们也无从选择。 就在最近,一个基于 javascript 的可视化库 D3js(treemap 可视化)对 json 文件生成的技术图,给开发者提供了详细的各领域工具清单,内容涵盖了 11 种极具潜力的 AI 工具类型,我们将其整理如下,强烈建议大家收藏~ 原文链接:https://github.com/haggaishachar/techmap 目录: Ⅰ、经典机器学习(1-3) Ⅱ、深度学习(4-8) Ⅲ、强化学习(9-12) Ⅳ、自然语言处理(13-18) Ⅴ、语音识别(19-21) Ⅵ、计算机视觉(22-26) Ⅶ、分布式训练(27-31) Ⅷ、自动建模(32-35) Ⅸ、IDEs系统(36-38) Ⅹ、平台(39-41) Ⅺ、评分推理系统(42-43) I . 适用于经典机器学习的工具 一、SciKit-learn  star 39.2k  fork 19.2k scikit-learn 是一种强大的基于 Python 语言的机器学习算法库(https://scikit-learn.org/stable/)。其中,包含了算法预处理,模型参数择优,回归与分类等算法

Flink的入门

◇◆丶佛笑我妖孽 提交于 2020-02-22 14:34:13
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。 Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。 DataStream API,对数据流进行流处理操作,将流式的数据抽象成分布式的数据流,用户可以方便地对分布式数据流进行各种操作,支持Java和Scala。 Table API,对结构化数据进行查询操作,将结构化数据抽象成关系表,并通过类SQL的DSL对关系表进行各种查询操作,支持Java和Scala。 此外,Flink还针对特定的应用领域提供了领域库,例如: Flink ML,Flink的机器学习库

分布式缓存Hazelcast案例一

谁都会走 提交于 2020-02-22 00:38:42
分布式缓存Hazelcast案例一 Hazelcast IMDG Architecture 今天先到这儿,希望对您技术领导力, 企业管理,物联网, 系统架构设计与评估,团队管理, 项目管理, 产品管理,团队建设 有参考作用 , 您可能感兴趣的文章: 2017-2018年Scrum状态调查报告 2016年测试状态调查 2017年IT行业测试调查报告 项目管理-习惯发生范围变更 前端性能核对表Checklist-2018 大型电商互联网性能优化案例 国际化环境下系统架构演化 微服务架构设计 视频直播平台的系统架构演化 微服务与Docker介绍 Docker与CI持续集成/CD 互联网电商购物车架构演变案例 互联网业务场景下消息队列架构 互联网高效研发团队管理演进之一 消息系统架构设计演进 互联网电商搜索架构演化之一 企业信息化与软件工程的迷思 企业项目化管理介绍 软件项目成功之要素 人际沟通风格介绍一 精益IT组织与分享式领导 学习型组织与企业 企业创新文化与等级观念 组织目标与个人目标 初创公司人才招聘与管理 人才公司环境与企业文化 企业文化、团队文化与知识共享 高效能的团队建设 项目管理沟通计划 构建高效的研发与自动化运维 某大型电商云平台实践 互联网数据库架构设计思路 IT基础架构规划方案一(网络系统规划) 餐饮行业解决方案之客户分析流程 餐饮行业解决方案之采购战略制定与实施流程