云计算

Hadoop上路_10-分布式Hadoop集群搭建

拥有回忆 提交于 2019-12-03 19:47:31
1. 创建模板系统: 参照前文。本例使用 ubuntu10.10 。初始化用户 hadoop ,密码 dg ,主机名 hadoop-dg 。 1 )解压 jdk 、 hadoop ,配置 bin 到环境变量: jdk1.7.0_17 hadoop-1.1.2 2 )配置 %hadoop%/conf/hadoop-env.sh : export JAVA_HOME=/jdk目录 3 )安装 openssh ,尚不配置无密码登陆: openssh-client openssh-service openssh-all 4 )配置网卡静态 IP 、 hostname 、 hosts : #查看网卡名称 ifconfig #配置网卡参数 sudo gedit /etc/network/interfaces auto eth0 iface eth0 inet static address 192.168.1.251 gateway 192.168.1.1 netmask 255.255.255.0 #重启网卡 sudo /etc/init.d/networking restart #修改hostname sudo gedit /etc/hostname hadoop-dg #修改hosts sudo gedit /etc/hosts 127.0.0.1 hadoop-dg 192.168.1

云原生存储和云存储有什么区别?

亡梦爱人 提交于 2019-12-03 19:44:32
作者 | 李鹏(壮怀) 阿里云智能事业群高级技术专家 导读 :新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、加密、隔离、可观测性以及生命周期等方面的问题,不但需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。本文将介绍一下问题场景,探讨可行的解决方案,最终得出云原生存储以及云存储目前可以做什么和未来还需要做什么。 引言 最近有幸参加了由 Infra Meetup 联合 Kubernetes & Cloud Native Meetup 共同组织的面向云原生持久化应用的 Meetup,结合最近对云存储、开源存储、云原生存储的思考,对云原生存储到底是什么,需要做些什么,云原生存储未来挑战是什么,做了更多的反思和梳理,一家之言,分享了几个初步观点。 随着云原生应用对可迁移性、扩展性和动态特性的需求,相应的,对云原生存储也带来了密度、速度、混合度的要求,所以对云存储基本能力又提出了在效率、弹性、自治、稳定、应用低耦合、GuestOS 优化、安全等方面的诉求。 云原生现状 容器和云原生计算被企业快速接纳 Forrester 预测:到 2022 年, 全球组织/公司在生成环境运行容器化应用,从今天不足 30% 的比例将大幅度提升到超过 75%,企业应用容器化的趋势势不可挡。 另一方面,根据 IDC

洞见区块链·先锋论道

江枫思渺然 提交于 2019-12-03 19:24:18
区块链作为比特币的一项底层记账与共识体系出现,逐渐被有识之士慧眼识珠,进而得到广泛传播与研究。区块链技术带来了全新的技术架构模式与业务开展方式,无论从技术层面还是应用领域来看,影响范围之广,甚至超过大数据、云计算、AI,并会与这些最为炙手可热的技术落地结合,一起为我们提供切实可行的服务。各政府机构、企业巨头纷纷投入资源,唯恐在新一轮的变革中错失机会。 区块链在中国也得到良好发展,企业层面,众多IT巨头和创业者投入其中,IT巨头以其资源优势、对业务的理解而饱有优势,而初创公司以其灵活的机制、创新的理念杀入局中。这些区块链的先锋有着先进的理念、领先的实践经验。这些区块链的先行者披荆斩棘,经历了数不清的摸索与困惑,汇聚成带来曙光的光与火。我们借着这些光与火,加入这场声势浩大的世纪革新,共同谱写恢宏篇章。 为了将这些先进的理念实践传播,华章书院将于6月24日(8:50:00~17:15)邀请区块链的先锋人士论道区块链,阐述最精到、最前沿、最务实的区块链技术与实践,邀请微软、太一云科技、智链科技、火币网、联动优势、PPk、《区块链技术指南》作者等乐于分享的先锋人物参加,并有幸邀请VMware中国研发中心云原生应用首席架构师张海宁老师作为本次会议主持。 分享主题从区块链白皮书解读、智能合约安全、网络通信、运维等技术层面,也有区块链普适性技术与应用、区块链+物联网

阿里云智能对话分析服务常见问题

自作多情 提交于 2019-12-03 18:06:54
Q: 是否必须购买OSS才能使用智能对话分析服务? A: 如果只是做功能验证和测试,可以上传本地音频,这种情况不需要OSS;如果要用于生产期,则产品需要读取OSS上的对话数据进行分析,如果你已经购买了OSS实例,只需要在数据源配置中指定OSS的地址、RoleArn、目录地址即可,如果你还没有OSS实例,则需要购买OSS实例来存储对话数据。 Q: 支持什么样的语音格式? A: 目前支持双轨语音文件,也支持对单轨文件做智能分轨,实现话者分离。格式要求是WAV/MP3/VOX,采样率支持8k/16k/32k, 单个文件大小限制在128M以内。 Q: 支持什么样的部署方式? A: 客户可以直接购买公有云产品使用,此外我们也可以提供公有云API供客户做开发集成,也支持专有云的部署方式。 Q: 对话分析是否支持三个及以上的角色? A: 目前只支持两个角色设定,但每个角色可以有多个身份标识。 Q: 正则表达式和语义算子有何区别? A: 正则表达式是用来检索和匹配复核某个固定模式的字符串,语义匹配则是从相似性的角度找到语义相似的语句,比如“你的ip是?”和“你的ip地址是多少?”这两句话在语义上是高度相似的。 Q: 关键词模糊匹配算子填写的关键字是否按照顺序匹配? A: 关键词模糊匹配算子的匹配没有关键词先后顺序。 Q: 算子配置中“单个句子”和“多个句子”的定义是什么? A:

阿里云CDN功能优势与使用场景

孤者浪人 提交于 2019-12-03 18:06:42
CDN可以将源站内容分发至最接近用户的节点,使用户可就近取得所需内容,提高用户访问的响应速度和成功率。解决因分布、带宽、服务器性能带来的访问延迟问题,适用于站点加速、点播、直播等场景。 课程链接: 阿里云CDN使用教程 产品优势: 稳定快速 先进的分布式系统架构,国内节点数最多的云CDN:全球 1500+。 充足的带宽、存储资源:单节点带宽 40Gbps+,全网带宽输出能力 120 Tbps。 稳定高效的性能指标:95%+命中率,ms级响应时间,视频95%+流畅率。 完善的监控体系&服务体系:7 * 24 小时全网监控,基于服务质量智能监控和调度。 节约成本 资源弹性扩展,按实际使用量付费,接入即可实现跨运营商、跨地域的全网覆盖。 先用后付,提供按流量或峰值带宽两种计费方式,满足不同业务需求。 对于网站突发流量,无需用户干预,自动作出响应和调整,有效减少源站压力。 简单易用 自助化配置域名的添、删、改、查,丰富简洁可定制配置项,支持自定义防盗链、缓存策略、HTTP响应头等功能。 开放 API 接口,提供服务开通、内容刷新、获取监控数据、下载分发日志等功能。 使用场景: 网站/应用 静态加速 站点或应用中大量静态资源的加速分发。建议将站点内容进行动静分离,静态内容使用阿里云CDN加速。动态内容可以使用云服务器ECS,静态资源如各类型图片、css、js小文件等,建议结合 对象存储OSS

技术分享预告丨k3s在边缘计算中的应用实践

荒凉一梦 提交于 2019-12-03 17:00:20
技术分享是在【Rancher官方微信技术交流群】里以图文直播+QA实时互动的方式,邀请国内已落地经验的公司或团队负责人分享生产落地的最佳实践。记得添加微信小助手(微信号:rancher2)入群,实时参与分享与互动噢~ 目前,技术分享已经举办了36期,输出了许多各行各业落地实践的优质案例。 部分往期技术分享 新东方的负载均衡架构探索和实践 iHealth基于Docker的DevOps CI/CD实践 AI独角兽商汤科技的内部服务容器化历程 明天晚上(11月7日)8点半,新一期的技术分享来啦!将分享k3s在边缘计算中的应用实践! 分享内容 在物联网边缘层中,有大量离散的边缘设备需要进行管理和运维,因此一个轻量的可靠的运维平台变得非常重要,k3s自身具备轻量、易于部署、应用部署完全与kubernets完全一样的特点,完美解决了这一问题,本此分享从项目背景和需求、面临的痛点入手,介绍为何选取k3s作为边缘计算层的运维平台,以及整个运维平台的架构,着重分享在实际项目中的应用情况。 包括以下内容: 项目的背景、需求和面临的痛点 边缘运维平台的选型、调研和定型 k3s的特点 k3s的主要组件与架构 k3s节点的批量快速自动化部署与配置 利用helm chart在k3s中部署、管理、维护应用 常见问题 分享嘉宾 曾永杰,上海全应科技有限公司运维经理,曾在华为西安研究所云计算部门承担软件测试工程师

如何搭建一个自己的网络验证系统?

痴心易碎 提交于 2019-12-03 16:50:30
网络验证 脚本开发 云服务器 注册码系统   为什么选择百宝云搭建网络验证系统,而不是用其他产品就不说了,速度快,难度低,成本低,优势很多,这里我描述一下百宝云搭建一个网络验证系统的过程.   指明一下 百宝云 可以做很多网络系统,这里网络验证系统只是一个方面的实现而已:   第一步:   首选进百宝云的云虚拟桌面 注册一个账号,注册账号了,应该会送一个免费试用的安装包位置,在百宝云管理菜单下面可以看到(百宝云管理=>云应用=>安装包位置管理),这里一个安装包位置就相当于一个服务器,官方应该是做好了整个网站中枢系统,而我们只需要用简单的脚本写好自己的业务逻辑即可.    伦理片 http://www.dotdy .com/ 第二步:   用脚本写业务逻辑,这里有两个选择,用本地的百宝云IDE开发工具写自己的云应用代码,或者在云虚拟桌面(编辑器=>左则选择自己的云应用=>点击下面的源文=>点开自己的源码文件),选择一种方式,当然我个人比较喜欢直接在 云虚拟桌面上面直接在线写代码,方便,写了马上可以重启服务器看效果,用本地IDE写好了还需要上传   百宝云的脚本语法非常简单,支持中文开发或者英文开发,有过任何编程开发经验的人,马上可以上手开写,新手大概需要1个月左右的时间开写,这比传统的服务器开发,java,c/c++类的,都是很多人望不可及的,用百宝云则完全可以轻松上手   第三步:

【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂(改)

荒凉一梦 提交于 2019-12-03 14:49:17
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第18期互动问答分享】 Q1 :Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的; Master 位于集群的管理节点,一般和 NameNode在同一个节点上; Driver 一般都位于客户机上,客户机一般都不属于集群,但是和集群在同一个网络环境下,因为客户机中的Driver要和集群中的Executor频繁的交互; Q2 :Standalone和Yarn之间如何选择 Standalone 和Yarn都是用于资源管理的系统,Standalone是专门为Spark打造的资源管理和分配方式,是轻量级的,而Yarn是大数据通用的资源管理框架,不仅可以用于管理Spark顶点资源分配,也可以用于管理实现了Yarn的其它计算平台的资源管理和分配; 如果在生产系统中有多套计算框架 ,例如Spark、MapReduce、Mahout并存,建议使用Yarn或者Mesos进行资源统一的管理和调度;如果只使用Spark的话,建议使用Standalone就足够了,Yarn比较消耗资源; Q3 :Spark 的HA怎么处理的? 对于Master的HA,在Standalone模式下

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

孤街醉人 提交于 2019-12-03 14:49:05
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1 :AppClient和worker、master之间的关系是什么? :AppClient 是在StandAlone模式下SparkContext.runJob的时候在Client机器上应 用程序的代表,要完成程序的registerApplication等功能; 当程序完成注册后Master会通过Akka发送消息给客户端来启动Driver; 在Driver中管理Task和控制Worker上的Executor来协同工作; Q2 :Spark的shuffle 和hadoop的shuffle的区别大么? Spark 的Shuffle是一种比较严格意义上的shuffle,在Spark中Shuffle是有RDD操作的依赖关系中的Lineage上父RDD中的每个partition元素的内容交给多个子RDD; 在Hadoop中的Shuffle是一个相对模糊的概念,Mapper阶段介绍后把数据交给Reducer就会产生Shuffle,Reducer三阶段的第一个阶段即是Shuffle; Q3 :Spark 的HA怎么处理的? 对于Master的HA,在Standalone模式下,Worker节点自动是HA的,对于Master的HA,一般采用Zookeeper; Utilizing ZooKeeper

【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

笑着哭i 提交于 2019-12-03 14:48:51
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1 :jobserver 企业使用情况如何? 中国有一家视频网站已经使用超过JobServer超过半年的时间; 2013 年和2014年Spark Summit均大力推荐使用JobServer; Q2 :请问,jobserver是适合企业内部还是供外部客户使用(可能并发、安全有要求),还是两者ok? 目前可见的企业使用案例均是用在企业内部; 如果是企业外部可以作为云服务或者大数据资源池使用; Q3 :请问,spark 跑1T数据需要多少内存才能很快跑完 这首先和程序运行时候在每台Worker上使用的内存和CPU有关,提交程序的时候可以手动配置; 其次是和带宽有关系,Shuffle的要尽量减少数据; Driver 所在的机器的配置也是极为重要的,一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置,同时,也是至关重要的Driver和Spark集群要在同一个网络环境,应为Driver要不断的task给Worker上的Executor,同时接受Driver的数据; Q4 :我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题 但是这样会影响效率 怎样在效率和error之间均衡呢? :StackOverflow