云帮

只有老运维人才能懂的运维干货

女生的网名这么多〃 提交于 2020-08-13 14:49:23
​​监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。选择一款高效的监控系统,是一个省时省力、效率最高的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。 一、监控目标 每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用: 对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控); 实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障。 保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行 保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。 二、监控方法 1.了解监控对象:我们要监控的对象你是否了解呢?比如CPU到底是如何工作的? 2.性能基准指标:我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。 3.报警阈值定义:怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高? 4.故障处理流程:收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

增值电信业务许可证办理,全攻略来了

坚强是说给别人听的谎言 提交于 2020-08-13 07:17:55
很多用户反馈 办理增值电信业务许可证真的太难了!!! 材料不全,驳回! 业务不符,驳回! 材料内容不对,驳回! 反反复复几个月,就是办不到证! 增值电信业务许可证办理,全攻略来了 办理增值电信业务许可证真的很难吗? 是的,很难! 企业在自主办理的时候会遇上各种各样的问题,内容不符合,材料不合规,反复驳回修改~~~ 所以,办证不成功的各位请认真听讲了。 增值电信业务许可证全攻略 1、首先,需要知道增值电信业务许可证是什么? 增值电信业务许可证的全称是“中华人民共和国电信与信息服务业务经营许可证”,是通过互联网向上网用户提供有偿信息、网上广告、代制作网页、电子商务及其它网上应用服务的公司必须办理的网络经营许可证 ,国家对经营性网站实行增值电信业务许可许可证制度。 2、增值电信业务许可证的重要性 根据中华人民共和国国务院令第291号《中华人民共和国电信条例》、第292号《互联网信息服务管理办法》(简称ICP管理办法),国家对提供互联网信息服务的ICP实行许可证制度。 增值电信许可证是网站经营的许可证,根据国家《互联网信息服务管理办法》规定,经营性网站必须办理经中华人民共和国增值电信业务经营许可证(经营性ICP证),否则就属于非法经营。非经营性网站要办理非营业性互联网信息服务业务备案证。 根据《互联网信息服务管理办法》,违反本办法的规定,未取得经营许可证,擅自从事经营性互联网信息服务

SpringCloud 应用在 Kubernetes 上的最佳实践 — 部署篇(开发部署)

心已入冬 提交于 2020-08-12 11:36:27
作者 | 孤弋 阿里云高级技术专家,负责 EDAS 的开发和用户体验优化工作。 导读 :在上一篇文章 《SpringCloud 应用在 Kubernetes 上的云上实践 - 开发篇》 中讲到可以通过两个工具,轻松地将一个 SpringCloud 应用从初始化到本地运行。本篇文章,我们将介绍如何将上一篇文章中提到的应用在云上跑起来。 初始化集群 为了将应用运行在云端,首先我们需要一个 Kubernetes 集群,在 EDAS 中使用 Kubernetes 集群目前最快的方式,是将一个阿里云容器集群中的 Kubernetes 集群( ACK 集群 ),导入到 EDAS 中来。 如果还没有ACK集群的话,您可以通过以下两种方式来创建一个: 直接进入容器服务的控制台进行创建; 如果您已经有一个在云上建好的集群,或者有一个在其他 IDC 或友商中有的集群,也可以在容器服务这边通过“注册已有集群”的方式,导入到容器服务中来。 等到 Kubernetes 集群就绪之后,在 EDAS 上需要进行一次集群“导入”,导入方式如下图所示: 在导入集群时,EDAS 会做以下操作: 初始化 EDAS 的集群控制器和相关资源,主要包含:基于开放云原生应用标准的 OAM Controller、日志采集的 Agent、监控链路中的 Arms 环境信息等;其中大部分控制器运行时不会占用用户集群的资源,而会运行在

干货 | 4大安全防护措施助你搞定服务器安全威胁

倾然丶 夕夏残阳落幕 提交于 2020-08-11 17:13:46
云计算技术在近年来获得前所未有的增长。云技术如今已被运用到银行、学校、政府以及大量的商业组织。 但 是云计算也并非万能的,和其他IT部署架构一样存在某些难以弥补的缺陷。 例如公有云典型代表—— 云服务器,用户数据存储在云计算基础平台的存储系统中,但敏感的信息和应用程序同样面临着网络***和******的威胁。 我们总结了云服务器面临的九大安全威胁。 1.数据漏洞 云环境面临着许多和传统企业网络相同的安全威胁,由于极大量的数据被储存在云服务器上,云服务器供应商很可能成为被盗取数据的目标。 2.密码和证书 数据漏洞和其他***通常来源于不严格的认证、较弱的口令和密钥或者证书管理。 3.界面和API的*** IT团队使用界面和API来管理云服务器,包括云的供应、管理、编制和监管等。API和界面是系统中暴露在外的一部分,通常可以通过开放的互联网进入,因此面临***威胁。 4.已开发的系统的脆弱性 企业和其他企业之间共享经验、数据库和其他一些资源,容易形成新的***对象。 5.账户劫持 钓鱼网站、诈骗和软件开发仍旧在肆虐,云服务器又使威胁上升到了新的层次,***者一旦成功窃听、操控业务以及篡改数据,将造成严重后果。 6.居心叵测的内部人员 内部人员的威胁来自诸多方面:现任或前员工、系统管理者、承包商或者是商业伙伴。恶意的来源十分广泛,包括窃取数据和报复。 7.APT病毒 APT通过**

运维自救攻略:如何避免“锅”从天而降?

倾然丶 夕夏残阳落幕 提交于 2020-08-11 11:15:36
开始这个话题之前,我们先来看看运维充(苦) 实 (bi) 的工作日常。 不被理解的工作日常 ——运维是做什么的? ——装系统的、修电脑的、机房电工、修电路的、扯网线的、搬服务器的……我们也不知道他在做什么,反正看上去整天忙来忙去的…… 其实,以上只是运维日常工作的一小部分。 一般来说,当产品上线后,项目组成员去欢喜庆祝的时候,就是运维忙到飞起的时候。打扫战场、收尾工作,样样都要做;报警分析报告、系统监控数据报告,“告告”不能少。 24小时提心吊胆的工作日常 ——出了问题找谁? ——运维,他总是随叫随到。 如果你想让一个运维充满干劲,只要在他耳边轻轻说一句,“服务器又挂掉了!”足矣。 产品迭代、上线期间,为了不影响大家正常的使用系统,应用发布、基础设施变更、演练等工作通常都会放到深夜,通宵也是常有的事。 运维工作的时候总是小心翼翼,“如履薄冰”,生怕自己一个生产操作给业务带来影响。 突然背锅的工作日常 在运维看来,天上盘旋着很多锅,如开发程序问题、硬件问题、系统软件问题、业务需求问题,稍有不慎,这些问题就突然变成锅,砸在了自己身上。 比如有既定上线时间的产品,可能因为临时技术方案发生变化,研发推迟了开发时间,导致测试同学的时间压缩,上线的时候出现问题。 一些锅,就得由运维来背了。 运维同学如何减少背锅,并且从这种枯燥、高压的工作里,不断成长,最后成为一个运维大神呢?

谷歌云:2019年云综合收入0.1亿元,助力中国企业出海

二次信任 提交于 2020-08-08 15:07:24
点击添加图片描述(最多60个字)编辑 云排名分析:谷歌云,2019年云综合收入0.1亿元。 谷歌云Google Cloud虽然没有像AWS、Azure那样落地中国,但是,在针对中国企业出海发展的云资源需求上,已经在不断布局了。 从2019年谷歌云对中国市场发展的总体来看,还是先摸着石头看看,边做边看,目前肯定是不见得会公开进行战略合作落地,除非和AWS一样寻求中国本土合作,将数据中心落地搞定了就妥妥了。 可见,谷歌云的数据中心都是在国外,国内没有。当然,基于这样的发展来看,目前谷歌云在中国市场的发展还是比较敏感,只是单纯做中国公司出海需要在国外的云资源。 所以,从本质上来说,谷歌云也不能算入中国市场上的公有云。并且阿里云、AWS等都有针对企业出海的业务推进。总体来看,谷歌云只是在尝试满足一部分出海企业的特殊需求,在谷歌云没有想好大干一场的情况下,中国市场的营收表现不会令友商云紧张。 根据业内表现和业内人士的沟通来看,阿明(Aming)估算2019年谷歌云帮助中国企业出海,实现的云销售收入在200-300万美元左右,总数大约超过1000万元人民币。 (by Aming,《2019年中国公有云厂商发展状况白皮书》,2019年中国公有云厂商收入利润综合排名,2019年中国公有云厂商整体发展状况概述,2019年中国公有云厂商发展状况具体分析。) 点击添加图片描述(最多60个字)编辑

运维告警管理困难重重,我是怎么做到的

元气小坏坏 提交于 2020-08-07 08:35:37
随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具、更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来。 在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理挑战重重。 充满挑战的运维告警管理: 如何抑制告警风暴? 如何保障重要告警不漏不丢? 如何快速地甄别根因告警? 如何沉淀告警处置经验? 如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。 到底是什么原因 导致如此频发的告警风暴,给告警管理带来如此之高的复杂度呢? 1.应用系统间关系更加紧密 完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。 2.告警策略设置难以找到平衡点 过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不落掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达60%。 3.告警响应的及时性不高

聊一聊最近比较火的多云管理平台

|▌冷眼眸甩不掉的悲伤 提交于 2020-08-04 23:37:57
全球范围内,基于安全、成本的考虑,选择多云已经成为客户上云的主要形式。根据RightScale 2019 年报告,有84%的大中型企业(雇员1000以上)采用了多云战略,其中选择混合云(公有云+私有云)的场景占58%,选择多个公有云的场景占17%,选择多个私有云的场景占9%。当多云战略被越来越多的客户所接受时,多云管理平台必将成为IT管理的核心。 一、多云管理平台是什么? 首先看下云管理平台的定义,来自于国际权威的研究机构Gartner,“云管理平台(Cloud Management Platform,简称CMP)是提供对公有云,私有云和混合云统一集成管理的产品。云管理平台主要能力包含混合云、多云环境的统一管理和调度、提供系统映像、计量计费以及通过既定策略优化工作负载。更先进的产品还可以与外部企业管理系统集成,包括服务目录,支持存储和网络资源的配置,允许通过服务治理加强资源管理,并提供高级监控,提高性能和可用性。” 目前我接触比较多的是所谓多云管理平台一般指的是“多家云资源管理平台”。目前国内用的最多的公有云有:阿里云、腾讯云、华为云、京东云、百度云、UCloud、小鸟云等;国外用的最多的有AWS、Azure、Google云等。简单来理解多云管理平台就是指在一个平台上能够管理上述多家云资源。 二、多云管理平台能干什么? 多云管理平台首先要做到多云纳管。能把主流云服务商的平台都兼容了

盘点|12款服务器监控工具

血红的双手。 提交于 2020-08-04 17:49:52
服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,可以让我们清楚的知道用户可以打开我们的网站,且确保网速不慢。只有这样做,才能留住宝贵的用户,以免因为系统停运的原因,导致用户丢失。基于此,我为大家收集了12款超实用的服务器监控工具。 1、zabbix zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。abbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 2、Nagios Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。 3、Performance Co-Pilot Performance Co-Pilot,简称PCP,是一个系统性能分析框架。它收集并分析来自多个主机的各种性能指标。可以通过它观察指标走向的趋势,以帮助您快速识别异常所在点。它提供API,可依据此来开发自定义的监控和报告解决方案。 4、Anturis Anturis是一个基于云的SaaS平台,可监控windows和linux服务器,网站和IT基础架构。通过全面的监控解决方案列表

后疫情时代,如何应对运维安全新挑战?

≯℡__Kan透↙ 提交于 2020-08-04 11:28:34
2020年初以来,很多企业受到新冠疫情影响,无法及时、全面恢复正常经营。因此,以在线教育、在线医疗、远程办公为代表的新经济模式迅猛发展。 在此背景下,企业传统的生产体系、业务环境逐渐由封闭转向开放,信息化需求不断升级、网络接入方式也更加多元,这使得网络安全面临更大挑战,运维难度“更上一层楼”。 1.防御能力亟待提升 今年上半年跨国安全企业Check Point面向全球超过400位网络安全从业者进行了一次问卷调查,结果显示: • 疫情期间, 安全威胁或网络攻击事件在不断增长 。55%受访者表示,网络钓鱼攻击是最大威胁,其次是恶意网站占比32%,接下来则是恶意软件和勒索软件; • 远程办公的 安全管理挑战不断增加 ,主要包括:为员工提供安全远程访问、需要采用远程访问可扩展解决方案以及应对未经测试的软件、工具和服务等; • 在未来一段时期内,企业因支持远程办公而迅速做出的改变,将会带来更多的安全风险,因此 远程访问安全防护 需 要进一步改进。 现在的安全问题已经从“网络攻击,利用应用的安全漏洞,多文件形态的攻击载荷”演变成为具备“多向量、大规模、高强度”三个鲜明特点的多维攻击。 规模逐渐扩大,并且跨多个行业快速蔓延。 这给运维人员带来了巨大挑战。 2. 安全是基础性需要 在过去,网络安全往往被认为是网络架构中占比很小的一部分,但随着企业业务的数字化开展,今天的网络安全态势变得非常复杂