大数据处理

IBM 信息集成解决方案,让大数据处理更简单!

心已入冬 提交于 2020-04-15 15:04:08
【推荐阅读】微服务还能火多久?>>> 经过一年多来,我们每逢周三发布有关 IBM 信息集成(Information Integration & Governance 简称 IIG)的文章素材,相信大家对 IBM 公司在该领域为用户所提供的解决方案,以及为业界已所做出的贡献,都有目共睹了。然而,这年头 IT 技术和信息科学变得太快了,所以,很有必要带领大家去逛逛 IBM IIG 这片大森林,以更全面地认识和理解 IBM IIG 解决方案的策略、思想和最新的打法。 策略与思想 IBM IIG 解决方案是推崇全方位,全能化的策略与思想: 实现从源数据系统进行数据抽取/采集、数据转换、数据交付、数据管理、数据分析,到洞察业务,全程地实现了端-到-端的信息使用和管理;胸怀大志地向企业级用户提供可信赖的信息,为优化企业的业务和决策支持服务。 以一个全面的信息集成服务平台为核心,为用户提供全程的数据集成、元数据管理、任何数据源与任何平台上的任何应用程序之间的连接;提供强大并行处理技术转换复杂逻辑的数据,并随着数据量增大而无限制地扩展系统。 从数据的质量提升、生命周期管理、信息安全访问和合规,以及业务和IT技术人员的协同工作,这些都能帮助你最终获取到所需要的“可信赖”信息。 不但能在用户所拥有的数据中心(on-premise)中建设,还能迁移到云上(off-premise)部署和建设。 目前

解密 | 大数据环境下的多维分析技术

时光毁灭记忆、已成空白 提交于 2020-04-09 19:46:42
引言 上期的文章《大数据环境下的多维分析技术(1)》让大家了解到,在大数据环境下, IBM Cognos 的Dynamic Cubes可以实现TB级的多维分析功能,文章探讨了影响Dynamic Cubes性能的因素,还介绍了Dynamic Cubes性能调优的一些手段。其中提到了可以通过Dynamic Query Analyzer (下文简称DQA)工具来对动态立方体的查询性能进行评估并得到优化建议。那这个DQA工具到底是个什么东西,本期文章为大家一一解密。 DQA介绍 DQA是一个通过分析Dynamic Cubes的模型设计及查询日志来进行排错、提供优化建议的工具。它可以提供图形化界面帮助您理解和分析动态查询的查询性能。DQA可以提供Dynamic Cubes模型层面的分析建议,也可以提供查询负载方面的分析建议。这个工具可以安装在32位、64位的windows,或者64位的Linux系统上。 DQA的安装与配置 其安装方法比较简单,只需在安装介质的对应操作系统目录下运行issetup.exe(64位Linux系统为issetup)程序,就会出现图形界面。您只需要按安装向导一步一步操作,即可安装完成,本文不再累述。下面我们看看如何配置DQA(以windows环境为例)。 1. 从开始菜单里找到并打开DQA应用程序,并在“窗口”菜单里选择单击“首选项”子菜单。如下图所示。 2.

InfoSphere Streams——实时大数据分析平台

心已入冬 提交于 2020-04-07 17:56:02
了解 InfoSphere Streams ,它是 IBM 大数据平台的一部分。 InfoSphere Streams 解决了针对能够实时处理生成的海量流数据的平台和架构的一种迫切需求。了解该产品的设计目标,它适用于哪些时机,其工作原理,以及它如何为 InfoSphere BigInsights 提供补充来执行高度复杂的分析。 来自多个来源的信息正在以难以置信的速度增长。互联网用户数量在 2015 年已经达到 22.7 亿。每一天,Twitter 都会生成超过 12 TB 的 tweet,Facebook 生成超过 25 TB 日志数据,纽约证券交易所采集 1 TB 交易信息。每天会创建大约 300 亿个射频识别 (RFID) 标记。此外,每年销售的数亿台 GPS 设备,目前正在使用的超过 3000 万个连网的传感器(而且每年在以高于 30% 的速度增长),都在产生数据。这些数据量预计在未来 10 年中每 2 年就会翻一番。 一家公司在一年时间内可生成高达数 PB 的信息: 网页、博客、单击流、搜索索引、社交媒体论坛、即时消息、文本消息、电子邮件、文档、用户人口统计数据、来自主动和被动系统的传感器数据,等等 。许多人估计,这些数据中高达 80% 都是半结构化或非结构化数据。公司一直在寻求更加敏捷地经营业务,以更加创新的方式执行 数据分析和决策流程 。而且他们认识到

一张图,带你读懂 IBM 云上真实洞察数据那些事

末鹿安然 提交于 2019-12-23 15:10:05
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在传统的交易数据库系统中,伴随着客户的交易行为发生,在业务系统中产生了相应的交易数据,并保存在 关系型数据库 系统,从而形成了业务的交易记录,各类业务应用系统都是围绕着关系型数据库打交道。 当今,大家都已看到的现实状况是: 随着越来越多面向移动(mobile-oriented)的应用被大量企业/机构所使用,很多交易数据以 JSON 文档形式产生,并保存在 NoSQL 数据库系统中。 很多企业/机构建立了数据中心,并以数据仓库为主要技术去进行数据分析。数据从交易系统数据库抽取出来,经过转换处理,加载到 数据仓库 ,才能让数据得以进行分析,这个就是众所周知的 ETL 处理流程。然而,这种分析是只能适合对“指定”业务问题进行分析和回答,其表现形式是让用户去查询信息,和用预先设计和建立好的模型来回答在指定范围内的业务问题,以及产生报表。最大的限制和不便就是要“指定”,如果要回答新的业务问题,将无法满足使用这些数据和信息人员的需求。 在最近 5年里,随着 Hadoop 平台系统和 DataLake 技术普及应用,出现了很多面向 Hadoop 开源厂商。他们把大量数据,各种不同种类的数据存放在 Hadoop中,并进行 ETL 处理,将其处理结果保存在 Hadoop。利用开源技术软件和廉价硬件,“充分

10款超好用的工具助力大数据与分析技术

元气小坏坏 提交于 2019-12-16 10:52:26
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的 大数据 收集与分析工具。然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作。下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴。 数据已经成为现代化企业中最为重要的宝贵资源。一切决策、策略或者方法都需要依托于对数据的分析方可实现。随着“ 大数据分析 ”逐步替代其上代版本,即“商务智能”,企业正面临着一个更加复杂、且商业情报规模更为庞大的新时代。 考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具。然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成 大数据分析 类工作。下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴。 1. OpenRefine 这是一款高人气 数据分析 工具,适用于各类与分析相关的任务。这意味着即使大家拥有多川不同数据类型及名称,这款工具亦能够利用其强大的聚类算法完成条目分组。在聚类完成后,分析即可开始。 2. Hadoop 大数据与Hadoop可谓密不可分。这套软件库兼框架能够利用简单的编程模型将大规模数据集分发于计算机集群当中。其尤为擅长处理大规模数据并使其可用于本地设备当中。作为Hadoop的开发方

大数据时代,IBM 带你玩转大数据处理

雨燕双飞 提交于 2019-12-04 09:32:56
IBM Big Replication V2.0 在今年中刚发布,是面向 Hadoop 和 Cloud 的大数据复制以及灾难备份解决方案。该产品前身是 WANdisco 公司拳头产品,WANdisco Fusion 是该公司在全球唯一能在广域网上进行实时交易数据复制的技术,适用于所有行业。经过商业收购重组,目前,IBM 正在全球大力地推广和销售 IBM Big Replication 解决方案。 产品和解决方案说明 IBM为全球客户提供了高端技术和出类拔萃的大数据复制解决方案,并带来了技术和业务上的显著优势。 在大数据复制的领域,目前,IBM 已拥有众多的客户成功案例,并继续在各个行业大力地推广应用。 对 IBM Big Replication V2.0 产品及解决方案感兴趣的朋友,请点击以下链接获取更新、更多和更详细的产品信息。 更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>> 来源: oschina 链接: https://my.oschina.net/u/2509910/blog/740286