数据分析

2016 | 大数据平台类产品资讯汇总

萝らか妹 提交于 2019-11-27 07:40:46
InfoSphere Streams 平台支持流数据的实时处理,支持不断更新持续查询的结果,可在移动的数据流中检测洞察。 InfoSphere Streams——实时大数据分析平台 Streams V4.2新特性:支持使用 Python 开发 Streams 应用程序 IBM Streams v4.2发布,流数据处理速度更快 IBM 全新大数据分析平台,助力数据云化 快速搭建Streams集群环境 流式大数据实时处理—技术、平台及应用 IBM Streams v4.2 轻松实现快速大数据处理 IBM Streams V4.2 新特性之版本管理和使用标签控制资源 用Java开发IBM Streams应用 利用流计算实时检测网络威胁 流计算也能像数据库那样保证数据不丢失吗? IBM构建了BigInsights平台来为用户提供从大量的信息中提取有用信息进行分析决策的解决方案,它被用来解决在当前信息分析中亟待解决的几大问题:极大数据量的处理,数据来源的多样性,数据分析的敏捷性,数据分析的持久性。随着 BigInsights 的不断发展,我们将支持更多的基于 Hadoop 的开源项目,根据用户的特定需求提供更多更好的解决方案。 BigInsights -- 基于 Hadoop 的大数据分析平台 搭建企业级大数据分析平台也可以很简单! BigInsights金刚钻之首:BigSQL - SQL

数据分析-Numpy练习题

北战南征 提交于 2019-11-27 07:28:50
参看网站: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises.md https://github.com/Kyubyong/numpy_exercises https://www.jianshu.com/p/51c205d7b07b 1. Numpy 2. Numpy 100 来源: https://www.cnblogs.com/Jacon-hunt/p/11351142.html

数据分析-Pandas练习题

南笙酒味 提交于 2019-11-27 07:18:29
参考网站: https://github.com/fengdu78/machine_learning_beginner/tree/master/pandas/Pandas_Exercises https://github.com/ajcr/100-pandas-puzzles https://blog.csdn.net/jclian91/article/details/84289537 1. Pandas_Exercises 1.Getting and knowing Chipotle Occupation World Food Facts 2.Filtering and Sorting Chipotle Euro12 Fictional Army 3.Grouping Alcohol Consumption Occupation Regiment 4.Apply Students Alcohol Consumption US_Crime_Rates 5.Merge Auto_MPG Fictitious Names House Market 6.Stats US_Baby_Names Wind_Stats 7.Visualization Chipotle Titanic Disaster Scores Online Retail Tips 8.Creating Series

数据分析-淘宝用户行为分析

亡梦爱人 提交于 2019-11-27 06:09:59
一、项目背景和目的 项目数据来源于 https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1 ,通过此项目学习电商数据分析的指标与数据分析的基本方法。 二、分析维度 根据现有数据及分析目的,从四个维度进行分析: 第一个维度:用户购物情况整体分析 以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯 第二个维度:商品购买情况分析 从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律 第三个维度:用户行为转化漏斗分析 从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析 第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户 三 、分析正文 分析步骤如下: 提出问题------理解数据------数据清洗------构建模型------数据可视化 (一)提出问题 用户最活跃的日期及时段 用户对商品有哪些购买偏好 用户行为间的转化情况 用户分类,哪些是有价值的用户 (二)理解数据 用户行为类型又分为四种: pv: 商品详情页pv,等价于点击 buy:商品购买 cart:商品加入购物车 fav:收藏 (三)数据清洗 包含数据导入(采用Navicat)、缺失值处理、一致化处理、异常值处理(2017.11.25到2017.12

想要读懂大数据,你得先了解这些技术

别说谁变了你拦得住时间么 提交于 2019-11-27 03:56:59
说起大数据,很多人都能聊上一会,但要是问大数据核心技术有哪些,估计很多人就说不上一二来了。 从机器学习到数据可视化,大数据发展至今已经拥有了一套相当成熟的技术树,不同的技术层面有着不同的技术架构,而且每年还会涌现出新的技术名词。面对如此庞杂的技术架构,很多第一次接触大数据的小白几乎都是望而生畏的。 其实想要知道大数据有哪些核心技术很简单,无非三个过程:取数据、算数据、用数据。这么说可能还是有人觉得太空泛,简单来说从大数据的生命周期来看,无外乎四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开来说: 一、大数据采集 大数据采集,即对各种来源的结构化和非结构化海量数据,所进行的采集。 数据库采集:流行的有Sqoop和ETL,传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。 网络数据采集:一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的数据采集方式。 文件采集:包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。 推荐大数据学习交流裙 606八五九705每天晚上20

爬虫 数据分析 pandas

随声附和 提交于 2019-11-27 03:52:24
pandas # pandas 数据结构 # 导入 pandas import pandas as pd from pandas import DataFrame,Series import numpy as np Series的创建 两种创建方式: 由列表或numpy数组创建 默认索引为0到N-1的整数型索引 还可以通过设置index参数指定索引 Series(data=[1,2,3]) Series(data=[1,2,3],index=['a','b','c']) Series(data=np.random.randint(1,100,size=(3,))) 索引 切片 去重 # Series的索引和切片 s[0:2] # 可以使用s.head(),tail()分别查看前n个和后n个值 s.head(2) s.tail(2) 去空 运算 s1 = Series(data=[1,2,3,4],index=['a','b','c','d']) s2 = Series(data=[1,2,3,4],index=['a','b','e','d']) s = s1 + s2 # 当索引没有对应的值时,可能出现缺失数据显示NaN(not a number)的情况 s # 可以使用pd.isnull(),pd.notnull(),或s.isnull(),notnull()函数检测缺失数据

数据分析之 三剑客:Numpy,Pandas,Matplotlib的简单实用

拟墨画扇 提交于 2019-11-27 03:21:31
NumPy   NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 - 创建ndarray   1 使用np.array()创建     1.1 一维数组的创建      import numpy as np np.array([1,2,3,4,5]) 来源: https://www.cnblogs.com/lulin9501/p/11338062.html