数据处理 | 易学教程

2016年我国能源行业大数据的发展现状及市场分析

阅读更多关于 2016年我国能源行业大数据的发展现状及市场分析

随着信息化的深入和两化的深度融合，大数据在石油石化行业应用的前景将越来越广阔。以下是是2016年我国能源行业大数据的发展现状及市场分析。随着信息化的深入和两化的深度融合，大数据在石油石化行业应用的前景将越来越广阔。以下是是2016年我国能源行业大数据的发展现状及市场分析： (1)石油天然气行业大数据进展石油天然气行业的大数据仍处于起步阶段。2014年石油行业共组织召开5场提高油气行业信息化的会议，意在提高行业信息化程度，推广大数据在行业内的应用。根据中国石油招标网的数据统计，2014年中国石油共发起建设12个与大数据有关的项目，其中东方物探、新疆塔里木油田及大庆油田在大数据领域的动作最多。项目建设内容多集中在建设油田勘探开发一体化数据中心、建设研究成果知识库2个领域。这也说明目前国内油气行业仍处在数据的采集、存储阶段，尚未上升到大数据挖掘分析的高度。原油炼制及油品销售环节的大数据处于萌芽阶段。企业对炼油大数据仅有概念性的了解，目前能够体现业务布局的即阿里与中石化的合作。阿里云今年4月 20日宣布与中国石化展开技术合作，中国石化将借助阿里巴巴在云计算、大数据方面的技术优势，对部分传统石油化工业务进行升级，打造多业态的商业服务模式。油气行业长期以来处于垄断地位，对于新技术的接受和推广较为缓慢。但随着国家大数据战略的推行，大数据在能源行业必将展开应用

Hadoop MapReduce

阅读更多关于 Hadoop MapReduce

MapReduce MapReduce 是一种可用于数据处理的编程模型。该模型比较简单，不易编写有用的程序。Hadoop 可以运行各种语言版本的MapReduce程序。MapRudece 程序本质是并行运行的，可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。优势：处理大规模的数据集。标签：数据处理的编程模型、支持多语言、本质并行运行、优势处理大规模数据集来源： 51CTO 作者： chainaxxboy 链接： https://blog.51cto.com/linuxboys/2430784

Hadoop常用操作

阅读更多关于 Hadoop常用操作

Hadoop常用操作 1、Hadoop安装略 2、Hadoop配置略 3、Hadoop多目录配置 namenode和datanode节点下都可以进行多个目录的配置，但是意义不同。namenode的多目录配置是副本策略，保证数据可靠性，datanode多目录配置是对容量进行扩容，由于datanode已经有副本机制了。 [hdfs-site.xml]  <property> <name>dfs.namenode.name.dir</name> <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value> </property>  <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value> </property> 其中${hadoop.tmp.dir}是hadoop临时目录配置。 [core-site.xml] <property> <name>hadoop.tmp.dir</name>

sqoop命令，mysql导入到hdfs、hbase、hive

阅读更多关于 sqoop命令，mysql导入到hdfs、hbase、hive

1.测试MySQL连接 bin/sqoop list-databases --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' 2.检验SQL语句 bin/sqoop eval --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' --query "SELECT * FROM TB_REGION WHERE REGION_ID = '00A1719A489D4F49906A8CA9661CCBE8'" 3.导入hdfs 3.1 导入 bin/sqoop import --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' --table TB_REGION --target-dir /sqoop/mysql/trade_dev/tb_region -m 5 --columns "code,name,category,farthercode,visible,regionlevel,region_id"

别老扯什么Hadoop了，你的数据根本不够大

阅读更多关于别老扯什么Hadoop了，你的数据根本不够大

本文原名 “Don't use Hadoop when your data isn't that big ” ，出自有着多年从业经验的数据科学家 Chris Stucchio ，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio @gmail.com 。 “你有多少大数据和Hadoop的经验？”他们问我。我一直在用Hadoop，但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念，写过代码，但是没有大规模经验。接下来他们会问：“你能用Hadoop做简单的group by和sum操作吗？”我当然会，但我会说需要看看具体文件格式。他们给我一个U盘，里面有所有的数据，600MB，对，他们所有的数据。不知道为什么，我用 pandas.read_csv （ Pandas 是一种Python数据分析库）而不是Hadoop完成了这个任务后，他们显得很不满意。 Hadoop其实是挺局限的。它无非是运行某个通用的计算，用SQL伪代码表示就是： SELECT G(...) FROM table GROUP BY F(...) 你只能改变G和F操作，除非要在中间步骤做性能优化（这可不怎么好玩！）。其他一切都是死的。（关于MapReduce，之前作者写过一篇

Spark 是什么？

阅读更多关于 Spark 是什么？

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示： Spark与Hadoop的对比 Spark的中间数据放到内存中，对于迭代运算效率更高。 Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。 Spark比Hadoop更通用 Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便

hadoop分布式文件系统HDFS学习

阅读更多关于 hadoop分布式文件系统HDFS学习

hdfs解决物理计算机存储能力不能满足数据集的要求时遇到的问题，这个系统架构于网络之上，会引入网络编程的复杂性，因此分布式文件系统比普通完成磁盘文件系统更为复杂。 hdfs基于流数据模式访问和处理超大文件的需求而开发的，它可以运行于廉价的商用服务器上，总的来说，可以将 hdfs的主要特点概括为以下几点：（1）处理超大文件这里指的超大文件通常指数百GB，甚至是数百TB大小的文件。目前在实际应用中，hdfs已经能用来存储管理PB级的数据了。（2）流式的访问数据 hdfs的设计建立在更多的响应“一次写入，多次读取”任务的基础之上。这意味着一个数据集一旦由数据源生成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及数据集中的大部分数据，也就是说对hdfs来说，请求读取整个数据集要比读取一个记录更加高效。（3）运行在廉价的商用机器集群上 hadoop设计对硬件需求比较低，只需运行在廉价的商用硬件集群上，但廉价商用机也意味着大型集群出现节点故障情况概率高，这就要求在设计hdfs时要充分考虑数据的可靠性，安全性及高可用性。 hdfs在一些方面有一定的局限性，主要在以下几个方面。（1）不适合低延迟数据访问如果要处理一些用户要求时间比较短的低延迟应用请求，则hdfs不适合。hdfs是为了处理大型数据集分析任务的

Python --time 计时小程序

阅读更多关于 Python --time 计时小程序

process_start_time = time.time() print('开始数据处理') # process function print('结束数据处理') process_stop_time = time.time() # 差的时间戳 diff_time = process_stop_time - process_start_time # 将计算出来的时间戳转换为结构化时间 struct_time = time.gmtime(diff_time) # 减去时间戳最开始的时间并格式化输出 print('数据处理用了{0}年{1}月{2}日{3}小时{4}分钟{5}秒'.format( struct_time.tm_year - 1970, struct_time.tm_mon - 1, struct_time.tm_mday - 1, struct_time.tm_hour, struct_time.tm_min, struct_time.tm_sec )) 来源： https://www.cnblogs.com/gengyufei/p/12640594.html

10个大数据领域的杰出公司

阅读更多关于 10个大数据领域的杰出公司

本文筛选了近几年在大数据领域具有独特建树的10家企业，涵盖云计算、数据可视化、数据分析应用、商业智能等不同范畴。在大数据领域虽然国外的优秀企业占众多数，但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献。所以，这10家企业中也列举了一些在某领域具有突出贡献的国内公司，给大家借鉴。（排名不分先后）国外 IT项目——IBM IBM是世界三大IT巨头之一，很多公司在考虑到一些大型的IT项目是会想到IBM、SAP这类公司，其成熟的方案得到世界的广泛认同。在大数据领域，IBM是Hadoop项目的主要参与者之一，服务的客户很多都是PB级的数据。IBM在网格计算、全球数据中心和企业大数据项目实施等众多领域有着丰富的经验。“IBM计划继续整合SPSS分析、高性能计算、BI工具、数据管理和建模、应对高性能计算的工作负载管理等众多技术。” 数据架构——Microsoft 微软除了windows长期占据桌面办公的90%以上的份额，windows在企业应用上也有大量的布局。尤其是在开源工具方面，微软的Windows Azure HDInsight、Hortonworks Data Platform for Windows一直很低调，通过和Hadoop的合作，微软在大数据领域基础架构上有整套的布局，这些开源工具将大数据解决方案良好地集成到企业中，为企业提供内部存储、管理、分析和共享大数据的服务。

什么是大数据

阅读更多关于什么是大数据

1，什么是大数据简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。 2，大数据最核心的价值大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。 3，大数据处理分析的六大最好工具 Apache Hadoop ： Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： ⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 ⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本

订阅数据处理