数据处理

互联网UV,PU,TopN统计

ぃ、小莉子 提交于 2019-12-23 19:49:44
1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数   指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。 1.2 PV(page view)页面浏览量或点击量   页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。 1.3 TopN   顾名思义,就是获取前10或前N的数据。 2. 离线计算UV、PV、TopN   这里主要使用hive或者MapReduce计算。 2.1 统计每个时段网站的PV和UV hive> select date,hour,count(url) pv, count(distinct guid) uv from track_log group by date, hour; date hour pv uv 20160624 18 64972 23938 20160624 19 61162 22330 2.2 hive中创建结果表 create table db_track_daily_hour

Hadoop使用(二)

时光怂恿深爱的人放手 提交于 2019-12-23 10:52:29
前提和设计目标 硬件错误 硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。 流式数据访问 运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量,在一些关键方面对POSIX的语义做了一些修改。 大规模数据集 运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。 简单的一致性模型 HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型,使之支持文件的附加写操作

欢迎来到Hadoop

白昼怎懂夜的黑 提交于 2019-12-23 10:47:13
What Is Apache Hadoop? Hadoop是一个可靠的、可扩展的、分布式计算的开源软件。 Hadoop是一个分布式处理大数据的框架。它被设计成从一台到上千台不等的服务器,每个服务器都提供本地计算和存储的能力。它并非依赖于硬件来提供高可用服务。 Hadoop这个工程包含如下模块: Hadoop Common:公共模块 Hadoop Distributed File System (HDFS™):分布式文件系统 Hadoop YARN:一个任务调度和集群资源管理的框架 Hadoop MapReduce:一个机遇YARN的系统,用于并行处理大数据 其它相关的工程还包括: HBase:一个弹性的、分布式的数据库,支持结构化的数据存储 Hive:一个数据仓库的基础设施,提供数据汇总和查询 Spark:一个快速、通用的计算引擎。Spark提供简单并且有表现力的程序模块以支持大范围的应用,包括ETL、机器学习、流处理和图计算 Zookeeper:为分布式应用提供一个高性能的协调服务 来源: https://www.cnblogs.com/cjsblog/p/8093420.html

Spark(Hive) SQL数据类型使用详解(Python)

被刻印的时光 ゝ 提交于 2019-12-23 03:15:33
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”。如果“表”来自于Hive,它的模式(列名、列类型等)在创建时已经确定,一般情况下我们直接通过Spark SQL分析表中的数据即可;如果“表”来自“临时表”,我们就需要考虑两个问题: (1)“临时表”的数据是哪来的? (2)“临时表”的模式是什么? 通过Spark的官方文档可以了解到,生成一张“临时表”需要两个要素: (1)关联着数据的RDD; (2)数据模式; 也就是说,我们需要将数据模式应用于关联着数据的RDD,然后就可以将该RDD注册为一张“临时表”。在这个过程中,最为重要的就是数据(模式)的数据类型,它直接影响着Spark SQL计算过程以及计算结果的正确性。 目前pyspark.sql.types支持的数据类型:NullType、StringType、BinaryType、BooleanType、DateType、TimestampType、DecimalType、DoubleType、FloatType、ByteType、IntegerType、LongType、ShortType、ArrayType、MapType、StructType(StructField),其中ArrayType、MapType、StructType我们称之为“复合类型”,其余称之为“基本类型”,

分区排序

筅森魡賤 提交于 2019-12-23 03:11:47
hdfs的副本的配置 修改hdfs-site.xml文件 <property> <name> dfs.namenode.secondary.http-address </name> <value>hd-02:50090</value> </property> 需要同步到其它机器: scp hdfs-site.xml hd-02:$PWD hadoop启动方式 1)启动hdfs集群 $ start-dfs.sh 2)启动yarn集群 $ start-yarn.sh 3)启动hadoop集群 $ start-all.sh 大数据干什么的? 1)海量数据的存储(mysql/orcale) 分布式文件系统hdfs dfs->Hdfs mapreduce->mapreduce bigtable->hbase 分而治之! 2)海量数据的计算 分布式计算框架mapreduce 配置checkpoint时间 <property> <name>dfs.namenode.checkpoint.period</name> <value>7200</value> </property> hadoop­2.8.4安装部署 1)准备工作 设置主机名:vi /etc/hostname 注意:需要重启 reboot 设置映射:vi /etc/hosts 设置免密登录:ssh-keygen ssh-copy-id

hadoop集群配合

谁都会走 提交于 2019-12-23 01:59:36
Hadoop是什么 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。 Hadoop的优势(4高) 1)可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素 或存储出现故障,也不得致数据的秩。 2)扩展性:在集群间分配任务数据,可防便的扩展数以千计的节点。 3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理 速度。 4)高容错性:能够自动将失败的任务重新分配。 Hadoop组成(面试重点) 虚拟机准备 完全分布式运行模式(开发重点) 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置ssh rsync 远程同步工具 rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。 (1)基本语法 rsync -av p d i r / pdir/ p d i r / fname

UART数据处理方式

大城市里の小女人 提交于 2019-12-23 01:12:12
串口数据接收到buff[] 1. 接收到的是 xxx, xxx,xxxx,xxxxx,xxx,xxxx,xxx 例如: GPS发送数据以行为单位,数据格式如下: $GPHPD,x,x,x,x,x,x,x,x,x,x,x,x,x char res = uart_read(); char buff[cnt++] = res; //////////////存储res数据到buff中////////////////////// int LEN = 200; int LEN_1 = 20; int LEN_2 = 20; int cnt = 0; char str[LEN_1][LEN_2] = {0}; int i=0; int count = 0; int k=0; //////////////////////////////////////////////////// for(i =0; i<cnt ;i++) { if(i == ',') // { count++; m++; } else { str[m][n] = buff[i]; n++; } } //通过',' 已经将数据分割成一个个字符串 for(i=0; i<m;i++) { float buf[i] = atof(str[i]); //现在的buf里放得是一个个的float数据,可以进行计算和比较 } float

七天学会ASP.NET MVC (三)——ASP.Net MVC 数据处理

笑着哭i 提交于 2019-12-22 19:58:07
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 第三天我们将学习Asp.Net中数据处理功能,了解数据访问层,EF,以及EF中常用的代码实现方式,创建数据访问层和数据入口,处理Post数据,以及数据验证等功能。 系列文章 七天学会ASP.NET MVC (一)——深入理解ASP.NET MVC 七天学会ASP.NET MVC (二)——ASP.NET MVC 数据传递 七天学会ASP.NET MVC (三)——ASP.Net MVC 数据处理 目录: 数据访问层 实体框架(EF)简述 什么是代码优先的方法? 实验8——在项目中添加数据访问层 关于实验8 实验9——创建数据输入屏幕 实验10——获取服务端或控制器端传递的数据。 实验11——重置及取消按钮 实验12——保存数据。库记录并更新表格 实验13——添加服务器端验证 实验14——自定义服务器端验证 结论 数据访问层 在实际开发中,如果一个项目不包含任何数据库,那么这个项目是不完整的,我们在一二节实例中未涉及数据库,在本节开始,实验8中讲解一个关于数据库和数据库层的实例。 本节将使用SQL Server和EF(Entity Framework)创建相关的数据库及数据库访问层。 简述实体框架(EF) EF是一种ORM工具,ORM表示对象关联映射。 在RDMS中,对象称为表格和列对象,而在.net中(面向对象

Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?

放肆的年华 提交于 2019-12-22 14:26:25
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。 Hadoop:最具童心 2004年,Apache Hadoop(以下简称Hadoop)的创始人Doug Cutting和Mike Cafarella受MapReduce编程模型和Google File System等论文的启发,对论文中提及的思想进行了编程实现,Hadoop的名字来源于Doug Cutting儿子的玩具大象。当时Cutting的儿子刚刚两岁,正处在咿呀学语的阶段,经常将自己的黄色玩具大象叫做"Hadoop",Cutting灵机一动,将自己的大数据项目以此来命名。 Cutting称,软件的名字有时候要听起来“毫无意义”,因为软件会随着时间不断迭代演进,一开始就使用一个与其初始功能紧密相关的名字,日后有可能比较尴尬。 由于Doug Cutting后来加入了雅虎,并在雅虎工作期间支持了大量Hadoop的研发工作,因此Hadoop也经常被认为是雅虎开源的一款大数据框架。时至今日,Hadoop不仅仅是整个大数据领域的先行者和领导者,更形成了一套围绕Hadoop的生态系统,Hadoop和它的生态是绝大多数企业首选的大数据解决方案。 目前,Hadoop的核心组件主要有三个: Hadoop MapReduce

GEO基因芯片数据处理精华(一):GEOquery包

五迷三道 提交于 2019-12-22 06:15:39
合作研究请联系QQ 2279055353 GEO( Gene Expression Omnibus )是NCBI(美国国家生物信息中心)下的基因表达数据库,包括各种各样的基因芯片检测技术得到的试验记录与平台信息。GEO是最具知名度的基因表达数据存储数据库,这些数据包括单通道和双通道的微阵列实验,测量对象包括 mRNA , 基因组 cDNA , 蛋白质冗余物,以及各种非阵列技术,例如,高通量测序技术。现在,我们介绍GEO数据库的检索、下载,以及数据的预处理方法。首先,我们介绍GEO数据集查询R语言包—— GEOquery . GEOquery包的下载与安装 GEOquery包位于生物信息开源软件库 Bioconductor , 在Bioconductor主页的搜索栏输入 GEOquery 回车后,出现了下载项。 按照安装提示在R控制台安装即可。 GEO数据组织结构 GEO上的数据通常有四种组织形式,它们分别是: Platforms Samples Series Datasets 其中,前三种形式由用户提交,第四种数据集的形式由GEO整理汇总。 Platforms 一个 platform 记录描述了阵列上的元素列表,例如,cDNA, 探针,ORFs, 抗体等。每个平台记录有一个唯一的GEO访问符 GPLxxx . 一个平台记录可能包括由多个用户提交的多个样本。 Samples 一个