数据清洗

Mapreduce 数据清洗 更改

浪子不回头ぞ 提交于 2019-12-04 10:25:39
package test; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Locale; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input

hadoop——数据清洗测试

强颜欢笑 提交于 2019-12-04 09:42:37
测试要求: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入 hive数据库中。 清洗前: 清洗后: 数据上传到hive: 一开始问题出在hive,版本太高和太低都很容易 出问题,经过卸载安装等反复操作,终于可以了。mysql也是,最后jar包不匹配也可运行~安装好以后,在hive-site配置文件里的的username和password作为用户名和密码,连接了本地的navicat。第一部分完成了! 来源: https://www.cnblogs.com/zmh-980509/p/11854411.html

数据清洗

一曲冷凌霜 提交于 2019-12-04 09:40:09
Result 文件数据说明: Ip : 106.39.41.166, (城市) Date : 10/Nov/2016:00:01:02 +0800, (日期) Day : 10, (天数) Traffic: 54 , (流量) Type: video, (类型:视频 video 或文章 article ) Id: 8701 (视频或者文章的 id ) 测试要求: 1、 数据清洗: 按照进行数据清洗,并将清洗后的数据导入 hive 数据 库中 。 两阶段数据清洗: ( 1 )第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 ( 2 )第二阶段:根据提取出来的信息做精细化操作 ip---> 城市 city ( IP ) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 ( 3 ) hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2

MapReduce实验-数据清洗-阶段一

泪湿孤枕 提交于 2019-12-04 09:37:41
Result 文件数据说明: Ip : 106.39.41.166, (城市) Date : 10/Nov/2016:00:01:02 +0800, (日期) Day : 10, (天数) Traffic: 54 , (流量) Type: video, (类型:视频 video 或文章 article ) Id: 8701 (视频或者文章的 id ) 测试要求: 1、 数据清洗: 按照进行数据清洗,并将清洗后的数据导入 hive 数据 库中 。 两阶段数据清洗: ( 1 )第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 ( 2 )第二阶段:根据提取出来的信息做精细化操作 ip---> 城市 city ( IP ) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 ( 3 ) hive 数据库表结构 : create table data( ip string, time string , day string, traffic bigint, type string, id string )

数据清洗

浪子不回头ぞ 提交于 2019-12-04 09:31:24
Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article) Id: 8701(视频或者文章的id) 测试要求: 1、 数据清洗: 按照进行数据清洗,并将清洗后的数据导入 hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化操作 ip--->城市 city(IP) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 (3)hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数

hadoop课堂测试之数据清洗

淺唱寂寞╮ 提交于 2019-12-04 09:31:20
测试要求: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入 hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化操作 ip--->城市 city(IP) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 (3)hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 来源: https://www.cnblogs.com/msdog/p/11853740.html

数据清洗与数据处理

旧时模样 提交于 2019-12-04 09:27:56
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class OneSort

对result文件进行数据清洗以及进行可视化

六月ゝ 毕业季﹏ 提交于 2019-12-04 09:26:42
项目源码地址:https://github.com/gayu121/result(项目里操作的数据都是清洗过后的数据) 测试要求: 1、 数据清洗: 按照进行数据清洗,并将清洗后的数据导入 hive 数据 库中 。 两阶段数据清洗: ( 1 )第一阶段:把需要的信息从原始日志中提取出来 ( 2 )第二阶段:根据提取出来的信息做精细化操作 ( 3 ) hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2 、数据处理: · 统计最受欢迎的视频 / 文章的 Top10 访问次数 ( video/article ) · 按照地市统计最受欢迎的 Top10 课程 ( ip ) · 按照流量统计最受欢迎的 Top10 课程 ( traffic ) 3 、数据可视化:将统计结果倒入 MySql 数据库中,通过图形化展示的方式展现出来。 由于所给的文件是一个TXT文档,数据项之间用逗号隔开,格式如图: 所以需要对数据首先进行清洗,变为用Tab建作为分隔的数据项,在此我弄了很久找不到合适的方法,在同学的指点下使用排序的算法,以id为数据项进行了排序,将数据清洗为要求格式,第二阶段的细化过程也就同理了,在这里附上细化使用的代码

mapreduce数据清洗-第一阶段

≡放荡痞女 提交于 2019-12-04 09:14:36
Result 文件数据说明: Ip : 106.39.41.166, (城市) Date : 10/Nov/2016:00:01:02 +0800, (日期) Day : 10, (天数) Traffic: 54 , (流量) Type: video, (类型:视频 video 或文章 article ) Id: 8701 (视频或者文章的 id ) 测试要求: 1、 数据清洗: 按照进行数据清洗,并将清洗后的数据导入 hive 数据 库中 。 两阶段数据清洗: ( 1 )第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 ( 2 )第二阶段:根据提取出来的信息做精细化操作 ip---> 城市 city ( IP ) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 ( 3 ) hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string )

MapReduce实验——数据清洗

我是研究僧i 提交于 2019-12-04 09:00:41
实验要求 https://pan.baidu.com/s/1hTnGnxdvgyNaLwckbKUgJA 程序源代码 package mapreduce; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class CleanResult { public static void main(String[] args) throws IOException,ClassNotFoundException,InterruptedException{