数据清洗

Mapreduce 数据清洗更改

阅读更多关于 Mapreduce 数据清洗更改

package test; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Locale; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input

hadoop——数据清洗测试

阅读更多关于 hadoop——数据清洗测试

测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive数据库中。清洗前：清洗后：数据上传到hive：一开始问题出在hive，版本太高和太低都很容易出问题，经过卸载安装等反复操作，终于可以了。mysql也是，最后jar包不匹配也可运行~安装好以后，在hive-site配置文件里的的username和password作为用户名和密码，连接了本地的navicat。第一部分完成了！来源： https://www.cnblogs.com/zmh-980509/p/11854411.html

阅读更多关于数据清洗

Result 文件数据说明： Ip ： 106.39.41.166, （城市） Date ： 10/Nov/2016:00:01:02 +0800, （日期） Day ： 10, （天数） Traffic: 54 , （流量） Type: video, （类型：视频 video 或文章 article ） Id: 8701 （视频或者文章的 id ）测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive 数据库中。两阶段数据清洗：（ 1 ）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： article/11325 视频： video/3235 （ 2 ）第二阶段：根据提取出来的信息做精细化操作 ip---> 城市 city （ IP ） date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 （ 3 ） hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2

MapReduce实验-数据清洗-阶段一

阅读更多关于 MapReduce实验-数据清洗-阶段一

Result 文件数据说明： Ip ： 106.39.41.166, （城市） Date ： 10/Nov/2016:00:01:02 +0800, （日期） Day ： 10, （天数） Traffic: 54 , （流量） Type: video, （类型：视频 video 或文章 article ） Id: 8701 （视频或者文章的 id ）测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive 数据库中。两阶段数据清洗：（ 1 ）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： article/11325 视频： video/3235 （ 2 ）第二阶段：根据提取出来的信息做精细化操作 ip---> 城市 city （ IP ） date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 （ 3 ） hive 数据库表结构 : create table data( ip string, time string , day string, traffic bigint, type string, id string )

数据清洗

阅读更多关于数据清洗

Result文件数据说明： Ip：106.39.41.166,（城市） Date：10/Nov/2016:00:01:02 +0800,（日期） Day：10,（天数） Traffic: 54 ,（流量） Type: video,（类型：视频video或文章article） Id: 8701（视频或者文章的id）测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive数据库中。两阶段数据清洗：（1）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： article/11325 视频： video/3235 （2）第二阶段：根据提取出来的信息做精细化操作 ip--->城市 city（IP） date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 （3）hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2、数据处理： ·统计最受欢迎的视频/文章的Top10访问次数

hadoop课堂测试之数据清洗

阅读更多关于 hadoop课堂测试之数据清洗

测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive数据库中。两阶段数据清洗：（1）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： article/11325 视频： video/3235 （2）第二阶段：根据提取出来的信息做精细化操作 ip--->城市 city（IP） date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id:11325 （3）hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 来源： https://www.cnblogs.com/msdog/p/11853740.html

数据清洗与数据处理

阅读更多关于数据清洗与数据处理

package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; public class OneSort

对result文件进行数据清洗以及进行可视化

阅读更多关于对result文件进行数据清洗以及进行可视化

项目源码地址：https://github.com/gayu121/result（项目里操作的数据都是清洗过后的数据）测试要求： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入 hive 数据库中。两阶段数据清洗：（ 1 ）第一阶段：把需要的信息从原始日志中提取出来（ 2 ）第二阶段：根据提取出来的信息做精细化操作（ 3 ） hive数据库表结构: create table data( ip string, time string , day string, traffic bigint, type string, id string ) 2 、数据处理： · 统计最受欢迎的视频 / 文章的 Top10 访问次数（ video/article ） · 按照地市统计最受欢迎的 Top10 课程（ ip ） · 按照流量统计最受欢迎的 Top10 课程（ traffic ） 3 、数据可视化：将统计结果倒入 MySql 数据库中，通过图形化展示的方式展现出来。由于所给的文件是一个TXT文档，数据项之间用逗号隔开，格式如图：所以需要对数据首先进行清洗，变为用Tab建作为分隔的数据项，在此我弄了很久找不到合适的方法，在同学的指点下使用排序的算法，以id为数据项进行了排序，将数据清洗为要求格式，第二阶段的细化过程也就同理了，在这里附上细化使用的代码

mapreduce数据清洗-第一阶段

阅读更多关于 mapreduce数据清洗-第一阶段

MapReduce实验——数据清洗

阅读更多关于 MapReduce实验——数据清洗

实验要求 https://pan.baidu.com/s/1hTnGnxdvgyNaLwckbKUgJA 程序源代码 package mapreduce; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class CleanResult { public static void main(String[] args) throws IOException,ClassNotFoundException,InterruptedException{

订阅数据清洗