info

Hadoop学习笔记—20.网站日志分析项目案例

こ雲淡風輕ζ 提交于 2019-12-25 21:22:21
1.1 项目来源   本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。 图1 项目来源网站-技术学习论坛   本次实践的目的就在于通过对该技术论坛的 apache common 日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。 PS: 开发该系统的目的是为了获取一些业务相关的指标,这些指标在第三方工具中无法获得的; 1.2 数据情况    该论坛数据有两部分:   (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。   (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。   图2展示了该日志数据的记录格式,其中每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量。 图2 日志记录数据格式 二、关键指标KPI 2.1 浏览量PV   (1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。   (2)分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但是对于网站运营者来说,更重要的是

$Java-json系列(二):用JSONObject解析和处理json数据

时光总嘲笑我的痴心妄想 提交于 2019-12-25 16:34:36
本文转载自: https://www.cnblogs.com/jiayongji/p/6417862.html 作者:jiayongji 转载请注明该声明。 本文中主要介绍 JSONObject 处理json数据时候的一些常用场景和方法。 (一)jar包下载 所需jar包打包下载百度网盘地址: https://pan.baidu.com/s/1c27Uyre (二)常见场景及处理方法 1、解析简单的json字符串: 1      // 简单的json测试字符串 2 public static final String JSON_SIMPLE = "{'name':'tom','age':16}" ; 3 4 JSONObject obj = JSONObject.fromObject(JSON_SIMPLE); 5 System.out.println("name is : " + obj.get("name" )); 6 System.out.println("age is : " + obj.get("age")); 输出: name is : tom age is : 16 2、解析嵌套的json字符串: 1      // 嵌套的json字符串 2 public static final String JSON_MULTI = "{'name':'tom','score':

使用pprof 分析perf 数据

眉间皱痕 提交于 2019-12-25 16:08:48
对于perf 工具提供的指标数据,我们可以使用自带的report 以及script 进行查看,同时对于火焰图使用 flamescope 也挺不错,但是如果需要跨平台分析使用pprof结合perf_data_converter 就很方便了,以下 是一个简单的集成使用 perf_data_converter构建使用centos系统 安装perf_data_converter 这个需要构建工具的支持bazel,一些依赖 安装依赖 yum install -y elfutils-libelf-devel yum install -y libcap-devel clone 代码 git clone https://github.com/google/perf_data_converter.git cd perf_data_converter bazel build src:perf_to_profile 配置环境变量 添加perf_data_converter到path 路径 生成一个perf.data 数据 命令 perf record 转换perf.data 命令 perf_to_profile -i perf.data -o perf-convert 效果 perf_to_profile -i perf.data -o perf-convert [WARNING:src/quipper

MySQL中导入 导出CSV

[亡魂溺海] 提交于 2019-12-25 16:04:47
来自:http://blog.csdn.net/sara_yhl/article/details/6850107 导出 select * from test_info into outfile '/tmp/test.csv' fields terminated by ',' optionally enclosed by '"' escaped by '"' lines terminated by '\r\n'; 导入 load data infile '/tmp/test.csv' into table test_info fields terminated by ',' optionally enclosed by '"' escaped by '"' lines terminated by '\r\n'; 其中关键参数是 fields terminated by ',' optionally enclosed by '"' escaped by '"' lines terminated by '\r\n' 这个参数是根据RFC4180文档设置的,该文档全称Common Format and MIME Type for Comma-Separated Values (CSV) Files,其中详细描述了CSV格式,其要点包括: (1)字段之间以逗号分隔,数据行之间以\r\n分隔;

一个MySQL视图的优化过程

人走茶凉 提交于 2019-12-25 13:04:58
1. 需要优化的sql 最近做一个基于.net mvc和MySQL的仓储系统的优化工作,遇到了一个执行特别慢的SQL语句,经过一番折腾,终于搞定啦,分享一下过程。问题就是下面这个家伙: create or replace view view_task_meter_info as select t1.TASK_ID,t1.task_no,t1.BINDBOX_BARCODE as box_barcode,t1.EQUIP_BAR_CODE,t1.METER_STATUS,t1.ENTITY_TYPE as RSLT_CODE, -- 设备类别 (SELECT name from data_dictionary_info t01 where t01.domain ='设备类别' and t01.code = t3.EQUIP_CATEG) as T_Equip_categ, -- 类别 (select name from data_dictionary_info t09 where t09.domain = '类型' and t09.code = t3.TYPE_CODE) as T_TYPE_CODE, -- 类型 (select name from data_dictionary_info t09 where t09.domain = '类别' and t09.code = t3

Hadoop3.x安装部署

↘锁芯ラ 提交于 2019-12-25 12:13:57
一、安装部署 此处是单机版安装,我安装的使hadoop3.1.3,因为hadoop2.x和hadoop3.x的安装部署有些不同,所以记录一下 首先安装好jdk,并且准备好hadoop3.x的安装包,可以去官网下载 openssh安装,便于远程上传文件(每台主机都做) [ root @node03 ~ ] # yum - y install openssh - clients 同步时间工具(每台主机都做) #安装ntpdate工具 [ root @node03 ~ ] # yum - y install ntp ntpdate #设置与网络时间同步 [ root @node03 ~ ] # ntpdate cn . pool . ntp . org #系统时间写入硬件时间 [ root @node03 ~ ] # hwclock -- systohc 文件上传(rz)和下载(sz)工具 [ root @node03 ~ ] # yum - y install lrzsz 安装网络下载工具(一台即可) * * [ root @node03 ~ ] # yum - y install wget * * 关闭防火墙(每台都做) #查看防火墙状态 [ root @node03 ~ ] # systemctl status firewalld #关闭防火墙 [ root @node03 ~ ]

Get only url value of FileStack JSON.stringify?

孤街醉人 提交于 2019-12-25 08:26:28
问题 I'm using FileStack on my website, according to FileStack Docs I have this actually: <iframe id="framefile" width="700" height="500" frameborder="0"> <p>Your browser does not support iframes.</p> </iframe> <div id="files"></div> And in javascript side: <script src="http://code.jquery.com/jquery-1.12.0.min.js"></script> <script type="text/javascript" src="http://api.filepicker.io/v2/filepicker.js"></script> <script type="text/javascript"> filepicker.setKey("myAPIKey"); filepicker.pickMultiple(

Xcode中的Version和Build的区别

…衆ロ難τιáo~ 提交于 2019-12-25 07:04:30
Version( 应用程序发布版本号 ) Version对应的是 CFBundleShortVersionString 。 Version 一般由产品部门确定,版本号是由分隔的整数组成的字符串,一般有2段或者3段式, 如:1.2, 1 .2.3 二段式: 第一个段:(主版本号)大功能的新增或者有迥异的变化 第二个段:(副版本号)既包含小功能更新也会包含 bug 修复 三段式: 第一个段:重大修改的版本,如实现新的大功能或重大变化的修订。 第二个段:实现较突出的特点,如新功能添加和大问题修复。 第三个段:代表维护版本,修复bug。 版本号的管理是一个谨慎的事情,希望各位开发者了解其中的意义。 Build( 应用程序内部标示 ) Bulid 是给内部使用,与 Version 不会有太大联系. Bulid对应的是 CFBundleVersion 。标识(发布或未发布)的内部版本号。用以记录开发版本的,每次更新的时候都需要比上一次高。 作用: 发布build版本供测试团队进行测试。 代码获取Build和Version Object-C NSDictionary *info= [[NSBundle mainBundle] infoDictionary]; info[@"CFBundleShortVersionString"]; //Version info[@"CFBundleVersion

Maven Build Profiles--reference

时光毁灭记忆、已成空白 提交于 2019-12-25 07:03:46
What is Build Profile? A Build profile is a set of configuration values which can be used to set or override default values of Maven build. Using a build profile, you can customize build for different environments such as Production v/s Development environments. Profiles are specified in pom.xml file using its activeProfiles / profiles elements and are triggered in variety of ways. Profiles modify the POM at build time, and are used to give parameters different target environments (for example, the path of the database server in the development, testing, and production environments). Types of

GDB 常用命令参考手册

人盡茶涼 提交于 2019-12-25 06:41:49
原文链接 GDB 常用命令参考手册 GDB 命令行参数 GDB 命令 GDB 操作提示 GDB 相关手册 相关链接 GDB 命令行参数 启动 GDB: gdb executable gdb -e executable -c core-file gdb executable -pid process-id (使用命令 'ps -auxw' 可以查看进程的 pid) 选项 含义 --help -h 列出命令行参数。 --exec= file -e file 指定可执行文件。 --core= core-file -c core-file 指明 core 文件。 --command= file -x file 从指定文件中读取 gdb 命令。 --directory= directory -d directory 把指定目录加入到源文件搜索路径中。 --cd= directory 以指定目录作为当前路径来运行 gdb 。 --nx -n 不要执行 .gdbinit 文件中的命令。默认情况下,这个文件中的命令会在所有命令行参数处理完后被执行。 --batch 在非交互模式下运行 gdb 。从文件中读取命令,所以需要 -x 选项。 --symbols= file -s file 从指定文件中读取符号表。 -write 允许对可执行文件和 core 文件进行写操作。 --quiet -q