Hadoop兮,杀鸡别用牛刀,python+shell实现一般日志文件的查询、统计
简单的日志统计是不需要使用重量级的Hadoop,我用python实现了日志的统计。原理是用fabric登录到远程linux,组合使用grep、uniq、sort、awk对日志进行操作,可以根据正则表达式指定规则抽取符合规则的日志,做查询,计数,分类统计。 注意:要安装 fabric 库 主文件:LogQuery.py #encoding=utf-8 from fabric.api import run,env,local,cd from fabric.tasks import execute,abort from fabric.contrib.console import confirm import logging logging.basicConfig(format='[%(levelname)s]: %(message)s', level=logging.DEBUG) logger = logging.getLogger(__name__) logging.getLogger('paramiko.transport').setLevel(logging.ERROR) logger.setLevel(logging.DEBUG) EXECUTE_RESULT = {} def hosts(hostarr): ''' set hosts hostarr:[(hostname