solr

Reg Solr Error in Windows 10 Computer,Need steps for Solr Removal from Windows 10 and rerun

匆匆过客 提交于 2020-08-20 11:51:12
问题 Solr Instance in my Office Lap is erroring out giving out this error logs ; ERROR: Failed to get system information from http://localhost:8983/solr due to: org.apache.solr.common.SolrException: Parse error : <html> <head> <meta http-equiv="Content-Type" content="text/html;charset=utf-8"/> <title>Error 404 Not Found</title> </head> <body><h2>HTTP ERROR 404</h2> <p>Problem accessing /solr/admin/info/system. Reason: <pre> Not Found</pre></p><h3>Caused by:</h3><pre>javax.servlet.ServletException:

Nutch 1.13 index-links configuration

和自甴很熟 提交于 2020-08-20 11:28:30
问题 I am currently trying to extract the webgraph structure during my crawling run with Apache Nutch 1.13 and Solr 4.10.4. According to the documentation, the index-links plugin adds outlinks and inlinks to the collection. I have changed my collection in Solr accordingly (passed the respective fields in schema.xml and restarted Solr), as well as adapted the solr-mapping file, but to no avail. The resulting error can be seen below. bin/nutch index -D solr.server.url=http://localhost:8983/solr

图解分布式系统架构演进之路

假如想象 提交于 2020-08-19 19:51:33
0、 介绍 本篇文章是在我看完《从零开始学架构》之后,以架构演变为主线,梳理了一下演变过程中出现的问题以及解决方案,文章中引用了这本书的一些内容和图片 分布式和集群的概念经常被搞混,现在一句话让你明白两者的区别。 分布式 :一个业务拆分成多个子业务,部署在不同的服务器上 集群 :同一个业务,部署在多个服务器上 例如:电商系统可以拆分成商品,订单,用户等子系统。这就是分布式,而为了应对并发,同时部署好几个用户系统,这就是集群 1、 单应用架构 2、 应用服务器和数据服务器分离 单机负载越来越来,所以要将应用服务器和数据库服务器分离 3、 应用服务器做集群 每个系统的处理能力是有限的,为了提高并发访问量,需要对应用服务器做集群 这时会涉及到两个问题: 负载均衡 session共享 负载均衡就是将请求均衡地分配到多个系统上,常见的技术有如下几种 DNS DNS是最简单也是最常见的负载均衡方式,一般用来实现地理级别的均衡。例如,北方的用户访问北京的机房,南方的用户访问广州的机房。一般不会使用DNS来做机器级别的负载均衡,因为太耗费IP资源了。例如,百度搜索可能要10000台以上的机器,不可能将这么多机器全部配置公网IP,然后用DNS来做负载均衡。 Nginx&LVS&F5 DNS是用于实现地理级别的负载均衡,而Nginx&LVS&F5用于同一地点内机器级别的负载均衡

Elasticsearch和Hbase对比分析

左心房为你撑大大i 提交于 2020-08-19 17:32:27
目录 为什么写这篇文章 一些重要概念 部署架构 数据写入 数据查询 负载均衡 数据合并策略 宕机恢复 为什么写这篇文章   可能有些童鞋已经发现:1.阿里云上的Hbase服务,基于Hbase深度定制和扩展,能比较好的支持时序场景和全文检索场景,其增强版Lindorm,已经作为单独的云服务售卖,单独演进。2.腾讯云上,基于ES构建了CTSDB时序数据库单独售卖,同时也推出了增强版的ES云服务。可以看出,在这两个服务所在团队中,一边选择基于ES来支持时序和全文检索场景,一边则选择基于Hbase来支持时序和全文检索场景。基于ES来支持时序和全文检索场景是比较好理解的,因为它本身的功能就支持这些,但是Hbase如何比较好支持全文检索场景呢?实际上,阿里云的Hbase服务借助了Solr这个搜索引擎来构建这块的能力,因为Solr和ES一样,都是基于Lucene构建的搜索服务。那为什么阿里不和腾讯一样,直接基于ES来构建这块的能力呢?Hbase和ES又究竟有哪些共同点,有哪些差异点呢?   总的来说,在数据量不是非常大的时候,使用ES更加简单,单纯使用ES就能解决各种查询场景的需求,但是当数据量非常大的时候,现有的社区版本ES则存在不少问题,这个时候往往需要进行一些内核级别的改进(否则就需要更多的业务层干预,并且成本消耗会比较高),类似阿里云和腾讯云上提供的ES服务,实际上都对ES内核做过改进

环境篇:Atlas2.0.0兼容CDH6.2.0部署

萝らか妹 提交于 2020-08-19 03:17:06
环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 如果没有Atlas 大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图 对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发 官网: http://atlas.apache.org 表与表之间的血缘依赖 字段与字段之间的血缘依赖 1 Atlas 架构原理 2 Atlas 安装及使用 安装需要组件,HDFS、Yarn、Zookeeper、Kafka、Hbase、Solr、Hive,Python2.7环境 需要Maven3.5.0以上,jdk_151以上,python2.7。 2.1 下载源码包2.0.0,IDEA打开 2.2 修改相关版本与CDH版本对应 <hadoop.version>3.0.0</hadoop.version> <hbase.version>2.1.0</hbase.version> <kafka.version>2.1.0<

环境篇:Atlas2.0.0兼容CDH6.2.0部署

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-18 04:27:32
环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 如果没有Atlas 大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图 对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发 官网: http://atlas.apache.org 表与表之间的血缘依赖 字段与字段之间的血缘依赖 1 Atlas 架构原理 2 Atlas 安装及使用 安装需要组件,HDFS、Yarn、Zookeeper、Kafka、Hbase、Solr、Hive,Python2.7环境 需要Maven3.5.0以上,jdk_151以上,python2.7。 2.1 下载源码包2.0.0,IDEA打开 2.2 修改相关版本与CDH版本对应 <hadoop.version>3.0.0</hadoop.version> <hbase.version>2.1.0</hbase.version> <kafka.version>2.1.0<

Bulehero 蠕虫病毒安全分析报告

十年热恋 提交于 2020-08-17 08:00:31
作者:answerboy @知道创宇404积极防御实验室 时间:2020年8月5日 1 概述 近日知道创宇404积极防御团队通过知道创宇云防御安全大数据平台(GAC)监测到大量利用Struts2、ThinkPHP等多个Web组件漏洞进行的组合攻击,并捕获到相关样本,经分析确认该样本为Bulehero蠕虫病毒。目前该Web攻击均被创宇盾拦截;知道创宇NDR流量监测系统也已经支持检测所有相关恶意IOC及流量。 2 追溯分析 2.1 发现攻击 2020年7月26日,通过日志分析发现IP: 47.92.*.* (北京)、 119.23.*.* (广东)、 117.89.*.* (南京)等多个IP对客户网站发起Web漏洞攻击,通过远程下载并执行恶意文件Download.exe,如下: ThinkphpV5进行攻击: Tomcat PUT方式任意文件文件上传: Struts2远程命令执行: 经过分析,发现Download.exe为下载器,执行流程如下: 图1-执行流程 2.2 详细分析 2.2.1 Download.exe Download.exe作为下载器,攻击成功之后会继续前往 http://UeR.ReiyKiQ.ir/AdPopBlocker.exe 下载AdPopBlocker.exe到系统TEMP目录并创建名为Uvwxya和fmrgsebls的计划任务来实现自启动,如下: 图2

Apache Atlas源码编译以及本地调试环境搭建

岁酱吖の 提交于 2020-08-17 07:36:03
一、Apache Atlas源码的编译 内置HBase、solr git 把 Atlas 的源码拉下来,使用 git clone https://github.com/apache/atlas.git 假如是为了本地测试我们可以直接编译内嵌 HBase solr 的 atlas 。在执行 mvn clean -DskipTests package -Pdist,embedded-hbase-solr 之前需要首先修改打包的pom文件不然有的包下载不下来。将Atlas源码中distro中的pom文件修改如下将 hbase.tar的标签的值修改为<hbase.tar>https://mirrors.huaweicloud.com/apache/hbase/${hbase.version}/hbase-${hbase.version}-bin.tar.gz</hbase.tar> ,将 solr标签的值修改为<solr.tar>https://mirrors.huaweicloud.com/apache/lucene/solr/${solr.version}/solr-${solr.version}.tgz</solr.tar> 。 在修改完成之后,执行命令 mvn clean -DskipTests package -Pdist,embedded-hbase-solr

「从零单排HBase 11」HBase二级索引解决方案

孤人 提交于 2020-08-17 06:19:02
HBase一个令人惋惜的地方,就是不支持二级索引。因此,社区有了很多补充方案来填补HBase的二级索引能力的缺陷。 今天,我们就来看看有哪些二级索引方案,通过对比各个方案的优缺点,并结合我们的具体场景做出二级索引方案选型。 1.为什么需要二级索引 HBase系统单纯从解决大数据实时读写问题角度出发,重点关注于分布式存储的扩展性、容错性、读写性能等方面,为此也牺牲了很多传统关系型数据库的功能,比如事务,SQL表达与分析等。 实际上,这是NoSQL最初的含义,以解决大数据的实时存取为首要目标,提供简单的Get,Put,Scan接口,解决用户的大数据量存储的需求。因此,HBase完全是一个非常优秀的大数据实时存取引擎,解决了传统数据库的容量问题。 就目前官方的HBase系统来说,并不支持二级索引,只有rowkey作为一级索引, 如果要对库里的非rowkey字段进行数据检索和查询, 往往要通过MapReduce/Spark等分布式计算框架进行,硬件资源消耗和时间延迟都会比较高。 为了HBase的数据查询更高效、适应更多的场景, 诸如使用非rowkey字段检索也能做到秒级响应,或者支持各个字段进行模糊查询和多字段组合查询等, 因此需要在原生HBase基础上构建二级索引, 以满足现实中更复杂多样的业务需求。一般有以下三类方案: 基于HBase的Coprocessor的方案

Kafka简介

帅比萌擦擦* 提交于 2020-08-16 19:10:51
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 1.介绍 消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一。下面将从Kafka文件存储机制和物理结构角度,分析Kafka是如何实现高效文件存储,及实际应用效果。 1.1 Kafka的特性: 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。 可扩展性:kafka集群支持热扩展 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败) 高并发:支持数千个客户端同时读写 1.2 Kafka的使用场景: 日志收集:一个公司可以用Kafka可以收集各种服务的log