solr | 易学教程

Reg Solr Error in Windows 10 Computer,Need steps for Solr Removal from Windows 10 and rerun

阅读更多关于 Reg Solr Error in Windows 10 Computer,Need steps for Solr Removal from Windows 10 and rerun

问题 Solr Instance in my Office Lap is erroring out giving out this error logs ; ERROR: Failed to get system information from http://localhost:8983/solr due to: org.apache.solr.common.SolrException: Parse error : <html> <head> <meta http-equiv="Content-Type" content="text/html;charset=utf-8"/> <title>Error 404 Not Found</title> </head> <body><h2>HTTP ERROR 404</h2> <p>Problem accessing /solr/admin/info/system. Reason: <pre> Not Found</pre></p><h3>Caused by:</h3><pre>javax.servlet.ServletException:

Nutch 1.13 index-links configuration

阅读更多关于 Nutch 1.13 index-links configuration

问题 I am currently trying to extract the webgraph structure during my crawling run with Apache Nutch 1.13 and Solr 4.10.4. According to the documentation, the index-links plugin adds outlinks and inlinks to the collection. I have changed my collection in Solr accordingly (passed the respective fields in schema.xml and restarted Solr), as well as adapted the solr-mapping file, but to no avail. The resulting error can be seen below. bin/nutch index -D solr.server.url=http://localhost:8983/solr

图解分布式系统架构演进之路

阅读更多关于图解分布式系统架构演进之路

0、介绍本篇文章是在我看完《从零开始学架构》之后，以架构演变为主线，梳理了一下演变过程中出现的问题以及解决方案，文章中引用了这本书的一些内容和图片分布式和集群的概念经常被搞混，现在一句话让你明白两者的区别。分布式：一个业务拆分成多个子业务，部署在不同的服务器上集群：同一个业务，部署在多个服务器上例如：电商系统可以拆分成商品，订单，用户等子系统。这就是分布式，而为了应对并发，同时部署好几个用户系统，这就是集群 1、单应用架构 2、应用服务器和数据服务器分离单机负载越来越来，所以要将应用服务器和数据库服务器分离 3、应用服务器做集群每个系统的处理能力是有限的，为了提高并发访问量，需要对应用服务器做集群这时会涉及到两个问题：负载均衡 session共享负载均衡就是将请求均衡地分配到多个系统上，常见的技术有如下几种 DNS DNS是最简单也是最常见的负载均衡方式，一般用来实现地理级别的均衡。例如，北方的用户访问北京的机房，南方的用户访问广州的机房。一般不会使用DNS来做机器级别的负载均衡，因为太耗费IP资源了。例如，百度搜索可能要10000台以上的机器，不可能将这么多机器全部配置公网IP，然后用DNS来做负载均衡。 Nginx&LVS&F5 DNS是用于实现地理级别的负载均衡，而Nginx&LVS&F5用于同一地点内机器级别的负载均衡

Elasticsearch和Hbase对比分析

阅读更多关于 Elasticsearch和Hbase对比分析

目录为什么写这篇文章一些重要概念部署架构数据写入数据查询负载均衡数据合并策略宕机恢复为什么写这篇文章可能有些童鞋已经发现：1.阿里云上的Hbase服务，基于Hbase深度定制和扩展，能比较好的支持时序场景和全文检索场景，其增强版Lindorm，已经作为单独的云服务售卖，单独演进。2.腾讯云上，基于ES构建了CTSDB时序数据库单独售卖，同时也推出了增强版的ES云服务。可以看出，在这两个服务所在团队中，一边选择基于ES来支持时序和全文检索场景，一边则选择基于Hbase来支持时序和全文检索场景。基于ES来支持时序和全文检索场景是比较好理解的，因为它本身的功能就支持这些，但是Hbase如何比较好支持全文检索场景呢？实际上，阿里云的Hbase服务借助了Solr这个搜索引擎来构建这块的能力，因为Solr和ES一样，都是基于Lucene构建的搜索服务。那为什么阿里不和腾讯一样，直接基于ES来构建这块的能力呢？Hbase和ES又究竟有哪些共同点，有哪些差异点呢？总的来说，在数据量不是非常大的时候，使用ES更加简单，单纯使用ES就能解决各种查询场景的需求，但是当数据量非常大的时候，现有的社区版本ES则存在不少问题，这个时候往往需要进行一些内核级别的改进（否则就需要更多的业务层干预，并且成本消耗会比较高），类似阿里云和腾讯云上提供的ES服务，实际上都对ES内核做过改进

环境篇：Atlas2.0.0兼容CDH6.2.0部署

阅读更多关于环境篇：Atlas2.0.0兼容CDH6.2.0部署

环境篇：Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。如果没有Atlas 大数据表依赖问题不好解决，元数据管理需要自行开发，如：hive血缘依赖图对于表依赖问题，没有一个可以查询的工具，不方便错误定位，即业务sql开发官网： http://atlas.apache.org 表与表之间的血缘依赖字段与字段之间的血缘依赖 1 Atlas 架构原理 2 Atlas 安装及使用安装需要组件，HDFS、Yarn、Zookeeper、Kafka、Hbase、Solr、Hive，Python2.7环境需要Maven3.5.0以上，jdk_151以上，python2.7。 2.1 下载源码包2.0.0，IDEA打开 2.2 修改相关版本与CDH版本对应 <hadoop.version>3.0.0</hadoop.version> <hbase.version>2.1.0</hbase.version> <kafka.version>2.1.0<

环境篇：Atlas2.0.0兼容CDH6.2.0部署

阅读更多关于环境篇：Atlas2.0.0兼容CDH6.2.0部署

Bulehero 蠕虫病毒安全分析报告

阅读更多关于 Bulehero 蠕虫病毒安全分析报告

作者：answerboy @知道创宇404积极防御实验室时间：2020年8月5日 1 概述近日知道创宇404积极防御团队通过知道创宇云防御安全大数据平台（GAC）监测到大量利用Struts2、ThinkPHP等多个Web组件漏洞进行的组合攻击，并捕获到相关样本，经分析确认该样本为Bulehero蠕虫病毒。目前该Web攻击均被创宇盾拦截；知道创宇NDR流量监测系统也已经支持检测所有相关恶意IOC及流量。 2 追溯分析 2.1 发现攻击 2020年7月26日，通过日志分析发现IP： 47.92.*.* （北京）、 119.23.*.* （广东）、 117.89.*.* （南京）等多个IP对客户网站发起Web漏洞攻击，通过远程下载并执行恶意文件Download.exe，如下： ThinkphpV5进行攻击： Tomcat PUT方式任意文件文件上传： Struts2远程命令执行：经过分析，发现Download.exe为下载器，执行流程如下：图1-执行流程 2.2 详细分析 2.2.1 Download.exe Download.exe作为下载器，攻击成功之后会继续前往 http://UeR.ReiyKiQ.ir/AdPopBlocker.exe 下载AdPopBlocker.exe到系统TEMP目录并创建名为Uvwxya和fmrgsebls的计划任务来实现自启动，如下：图2

Apache Atlas源码编译以及本地调试环境搭建

阅读更多关于 Apache Atlas源码编译以及本地调试环境搭建

一、Apache Atlas源码的编译内置HBase、solr git 把 Atlas 的源码拉下来，使用 git clone https://github.com/apache/atlas.git 假如是为了本地测试我们可以直接编译内嵌 HBase solr 的 atlas 。在执行 mvn clean -DskipTests package -Pdist,embedded-hbase-solr 之前需要首先修改打包的pom文件不然有的包下载不下来。将Atlas源码中distro中的pom文件修改如下将 hbase.tar的标签的值修改为<hbase.tar>https://mirrors.huaweicloud.com/apache/hbase/${hbase.version}/hbase-${hbase.version}-bin.tar.gz</hbase.tar> ，将 solr标签的值修改为<solr.tar>https://mirrors.huaweicloud.com/apache/lucene/solr/${solr.version}/solr-${solr.version}.tgz</solr.tar> 。在修改完成之后，执行命令 mvn clean -DskipTests package -Pdist,embedded-hbase-solr

「从零单排HBase 11」HBase二级索引解决方案

阅读更多关于「从零单排HBase 11」HBase二级索引解决方案

HBase一个令人惋惜的地方，就是不支持二级索引。因此，社区有了很多补充方案来填补HBase的二级索引能力的缺陷。今天，我们就来看看有哪些二级索引方案，通过对比各个方案的优缺点，并结合我们的具体场景做出二级索引方案选型。 1.为什么需要二级索引 HBase系统单纯从解决大数据实时读写问题角度出发，重点关注于分布式存储的扩展性、容错性、读写性能等方面，为此也牺牲了很多传统关系型数据库的功能，比如事务，SQL表达与分析等。实际上，这是NoSQL最初的含义，以解决大数据的实时存取为首要目标，提供简单的Get，Put，Scan接口，解决用户的大数据量存储的需求。因此，HBase完全是一个非常优秀的大数据实时存取引擎，解决了传统数据库的容量问题。就目前官方的HBase系统来说，并不支持二级索引，只有rowkey作为一级索引，如果要对库里的非rowkey字段进行数据检索和查询，往往要通过MapReduce/Spark等分布式计算框架进行，硬件资源消耗和时间延迟都会比较高。为了HBase的数据查询更高效、适应更多的场景，诸如使用非rowkey字段检索也能做到秒级响应，或者支持各个字段进行模糊查询和多字段组合查询等，因此需要在原生HBase基础上构建二级索引，以满足现实中更复杂多样的业务需求。一般有以下三类方案：基于HBase的Coprocessor的方案

Kafka简介

阅读更多关于 Kafka简介

Kafka Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 1.介绍消息队列的性能好坏，其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一。下面将从Kafka文件存储机制和物理结构角度，分析Kafka是如何实现高效文件存储，及实际应用效果。 1.1 Kafka的特性: 高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性：kafka集群支持热扩展持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）高并发：支持数千个客户端同时读写 1.2 Kafka的使用场景：日志收集：一个公司可以用Kafka可以收集各种服务的log

订阅 solr