leaf | 易学教程

Elasticsearch文档

阅读更多关于 Elasticsearch文档

Elasticsearch文档一、elasticsearch查询子句：elasticsearch查询子句主要分为叶子子句和混合查询子句，其中term、match等等只能存在于查询json叶子位置的子句为叶子查询子句，像bool、must等等这些可以包含其他查询子句的为混合查询子句。官网解释： Elasticsearch provides a full Query DSL based on JSON to define queries. Think of the Query DSL as an AST of queries, consisting of two types of clauses: Leaf query clauses Leaf query clauses look for a particular value in a particular field, such as the match , term or range queries. These queries can be used by themselves. Compound query clauses Compound query clauses wrap other leaf or compound queries and are used to combine multiple queries

机器学习系列（三）决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量

阅读更多关于机器学习系列（三）决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量

写在前面：我是「nicedays」，一枚喜爱做特效，听音乐，分享技术的大数据开发猿。这名字是来自 world order 乐队的一首 HAVE A NICE DAY 。如今，走到现在很多坎坷和不顺，如今终于明白 nice day 是需要自己赋予的。白驹过隙，时光荏苒，珍惜当下 ~~ 写博客一方面是对自己学习的一点点总结及记录，另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对大数据与机器学习感兴趣，可以关注我的动态 https://blog.csdn.net/qq_35050438 ，让我们一起挖掘数据与人工智能的价值~ 文章目录随机森林--极限森林--梯度提升树（本章未写）：一：集成算法Ensemble learning 1）Bagging：训练多个学习器取平均 2）Boosting：从弱学习器开始加强，通过加权来进行训练 AdaBoost： 3）Stacking：聚合多个分类或回归模型（可以分阶段来做）二：集成模式下的竞争：随机森林--极限森林--梯度提升树 1）大名鼎鼎的随机森林：单个决策树随机了什么？怎么构建？随机森林得优势： 2）不极限的极限森林：单个决策树随机了什么？极限树与随机森林的主要区别：三：附录Scikit-learn的randomForest和ExtraTrees的参数说明：

无所不能的Embedding 1

阅读更多关于无所不能的Embedding 1

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行，所以拿word2vec来作为开篇再合适不过了。本文希望可以较全面的给出Word2vec从模型结构概述，推导，训练，和基于tf.estimator实现的具体细节。完整代码戳这里https://github.com/DSXiangLi/Embedding 模型概述 word2vec模型结构比较简单，是为了能够在大规模数据上训练，降低了模型复杂度，移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。让我们先把问题简化成1v1的bigram问题，单词i作为context,单词j是target。V是单词总数，N是词向量长度，D是训练词对，输入 \(x_i \in R ^{1*V}\) 是one-hot向量。模型训练两个权重矩阵, \(W \in R ^{V*N}\) 是输入矩阵，每一行对应输入单词的词向量, \(W^{'} \in R ^{V*N}\) 是输出矩阵，每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达，通过softmax得到每个单词的概率如下 \[\begin{align} h =v_{wI} &= W^T x_i \\ v_{w^{'}j

设计模式之7个结构型模式

阅读更多关于设计模式之7个结构型模式

结构型模式概述结构型模式(Structural Pattern) 描述如何将类或者对象结合在一起形成更大的结构，就像搭积木，可以通过简单积木的组合形成复杂的、功能更为强大的结构。结构型模式概述结构型模式可以分为类结构型模式和对象结构型模式类结构型模式关心类的组合，由多个类可以组合成一个更大的系统，在类结构型模式中一般只存在继承关系和实现关系。对象结构型模式关心类与对象的组合，通过关联关系使得在一个类中定义另一个类的实例对象，然后通过该对象调用其方法。根据“合成复用原则”，在系统中尽量使用关联关系来替代继承关系，因此大部分结构型模式都是对象结构型模式。适配器模式(Adapter) 桥接模式(Bridge) 组合模式(Composite) 装饰模式(Decorator) 外观模式(Facade) 享元模式(Flyweight) 代理模式(Proxy) 1适配器模式把客户类的请求转化为对适配者的相应接口的调用 1.1 优点将目标类和适配者类解耦，通过引入一个适配器类来重用现有的适配者类，而无须修改原有代码。增加了类的透明性和复用性，将具体的实现封装在适配者类中，对于客户端类来说是透明的，而且提高了适配者的复用性。灵活性和扩展性都非常好，通过使用配置文件，可以很方便地更换适配器，也可以在不修改原有代码的基础上增加新的适配器类，完全符合“开闭原则”

设计模式(8) 组合模式

阅读更多关于设计模式(8) 组合模式

组合模式透明模式与安全模式对组合的筛选遍历无论是在生活中还是项目中，我们经常会遇到具有“部分-整体”概念的对象，比如员工与团队的关系，这就类似树形结构，可能具有很多的嵌套层次和分支，把这种复杂性直接暴露给调用端是不合适的。组合模式借助组合模式，可以将这类具有“部分-整体”的对象组合成树形的层次结构，并使得用户可以对单个对象和组合对象采用相同的使用方式。 GOF对组合模式的描述为： Compose objects into tree structures to represent part-whole hierarchies. Compositelets clients treat individual objects and compositions of objects uniformly. — Design Patterns : Elements of Reusable Object-Oriented Software UML类图：组合模式包含三个角色： Leaf：叶子节点，代表单个个体，它没有子节点。 Composite：组合节点，既可以包含叶子节点，也可以包含其他的组合节点， Component：抽象构件，定义Leaf和Composite共有的方法和属性，可以定义一些默认的行为或属性。透明模式与安全模式在使用组合模式时，根据抽象构件类的定义形式

scikit-learn随机森林调参小结

阅读更多关于 scikit-learn随机森林调参小结

　　　　在 Bagging与随机森林算法原理小结中，我们对随机森林(Random Forest, 以下简称RF）的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项，以及和GBDT调参的异同点。 1. scikit-learn随机森林类库概述　　　　在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种Extra Trees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小，调参方法基本相同，本文只关注于RF的调参。　　　　和GBDT的调参类似，RF需要调参的参数也包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。下面我们就对这些参数做一个介绍。 2. RF框架参数　　　　首先我们关注于RF的Bagging框架的参数。这里可以和GBDT对比来学习。在 scikit-learn 梯度提升树(GBDT)调参小结中我们对GBDT的框架参数做了介绍。GBDT的框架参数比较多，重要的有最大迭代器个数，步长和子采样比例，调参起来比较费力。但是RF则比较简单

如何设计一款“高可用高性能”的发号器？

阅读更多关于如何设计一款“高可用高性能”的发号器？

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！背景在分布式场景中，很多地方需要生成全局唯一的id，如数据库分库分表后需要用唯一id代替单机版本的自增id。发号器的基本要求是全局唯一，无论如何都不能重复某些场景下还要求单调递增，如排序需求等。网上有很多介绍发号器的文章，比如美团的《Leaf——美团点评分布式ID生成系统》，有赞的《如何做一个靠谱的发号器》等。本文聚焦高可用，高性能高可用：不会因为系统故障导致服务不可用或发号重复高性能：发号器通常是一个非常高并发的系统，性能足够的同时也可以水平扩容在基本的要求下，常见的解决方案有哪些？他们是否是高可用，高性能的呢？ snowflake方案 snowflake 采用41位时间戳加10位机器id加12位序列号的方式生成，序列号在单一进程内可使用AtomicLong来生成，10位机器号可支持1024台机器该算法优点是：算法简单，易于实现，不依赖任何第三方系统，性能非常高；集群无状态，可随意扩缩容，可认为是高可用系统。缺点是：高10位的时间戳和低位自增序列号可保证单调增，但机器号无法保证，如机器号为2在某一时刻先生成id，机器号为1在同一时刻后生成id，则不能保证单调性；依赖时间戳，如果时钟回拨，可能会生成重复的id。综合来看

leetcode129（求根到叶子节点数字之和）--Java语言实现

阅读更多关于 leetcode129（求根到叶子节点数字之和）--Java语言实现

求：给定一个二叉树，它的每个结点都存放一个 0-9 的数字，每条从根到叶子节点的路径都代表一个数字。例如，从根到叶子节点路径 1->2->3 代表数字 123。计算从根到叶子节点生成的所有数字之和。说明: 叶子节点是指没有子节点的节点。示例 1: 输入: [1,2,3] 1 / \ 2 3 输出: 25 解释: 从根到叶子节点路径 1->2 代表数字 12. 从根到叶子节点路径 1->3 代表数字 13. 因此，数字总和 = 12 + 13 = 25. 示例 2: 输入: [4,9,0,5,1] 4 / \ 9 0 / \ 5 1 输出: 1026 解释: 从根到叶子节点路径 4->9->5 代表数字 495. 从根到叶子节点路径 4->9->1 代表数字 491. 从根到叶子节点路径 4->0 代表数字 40. 因此，数字总和 = 495 + 491 + 40 = 1026. 题目链接： https://leetcode-cn.com/problems/sum-root-to-leaf-numbers/ 解： 1、深度优先搜索（DFS）使用递归实现深度优先搜索，因为要先记录截止到当前节点的遍历值，所以是先序遍历。使用一个变量sum保存深度优先遍历的路径和。遍历每一个节点的时候，都传入截止到上一个节点的遍历值。如果当前节点是叶子节点，则将当前节点的遍历值

自己动手写SQL执行引擎

阅读更多关于自己动手写SQL执行引擎

自己动手写SQL执行引擎前言在阅读了大量关于数据库的资料后，笔者情不自禁产生了一个造数据库轮子的想法。来验证一下自己对于数据库底层原理的掌握是否牢靠。在笔者的github中给这个database起名为Freedom。整体结构既然造轮子，那当然得从前端的网络协议交互到后端的文件存储全部给撸一遍。下面是Freedom实现的整体结构，里面包含了实现的大致模块: 最终存储结构当然是使用经典的B+树结构。当然在B+树和文件系统block块之间的转换则通过Buffer(Page) Manager来进行。当然了，为了完成事务，还必须要用WAL协议，其通过Log Manager来操作。 Freedom采用的是索引组织表，通过DruidSQL Parse来将sql翻译为对应的索引操作符进而进行对应的语义操作。 MySQL Protocol结构 client/server之间的交互采用的是MySQL协议，这样很容易就可以和mysql client以及jdbc进行交互了。 query packet mysql通过3byte的定长包头去进行分包，进而解决tcp流的读取问题。再通过一个sequenceId来再应用层判断packet是否连续。 result set packet mysql协议部分最复杂的内容是其对于result set的读取，在NIO的方式下加重了复杂性。

广域网SDN架构

阅读更多关于广域网SDN架构

SDN（Software Defined Netrork）软件定义网络。在网络使用中升级SDN架构，是网络智能化演进的基础，是广域网网络升级的必然途径和必选项。一、背景 SDN概念的诞生已经有十多个年头，从近年来SDN技术发展与应用部署情况来看，数据中心领域技术发展成熟较早并迅速得到广泛应用，而国内大型互联网公司和运营商广域网领域相对发展要慢一些，究其原因还是由广域网的网络实际情况决定的。数据中心场景业务流量相对简单，主要是东西向流量的和南北向流量，相关数据中心SDN架构解决方案主要面向解决和处理好Overlay隧道层面流量的打通和调度。而广域网场景业务流量相对复杂，裸IP流量、MPLS业务流量，往往叠加到一起，同时还要考虑到广域网的互联互通情况中多互联互通出口流量的优化和调度。从网络规模和网络设备层面考虑，数据中心相对广域网是个小范围区域网络，在单个数据中心资源池新建时，完全可以直接采用较为成熟的SDN架构，单一资源池或者一个资源的一个POD内直接采用单厂家方案，不同的资源池之间或者同一个资源池的不同POD间通过标准的SDN北向接口实现异常家解耦。而广域网是个覆盖范围广大的网络，运营商级广域网单个AS域就可以有上千台路由器的规模，网络架构虽然一直向扁平化方向发展，但是远没有数据中心Spine-Leaf架构那么规整。广域网建设时为避免单厂家绑定，往往是异厂家设备混合组网

订阅 leaf