Delta

kudu记录-kudu原理

北慕城南 提交于 2021-02-20 04:47:35
1.kudu是什么? 2.kudu基本概念 特点:   High availability(高可用性)。Tablet server 和 Master 使用 Raft Consensus Algorithm 来保证节点的高可用,确保只要有一半以上的副本可用,该 tablet 便可用于读写。例如,如果3个副本中有2个或5个副本中的3个可用,则该tablet可用。即使在 leader tablet 出现故障的情况下,读取功能也可以通过 read-only(只读的)follower tablets 来进行服务,或者是leader宕掉的情况下,会根据raft机制重新选举leader。 基础概念: 开发语言:C++ Columnar Data Store(列式数据存储) Read Efficiency(高效读取)   对于分析查询,允许读取单个列或该列的一部分同时忽略其他列 Data Compression(数据压缩)   由于给定的列只包含一种类型的数据,基于模式的压缩比压缩混合数据类型(在基于行的解决案中使用)时更有效几个数量级。结合从列读取数据的效率,压缩允许您在从磁盘读取更少的块时完成查询 Table(表)   一张table是数据存储在 Kudu 的位置。表具有schema和全局有序的primary key(主键)。table被分成很多段,也就是称为tablets。 Tablet(段

uni-app学习记录03-路由跳转

点点圈 提交于 2021-02-18 16:53:53
<template> <view class="content"> <!-- v-show是相对于display: none --> <view v-show="false"></view> <!-- v-if是删除这个元素 --> <view v- if ="false"></view> <view>我是文本</view> <button type="primary" @click="toPath">跳转注册页面</button> <button type="primary" @click="toPath1">跳转未注册页面</button> <button type="primary" @click="toPath2">关闭当前页面再跳转</button> <button type="primary" @click="toPath3">可以返回几层页面 默认为一层</button> </view> </template> <script> import test from "../../components/test.vue" export default { data() { return { msg: "小白" , } }, methods: { toPath() { // 这个用于跳转到Tab注册过的页面 uni.switchTab({ url: "../shezhi

git提交到分支

心不动则不痛 提交于 2021-02-18 14:20:48
git checkout grego@gregoo:mygo$ git checkout origin/ test Note: checking out ' origin/test ' . You are in ' detached HEAD ' state. You can look around, make experimental changes and commit them, and you can discard any commits you make in this state without impacting any branches by performing another checkout. If you want to create a new branch to retain commits you create, you may do so (now or later) by using - b with the checkout command again. Example: git checkout -b < new -branch-name> HEAD is now at be427c9... Create README.md grego@gregoo:mygo$ git checkout master Switched to branch '

git项目提交及分支操作命令

心不动则不痛 提交于 2021-02-18 13:41:00
本地代码提交到远程仓库: 设置git用户名、邮箱 git config --global user.name xxx git用户名 git config --global user.email xxx git邮箱 将项目提交到主分支(master): git remote rm origin 删除现有远程连接 git init 初始化本地仓库 touch README.md 创建README.md文件 git add . 将修改的文件添加到暂存 git commit -m "first commit" 将暂存中的文件提交到本地当前分支 git remote add origin https://xxxxxxx.xx/xx/ 将本地仓库连接到远程仓库 git push -u origin master 将本地仓库文件push到远程master分支 将主分支代码pull到dev分支: git branch -a 查看远程全部分支 git checkout -b dev origin/dev 在本地创建dev分支并将远程dev分支更新到本地分支 git pull origin master --allow-unrelated-histories 将master分支强制更新到当前分支 (执行git pull origin master 抛出错误refusing to merge

【清华集训2016】数据交互

久未见 提交于 2021-02-18 09:51:05
题目描述 一个简单的网络系统可以被描述成一棵无根树。每个节点为一个服务器。连接服务器与服务器的数据 线则看做一 条树边。两个服务器进行数据交互时,数据会经过连接这两个服务器的路径上的所有服务 器(包括这两个服务器 自身)。每个数据交互请求都有一个非负的重要度,越重要的请求显然需要得 到越高的优先处理权。此外,如果 在某一个时刻存在一条非常重要(可以看作重要度无穷大)、且数 据量巨大的交互请求,则所有被该交互经过的 服务器都会优先处理这条交互并阻塞,从而导致其他通 过这些服务器的交互出现延迟。现在,你作为一个网络系 统的管理员,要监控整个系统的运行状态。 系统的运行也很简单,在每一个时刻,只有可能出现下列二种事件中 的一种: 1、在某两个服务器之间出现一条新的数据交互请求; 2、某个数据交互请求结束; 我们假设这些事件中的交互请求的数据量都足够小。你的任务是在每一个时刻的事件结束后,求出: 如果突然出现一条非常重要、且数据量巨大的交互请求 那么因其造成延迟的数据交互请求的重要度之和最大可能是多少? 题解 题目是要求:动态维护一些链的集合,每次操作后都要找出一条链,使得和它相交的所有链的权值和最大。 假设我们已经选择了一条链xy,那么我们可以把和它有交的所有链分为三种类型。 1、 LCA(x',y')=LCA(x,y) 这时我们应当在 LCA(x,y) 处贡献一次。 2、 deep

codeforces 920 EFG 题解合集 ( Educational Codeforces Round 37 )

允我心安 提交于 2021-02-16 19:59:37
E. Connected Components? time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output You are given an undirected graph consisting of n vertices and edges. Instead of giving you the edges that exist in the graph, we give you m unordered pairs ( x ,  y ) such that there is no edge between x and y , and if some pair of vertices is not listed in the input, then there is an edge between these vertices. You have to find the number of connected components in the graph and the size of each component. A connected component is a set of vertices X such

缺失值填写

倖福魔咒の 提交于 2021-02-16 19:26:40
空值填充算法 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。 有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。 有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关。 获取这些信息的代价太大。 系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。 缺失的类型 在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。 完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。 随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的

Python学习笔记(matplotlib篇)--坐标轴刻度

落爺英雄遲暮 提交于 2021-02-16 17:02:25
Python学习笔记--坐标轴刻度   参靠视频:《 Python数据可视化分析 matplotlib教程》链接: https://www.bilibili.com/video/av6989413/?p=6 所用的库及环境 :   IDE:Pycharm   Python环境:python3.7   Matplotlib: Matplotlib 1.11   Numpy: Numpy1.15.   Datetime :Datetime 坐标轴刻度 概念 当需要把x,y坐标轴刻度调整的更密集些或者更宽松点 学习如何调整x,y坐标轴刻度 坐标轴刻度调整  面向对象形式 pyplort形式 locater_params 介绍 文档: https://matplotlib.org/api/_as_gen/matplotlib.pyplot.locator_params.html#matplotlib.pyplot.locator_params 介绍:Control behavior of tick locators. 属性: axis: 介绍:此属性参数表示要操作的轴,默认是both, 如果想只改变x轴就把参数置位‘x’,y轴相同   可选参数:both,x,y   nbins: 介绍:表示要操作的坐标轴一共有多少格   可选参数:可以是数字,表示坐标轴一共有多少格,数字越大格越多,越密集

批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

谁都会走 提交于 2021-02-16 11:20:56
  梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式: 批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent) 。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来,我们将对这三种不同的梯度下降法进行理解。   为了便于理解,这里我们将使用只含有 一个特征 的线性回归来展开。此时线性回归的 假设函数 为: $$ h_{\theta} (x^{(i)})=\theta_1 x^{(i)}+\theta_0 $$   其中 $ i=1,2,...,m $ 表示样本数。   对应的**目标函数(代价函数)**即为: $$ J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2 $$   下图为 $ J(\theta_0,\theta_1) $ 与参数 $ \theta_0,\theta_1 $ 的关系的图: <div align="center"> ![](https://images2018.cnblogs.com/blog/1238724/201808/1238724

正排索引和倒排索引简单介绍

痴心易碎 提交于 2021-02-16 08:22:18
在搜索引擎中,数据被爬取后,就会建立index,方便检索。 在工作中经常会听到有人问,你这个index是正排的还是倒排的?那么什么是正排呢?什么又是倒排呢?下面是一些简单的介绍。 网页A中的内容片段: Tom is a boy. Tom is a student too. 网页B中的内容片段: Jon works at school. Tom's teacher is Jon. 正排索引: 正排索引是指文档ID为key,表中记录每个关键词出现的次数,查找时扫描表中的每个文档中字的信息,直到找到所有包含查询关键字的文档。 假设网页A的局部文档ID是 TA, 网页B的局部文档ID是 TB。那么对TA进行正排索引建立的表结构是下面这样的: 从上面的介绍可以看出,正排是以 docid 作为索引的,但是在搜索的时候我们基本上都是用关键词来搜索。所以,试想一下,我们搜一个关键字(Tom),当100个网页的10个网页含有Tom这个关键字。但是由于是正排是doc id 作为索引的,所以我们不得不把100个网页都扫描一遍,然后找出其中含有Tom的10个网页。然后再进行rank,sort等。效率就比较低了。尤其当现在网络上的网页数已经远远超过亿这个数量后,这种方式现在并不适合作为搜索的依赖。 不过与之相比的是,正排这种模式容易维护。由于是采用doc 作为key来存储的,所以新增网页的时候