sigma | 易学教程

【学习笔记】Devils in BatchNorm

阅读更多关于【学习笔记】Devils in BatchNorm

Devils in BatchNorm Facebook人工智能实验室研究工程师吴育昕该视频主要讨论Batch Normalization的一些坑。 Batch Norm后还有一个channel-wise仿射，是一个退化的卷积层，这里不讨论。 Batch Norm的训练和测试具有不一致性，测试时vanilla BN方法是更新一个exponential moving average，也就是图中的 $u_{EMA}$ 为什么可以训练和测试不一致？ DropOut和Data Augmentation也是这样——可以理解为训练是在测试的基础上加噪声，测试是训练的平均。不过噪声本身也是一种正则化。 BN什么时候会失败？当 $\mu_{EMA}$ ， $\sigma_{EMA}$ 不接近 $\mu_{B}$ 时， $\sigma_{B}$ 当EMA计算不合理当$ \mu_{B} $，$ \sigma_{B}$不稳定时 - 不能很好地近似 a）数据不稳定 b）不稳定的模型 EMA计算不合理的情况 \[\mu_{E M A} \leftarrow \lambda \mu_{E M A}+(1-\lambda) \mu_{B}, \sigma_{E M A}^{2} \leftarrow \cdots \] $\lambda$ 过小，EMA $\lambda$

概率论与数理统计总结

阅读更多关于概率论与数理统计总结

前置知识： $1.$ 高中数学相关知识。 $2.$ 高等数学（微分，定积分，不定积分，泰勒展开，极限等）定积分常用计算方式：牛顿—莱布尼兹公式：（ $F()$ 为 $f()$ 的原函数，即 $F^{'}()=f()$ ） \[ \int_a^b{f(x)dx}=F(b)-F(a) \] 泰勒中值定理 $1$ ： $f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)$ ，满足 $f(x)$ 在 $x_0$ 处有 $n$ 阶导数， $x$ 为 $x_0$ 的一个邻域中的任意值， $R_n(x)=o((x-x_0))^n$ 称为佩亚诺余项。泰勒中值定理 $2$ ： $f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)$ ，满足 $f(x)$ 在 $x_0$ 的某一邻域中有 $n+1$ 阶导数， $x$ 为 $x_0$ 该邻域中的任意值， \(R_n(x)=\frac{f^{n+1}(\xi)}{(n+1)!}(x

奇异值分解

阅读更多关于奇异值分解

我觉得线性代数中最主要的概念是基变换和矩阵分解。矩阵分解的本质就是基变换。选择不同的基，可以将矩阵分解为不同的形式。几种不同的线性变换 A A A 是一个 m ∗ n m*n m ∗ n 的矩阵，与 A A A 相关的4个空间如下：列空间C(A), 行空间R(A), 零空间N(A), A T A^T A T 的零空间 N ( A T ) N(A^T) N ( A T ) 奇异值分解是要在行空间和列空间各找一组基。 one set of basis of the row space of A: v 1 , v 2 , . . . , v r v_1, v_2,...,v_r v 1 , v 2 , . . . , v r , and one set of basis of the column space of A: u 1 , u 2 , . . . , u r u_1, u_2,...,u_r u 1 , u 2 , . . . , u r ，其中 r r r 是列空间和行空间的维度。 A v i = σ i u i , i = 1 , 2 , . . . , r Av_i=\sigma_i u_i, i=1,2,...,r A v i = σ i u i , i = 1 , 2 , . . . , r V = [ v 1 , v

假设检验说明小白版

阅读更多关于假设检验说明小白版

假设检验笔记第一步：做出的备择假设是所想要的结果以总体标准差已知的单个正态总体均值检验为例： 97 102 105 112 99 103 102 94 100 95 105 98102 100 103 这个时候我们怀疑工作不正常才会去做假设检验，为了验证我们的想法，所以原假设，备择假设为因为 ,,当工作不正常时，z的值自然会偏差比较大，这时候我们要有较大的把握认为与之间有较大的偏差。一般认为较大的把握是95%以上，也就是置信水平为95%，显著性水平为α=0.05，这时候这个z就应该落在图1中正态分布概率图的0.025分位点的右侧或-0.025分位点的左侧，等价于|z|也就落在了0.025分位点的右侧这样也就是如果|z|（右边的红点）> （左边的红点），那么我们就有95%以上的把握拒绝原假设喽，如果|z|< ，我们则没有充分把握来拒绝原假设，只好接受原假设。从p_value也就是P_值得角度来看，如果|z|（右边的红点）落在了的右边所对应的概率为 ,只要保证 >1-0.025，即1- <0.025= 就能说明有95%以上的把握认为工作不正常，拒绝原假设，这里P_=2*(1- ) MATLAB用ztest可以检验，代码如下 x=[97 102 105 112 99 103 102 94 100 95 10598 102 100 103]; mu0=100;

8.12总结

阅读更多关于 8.12总结

8.12总结得分 60+20+10 第一题打的是正解，常数太大GG T1 正解看到这题瞬间想到了跳房子那题。这题也很类似。用线段树维护从第l列某一行跳到第r列某一行的最小值。 T2 n,m<=100000 题面无力吐槽 20分暴力显然正解关键点一：推式子，巧妙地把问题转化为只用求covered[x] 关键点二：曼哈顿距离与切比雪夫距离的相互转换。 T3 n<=30 正解极大匹配：随便选择二分图里的一些边匹配，直到无法选任何一条边。（不一定是最大匹配）结论：若一个联通块的任意一个极大匹配都是完美匹配，那它一定是一个完全二分图（左边每个点都与右边每个点有连边）。现在初始给出的图构成了一些联通块。我们的目标是把那些联通块连起来使每一个联通块的 $\Sigma x_i=\Sigma y_i$ 。同时，代价就是 $(\Sigma x_i)^2$ （因为使总边数最小化就可以使需要添加的边最小化）状压dp。首先每一个联通块都可以表示为一个二元组(x,y)，我们可以把相同的二元组归为一类来减少状态数。设f[s][i]表示选了状态为s的二元组，最后一个联通块的 $\Sigma x_i=i$ f[s][j]=min(f[s][j],f[s1][j-b[i].s0]);枚举第i种二元组的一个转移 f[s][0]=min(f[s][0],f[s][j]+j*j)

Halcon图像分割

阅读更多关于 Halcon图像分割

auto_threshold(Image : Regions : Sigma : ) * 对单通道图像做自动阈值（灰度直方图确定）分割Sigma：灰度直方图高斯光滑核（标准差），光滑消除噪声，并且分割区域 binary_threshold(Image : Region : Method, LightDark : UsedThreshold) * 使用二值阈值进行图像分割，用于背景色与前景色色差较为分明的图像，自动选取Sigma值进行高斯光滑处理，光滑直到灰度直方图只有一个最小值，这个最小值就是阈值；Method：分割方法，只适用于具有双峰直方图的图像。　　　　smooth_histo方法提供了与bin_threshold操作符相同的功能。　　　　max_separability方法倾向于为UsedThreshold确定较小的值。此外，它对距离光谱其余部分很远的柱状图中孤立的薄峰不太敏感，而且通常比smooth_his更快LightDark：提取前景色还是背景色 'light' 'dark' char_threshold(Image, HistoRegion : Characters : Sigma, Percent : Threshold) * 为提取字符执行阈值分割，适用于不是很明显的出现极小值的情况（色差相对小）Image：用于提取字符的图像HistoRegion

TJU1042

阅读更多关于 TJU1042

这里参考了某人很弓虽的解法。对于数据a1,a2,a3,...,an。考虑sigma(i=1~j,ai)(j=1~n)这n个数当a(k-1),ak,a(k+1)变换一次成为a`(k-1)=ak+a(k+1),a`k=-ak,a`(k+1)=ak+a(k+1)以后， sigma(i=1~k-1,a`i) = sigma(i=1~k-2,ai) + a`k = sigma(i=1~k,a`i) sigma(i=1~k,a`i) = sigma(i=1~k-1,a`i) + a`k = sigma(i=1~k-1,a`i) sigma(i=1~k+1,a`i) = sigma(i=1~k,a`i) + a`k = sigma(i=1~k+1,a`i) 可以发现新的sigma(ai)数列中，仅仅是sigma(i=1~k-1,ai)和sigma(i=1~k,ai)换了一个位置。于是我们也就知道，如果能够用有限次交换从一个状态达到另一个状态，两个状态的sigma值可以一一对应起来。所以，我们将两个输入数据取和以后存到两个数组里，排序后一一判断，只有当两个数组完全相同时才输出有解。否则就无解。 #include < iostream > using namespace std; void Sort( long a[], int data); int main() { long data,n

Chapter 5 Exercises

阅读更多关于 Chapter 5 Exercises

Exercises 5.2-4 Given a permutation A, What is the expected number of indices i such that A[i] = i? The answer is amazingly a constant, 1. Lemma 5.1 The probablity of the permutation that no number is correctly placed D(n) = 1-1/1!+1/2!+...+(-1)^n/n! Let B[i] stands for the condition that permutation A satifies A[i] = i Thus D(n) = Pr{~B[1] and ~B[2] ... and ~B[n]} = 1 - C(1,n)*(n-1)! + C(2,n)*(n-2)! + ... + (-1)^n*C(n,n)*0! = 1-1/1!+...+(-1)^n/n! Then, let C[i] stands for the condition that permutation A has exactly i correctly-placed number According to the lemma, Pr{C[i]} = C(i,n)*(D(n-i)*

Chapter 11 Exercises and Problems

阅读更多关于 Chapter 11 Exercises and Problems

Exercises 11.2-3 Professor Marley hypothesizes that substantial performance gains can be obtained if we modify the chaining scheme so that each list is kept in sorted order. How does the professor's modification affect the running time for successful searches, unsuccessful searches, insertions, and deletions? The conclusion is: some constants may be optimized, but time complexity cannot be changed. There is a way to improve the time complexity of searches, but it's of little use. The time of successful search is identical, Θ(1+n/m), based on the identical analysis of the ordinary hashtable. If

订阅 sigma