权重 | 易学教程

详细图解哈夫曼Huffman编码树

阅读更多关于详细图解哈夫曼Huffman编码树

1 引言　　哈夫曼（Huffman）编码算法是基于二叉树构建编码压缩结构的，它是数据压缩中经典的一种算法。算法根据文本字符出现的频率，重新对字符进行编码。因为为了缩短编码的长度，我们自然希望频率越高的词，编码越短，这样最终才能最大化压缩存储文本数据的空间。　　假设现在我们要对下面这句歌词“we will we will r u”进行压缩。我们可以想象，如果是使用ASCII码对这句话编码结果则为：119 101 32 119 105 108 108 32 119 101 32 119 105 108 108 32 114 32 117（十进制表示）。我们可以看出需要19个字节，也就是至少需要152位的内存空间去存储这些数据。　　很显然直接ASCII码编码是很浪费空间的，Unicode就更不用说了，下面我们先来统计一下这句话中每个字符出现的频率。如下表，按频率高低已排序： 2 哈夫曼二叉树构建 2.1 初始队列　　那么我们按出现频率高低将其放入一个优先级队列中，从左到右依次为频率逐渐增加。　　下面我们需要将这个队列转换成哈夫曼二叉树，哈夫曼二叉树是一颗带权重的二叉树，权重是由队列中每个字符出现的次数所决定的。并且哈夫曼二叉树始终保证权重越大的字符出现在越高的地方。 2.2 第一步合并　　首先我们从左到右进行合并，依次构建二叉树。第一步取前两个字符u和r来构造初始二叉树

【聊城seo公司】二级子域名和二级目录在做seo方面的差别

阅读更多关于【聊城seo公司】二级子域名和二级目录在做seo方面的差别

　　www.jinzhuseo.com/seo/ 　　这是一个子目录；　　news.jinzhuseo.com 　　这是一个二级域名。　　事实上，子目录是搜索引擎会认为这是网站的一个分类页，一般来说权重不会超过首页，二级子域名，搜索引擎会认为是一个网站，聊城seo公司它的权重和一个网站的首页权重是一样的。　　那么自己的网站如何选择子目录还是二级子域名？　　推荐使用二级域名的情况：　　1、新闻门户等大型网站的频道推荐使用二级域名，这样显得更专业; 　　2、子站跟主站完全不同，并且联系不大比如主站是文章CMS，子站是论坛，推荐使用二级域名，这样如果论坛或者主站发生错误，不影响另外一个的使用; 　　3、聊城百度seo为了优化某个竞争比较激烈的关键词，比如某个核心词排名前几的都是首页，这时候需要用二级域名来优化，也可以借力主站的权重和链接，但是周期比较长。　　4、独立于主站之外，想要新建立一个品牌，比如360公司，www.360.cn是360的主站，主要用于展示360所有的软件产品，而wan.360.cn是360游戏门户，独立于主站，使用了二级域名。　　聊城seo博客推荐使用子目录的情况：　　1、网站比较小，推荐使用子目录，这样既可以增加网站的总收录也可以增加网站的权重; 　　2、需要迅速收录并且有排名的次要关键词，因为子目录会继承主站的权重，所以子目录会快速收录

离散数学：每条边的权重均不相同的带权图有唯一最小生成树

阅读更多关于离散数学：每条边的权重均不相同的带权图有唯一最小生成树

假设存在两个最小生成树T，T‘，其边按权重升序排列分别为{e1, e2, ..., en}和{e1‘, e2‘, ..., en‘}。那么存在一个最小的k使得weight(ek)!=weight(ek‘)。（也即e1=e1‘, e2=e2‘, ... ek-1=ek-1‘）此时T‘中没有ek。不妨设w(ek)<w(ek‘)，则T‘+ek里必然会有一个环，而且这个环有除了 {e1‘, e2‘, ..., en‘}之外的边（否则在T中就会有这样的环）。删去任一这样的边，即可得到一个更小的生成树，这与T‘是最小生成树矛盾。由上，题设得证。原文：https://www.cnblogs.com/KakagouLT/p/9216441.html

【深度学习】Attention机制理解与总结

阅读更多关于【深度学习】Attention机制理解与总结

深度学习中Attention Mechanism详细介绍：原理、分类及应用目前主流的attention方法都有哪些？ Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销，这也是Attention Mechanism应用如此广泛的原因。之前在做知识库问答和阅读理解问答的研究中都用到了attention机制，效果确实比较显著（虽然减慢训练速度的效果也比较显著…）。在是谷歌发布论文 Attention Is All You Need 后，attention更是成为了一种普遍做法。后来发现在图像领域attention也有应用，在CNN上加attention感觉比较神奇，因此做一个小的总结。等读完这篇论文后，再来补充论文里的思想。 RNN with Attention 在nlp领域，attention主要应用在Encoder + Decoder框架的基础上。 attention最早应该出现在2014年bengio的neural machine translation论文上面，在seq2seq问题上引入attention CNN with Attention 主要分为两种，一种是spatial attention, 另外一种是channel attention。

Relation Networks for Object Detection [CVPR 2018]

阅读更多关于 Relation Networks for Object Detection [CVPR 2018]

https://zhuanlan.zhihu.com/p/37081185 https://blog.csdn.net/yaoqi_isee/article/details/78696954 Relation Networks for Object Detection 论文链接： https:// arxiv.org/abs/1711.1157 5 引入了object的关联信息，在神经网络中对object的relations进行建模。主要贡献点有两条： 1. 提出了一种relation module，可以在以往常见的物体特征中融合进物体之间的关联性信息，同时不改变特征的维数，能很好地嵌进目前各种检测框架，提高性能 2. 在1的基础上，提出了一种特别的代替NMS的去重模块，可以避免NMS需要手动设置参数的问题 1. Background 假设现在有一个显示屏幕，问这是电脑显示屏还是电视屏幕，该怎么判断？如果单纯把屏幕取出来，确实很难回答这个问题，但是如果结合周围的东西，就很好解决了……比如，放在客厅环境、旁边有茶几的是电视，而旁边有键盘和鼠标的是电脑显示屏；又或者，宽度有沙发那么大的是电视，而只比一般座椅稍大一点的是电脑屏…… 总之，周边其他物体的信息很可能对某个物体的分类定位有着帮助作用，这个作用在目前的使用RoI的网络中是体现不出来的

解决样本类别分布不均衡的问题

阅读更多关于解决样本类别分布不均衡的问题

今天学习了关于样本类别分布不均衡的处理的一些知识，在此和大家一起分享一下。什么是样本类别分布不均衡？举例说明，在一组样本中不同类别的样本量差异非常大，比如拥有1000条数据样本的数据集中，有一类样本的分类只占有10条，此时属于严重的数据样本分布不均衡。样本类别分布不均衡导致的危害？样本类别不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖与有限的数据样本而导致过拟合问题，当模型应用到新的数据上时，模型的准确性会很差。解决方法： 1.通过过抽样和欠抽样解决样本不均衡（1）过抽样（over-sampling）：通过增加分类中少数类样本的数量来实现样本均衡，比较好的方法有SMOTE算法。 SMOTE算法：简单来说 smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。具体的过程大家可以自行google。附上代码示例：(首先展示示例数据，本篇文章都用此数据) import pandas as pd from imblearn.over_sampling import SMOTE #过度抽样处理库SMOTE df=pd.read_table('data2.txt',sep=' ',names=['col1','col2

迁移学习实践的一些感受

阅读更多关于迁移学习实践的一些感受

　　工程实践结题了，研一生活暂告一段落，这两天在整理文档的过程中发现有些感悟可以记录下。工程实践是做一个图像分类模型，模型侧重点在于数据集中包含了医学类的图像，我们的目的就是能够从茫茫图像中找到它。　　完整工程代码在这： Github 　　　　出于硬件条件以及数据集来源的限制，我从一开始就想到了迁移学习的方法，利用已经训练成熟的模型去做调整。迁移学习有很多方式，可以大致分为三种：利用模型结构、提取瓶颈特征（bottleneck features ）、微调（Fine-tuning）　　　　这个是最基础的迁移学习，只利用别人的模型框架，所有权重重新训练。但是这种迁移学习并不适合设备条件差的我。。。　　简单来说，将图片数据input到已经训练好的模型（本文用的VGG16），但不是为了得到最后一层的output，而是从中间的某一层抽取出来作为bottleneck features。因为深度学习中间过程其实都是在提取特征，我们可以自己选择某一层作为bottleneck features。如下图：　　　　具体步骤：　　1：载入去掉top层的model 　　2：提取bottleneck features，保存到本地　　3：搭建小型分类模型，从本地读取bottleneck features，作为输入进行训练　　这种迁移学习的方式已经满足了我对准确率的要求，达到80% 　

选择器的权重比较

阅读更多关于选择器的权重比较

先比较ID个数 #id 再比较类个数 .clss 最后比较标签个数标签来源：博客园作者：吃辣条溜江湖链接：https://www.cnblogs.com/liyunchuan/p/11604699.html

如何让网页被百度收录以及提高它的排序？

阅读更多关于如何让网页被百度收录以及提高它的排序？

更多写作与参考学习材料等可登录 ZG文库网 http://www.zgwenku.com/下载。这个公众号定位主要给初入门不久对SEO以及网络营销感兴趣的人看的，嗯，也是免费的。在我的付费群或者加我个人微信朋友最近好几个在问我，我新网站怎么收录这么少啊，我老站了现在怎么收录反而变少了啊，我这个网页收录了怎么看不到我啊，我发的新闻稿怎么不在百度首页啊等等问题。太多太多了，我没有一一时间做回答，所以索性写这么一篇文章，详细来写写网页如何被百度（举例百度哈，其实谷歌，搜狗原理差不多）收录，以及收录了为什么排序不好。这也不只是针对新站收录问题哈。理论先行这次发标题写得有点官方，懂SEO的人看得懂。但白杨还是想再详细说一说。这标题里最核心三个关键词网页、收录、排序。网页，比如，www.baiyangseo.com首页，文章详情页 https://www.baiyangseo.com/blog/87.html 搜狐自媒体文章页 http://www.sohu.com/a/303064115_364521 这些都是网页，只是比如我的 www.baiyangseo.com这个叫首页，所以对SEO初学都要搞清楚。所以有人网站建了上线才三天就问我为什么发的文章没收录，我一看，他连网站首页都没收录，所以还没搞明白第一基础。收录，收录是什么概念呢，我就不百度了，我直接放下图。用白话来说

随机森林

阅读更多关于随机森林

##随机森林-分类 from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_classification #1.导入数据 #data = pd.read_csv(’’) #2.数据预处理 #略，最终生成x_train,y_train,x_test #导入sklearn的数据集 x_train, y_train = make_classification(n_samples=1000, n_features=4, n_informative=2, n_redundant=0, random_state=0, shuffle=False) #3.模型训练 clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0) clf.fit(x_train, y_train) #4.模型预测 #特征重要性 print(‘feature_importances:’, clf.feature_importances_) #构造数据 x_test = [[0, 0, 0, 0], [2, 6, 4, 4]] y_predict = clf.predict(x_test) print(y

订阅权重