权重

详细图解哈夫曼Huffman编码树

匿名 (未验证) 提交于 2019-12-03 00:36:02
1 引言    哈夫曼(Huffman)编码算法 是基于二叉树构建编码压缩结构的,它是数据压缩中经典的一种算法。算法根据文本字符出现的频率,重新对字符进行编码。因为为了缩短编码的长度,我们自然希望频率越高的词,编码越短,这样最终才能最大化压缩存储文本数据的空间。   假设现在我们要对下面这句歌词“we will we will r u”进行压缩。我们可以想象,如果是使用ASCII码对这句话编码结果则为:119 101 32 119 105 108 108 32 119 101 32 119 105 108 108 32 114 32 117(十进制表示)。我们可以看出需要19个字节,也就是至少需要152位的内存空间去存储这些数据。   很显然直接ASCII码编码是很浪费空间的,Unicode就更不用说了,下面我们先来统计一下这句话中每个字符出现的频率。如下表,按频率高低已排序: 2 哈夫曼二叉树构建 2.1 初始队列   那么我们按出现频率高低将其放入一个优先级队列中,从左到右依次为频率逐渐增加。   下面我们需要将这个队列转换成哈夫曼二叉树,哈夫曼二叉树是一颗带权重的二叉树,权重是由队列中每个字符出现的次数所决定的。并且哈夫曼二叉树始终保证权重越大的字符出现在越高的地方。 2.2 第一步合并   首先我们从左到右进行合并,依次构建二叉树。第一步取前两个字符u和r来构造初始二叉树

【聊城seo公司】二级子域名和二级目录在做seo方面的差别

匿名 (未验证) 提交于 2019-12-03 00:34:01
  www.jinzhuseo.com/seo/   这是一个子目录;   news.jinzhuseo.com   这是一个二级域名。   事实上,子目录是搜索引擎会认为这是网站的一个分类页,一般来说权重不会超过首页,二级子域名,搜索引擎会认为是一个网站,聊城seo公司它的权重和一个网站的首页权重是一样的。   那么自己的网站如何选择子目录还是二级子域名?   推荐使用二级域名的情况:   1、新闻门户等大型网站的频道推荐使用二级域名,这样显得更专业;   2、子站跟主站完全不同,并且联系不大比如主站是文章CMS,子站是论坛,推荐使用二级域名,这样如果论坛或者主站发生错误,不影响另外一个的使用;   3、聊城百度seo为了优化某个竞争比较激烈的关键词,比如某个核心词排名前几的都是首页,这时候需要用二级域名来优化,也可以借力主站的权重和链接,但是周期比较长。   4、独立于主站之外,想要新建立一个品牌,比如360公司,www.360.cn是360的主站,主要用于展示360所有的软件产品,而wan.360.cn是360游戏门户,独立于主站,使用了二级域名。    聊城seo博客 推荐使用子目录的情况:   1、网站比较小,推荐使用子目录,这样既可以增加网站的总收录也可以增加网站的权重;   2、需要迅速收录并且有排名的次要关键词,因为子目录会继承主站的权重,所以子目录会快速收录

离散数学:每条边的权重均不相同的带权图有唯一最小生成树

匿名 (未验证) 提交于 2019-12-03 00:33:02
假设存在两个最小生成树T,T‘,其边按权重升序排列分别为{e1, e2, ..., en}和{e1‘, e2‘, ..., en‘}。 那么存在一个最小的k使得weight(ek)!=weight(ek‘)。(也即e1=e1‘, e2=e2‘, ... ek-1=ek-1‘) 此时T‘中没有ek。不妨设w(ek)<w(ek‘),则T‘+ek里必然会有一个环,而且这个环有除了 {e1‘, e2‘, ..., en‘}之外的边(否则在T中就会有这样的环)。删去任一这样的边,即可得到一个更小的生成树,这与T‘是最小生成树矛盾。 由上,题设得证。 原文:https://www.cnblogs.com/KakagouLT/p/9216441.html

【深度学习】Attention机制理解与总结

匿名 (未验证) 提交于 2019-12-03 00:27:02
深度学习中Attention Mechanism详细介绍:原理、分类及应用 目前主流的attention方法都有哪些? Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因。 之前在做知识库问答和阅读理解问答的研究中都用到了attention机制,效果确实比较显著(虽然减慢训练速度的效果也比较显著…)。在是谷歌发布论文 Attention Is All You Need 后,attention更是成为了一种普遍做法。后来发现在图像领域attention也有应用,在CNN上加attention感觉比较神奇,因此做一个小的总结。等读完这篇论文后,再来补充论文里的思想。 RNN with Attention 在nlp领域,attention主要应用在Encoder + Decoder框架的基础上。 attention最早应该出现在2014年bengio的neural machine translation论文上面,在seq2seq问题上引入attention CNN with Attention 主要分为两种,一种是spatial attention, 另外一种是channel attention。

Relation Networks for Object Detection [CVPR 2018]

匿名 (未验证) 提交于 2019-12-03 00:22:01
https://zhuanlan.zhihu.com/p/37081185 https://blog.csdn.net/yaoqi_isee/article/details/78696954 Relation Networks for Object Detection 论文链接: https:// arxiv.org/abs/1711.1157 5 引入了object的关联信息,在神经网络中对object的relations进行建模。主要贡献点有两条: 1. 提出了一种relation module,可以在以往常见的物体特征中融合进物体之间的关联性信息,同时不改变特征的维数,能很好地嵌进目前各种检测框架,提高性能 2. 在1的基础上,提出了一种特别的代替NMS的去重模块,可以避免NMS需要手动设置参数的问题 1. Background 假设现在有一个显示屏幕,问这是电脑显示屏还是电视屏幕,该怎么判断?如果单纯把屏幕取出来,确实很难回答这个问题,但是如果结合周围的东西,就很好解决了……比如,放在客厅环境、旁边有茶几的是电视,而旁边有键盘和鼠标的是电脑显示屏;又或者,宽度有沙发那么大的是电视,而只比一般座椅稍大一点的是电脑屏…… 总之,周边其他物体的信息很可能对某个物体的分类定位有着帮助作用,这个作用在目前的使用RoI的网络中是体现不出来的

解决样本类别分布不均衡的问题

匿名 (未验证) 提交于 2019-12-03 00:22:01
今天学习了关于样本类别分布不均衡的处理的一些知识,在此和大家一起分享一下。 什么是样本类别分布不均衡? 举例说明,在一组样本中不同类别的样本量差异非常大,比如拥有1000条数据样本的数据集中,有一类样本的分类只占有10条,此时属于严重的数据样本分布不均衡。 样本类别分布不均衡导致的危害? 样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性会很差。 解决方法: 1.通过过抽样和欠抽样解决样本不均衡 (1)过抽样(over-sampling): 通过增加分类中少数类样本的数量来实现样本均衡,比较好的方法有SMOTE算法。 SMOTE算法:简单来说 smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。具体的过程大家可以自行google。 附上代码示例:(首先展示示例数据,本篇文章都用此数据) import pandas as pd from imblearn.over_sampling import SMOTE #过度抽样处理库SMOTE df=pd.read_table('data2.txt',sep=' ',names=['col1','col2

迁移学习实践的一些感受

匿名 (未验证) 提交于 2019-12-03 00:19:01
  工程实践结题了,研一生活暂告一段落,这两天在整理文档的过程中发现有些感悟可以记录下。工程实践是做一个图像分类模型,模型侧重点在于数据集中包含了医学类的图像,我们的目的就是能够从茫茫图像中找到它。   完整工程代码在这: Github      出于硬件条件以及数据集来源的限制,我从一开始就想到了迁移学习的方法,利用已经训练成熟的模型去做调整。迁移学习有很多方式,可以大致分为三种:利用模型结构、提取瓶颈特征(bottleneck features )、微调(Fine-tuning)      这个是最基础的迁移学习,只利用别人的模型框架,所有权重重新训练。但是这种迁移学习并不适合设备条件差的我。。。   简单来说,将图片数据input到已经训练好的模型(本文用的VGG16),但不是为了得到最后一层的output,而是从中间的某一层抽取出来作为bottleneck features。因为深度学习中间过程其实都是在提取特征,我们可以自己选择某一层作为bottleneck features。如下图:      具体步骤:   1:载入去掉top层的model   2:提取bottleneck features,保存到本地   3:搭建小型分类模型,从本地读取bottleneck features,作为输入进行训练   这种迁移学习的方式已经满足了我对准确率的要求,达到80%  

如何让网页被百度收录以及提高它的排序?

匿名 (未验证) 提交于 2019-12-03 00:05:01
更多写作与参考学习材料等可登录 ZG文库网 http://www.zgwenku.com/下载。 这个公众号定位主要给初入门不久对SEO以及网络营销感兴趣的人看的,嗯,也是免费的。在我的付费群或者加我个人微信朋友最近好几个在问我,我新网站怎么收录这么少啊,我老站了现在怎么收录反而变少了啊,我这个网页收录了怎么看不到我啊,我发的新闻稿怎么不在百度首页啊等等问题。 太多太多了,我没有一一 时间做回答,所以索性写这么一篇文章,详细来写写网页如何被百度(举例百度哈,其实谷歌,搜狗原理差不多)收录,以及收录了为什么排序不好。这也不只是针对新站收录问题哈。 理论先行 这次发标题写得有点官方,懂SEO的人看得懂。但白杨还是想再详细说一说。这标题里最核心三个关键词 网页、收录、排序。 网页, 比如,www.baiyangseo.com首页,文章详情页 https://www.baiyangseo.com/blog/87.html 搜狐自媒体文章页 http://www.sohu.com/a/303064115_364521 这些都是网页,只是比如我的 www.baiyangseo.com这个叫首页,所以对SEO初学都要搞清楚。所以有人网站建了上线才三天就问我为什么发的文章没收录,我一看,他连网站首页都没收录,所以还没搞明白第一基础。 收录, 收录是什么概念呢,我就不百度了,我直接放下图。用白话来说

随机森林

匿名 (未验证) 提交于 2019-12-03 00:03:02
##随机森林-分类 from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_classification #1.导入数据 #data = pd.read_csv(’’) #2.数据预处理 #略,最终生成x_train,y_train,x_test #导入sklearn的数据集 x_train, y_train = make_classification(n_samples=1000, n_features=4, n_informative=2, n_redundant=0, random_state=0, shuffle=False) #3.模型训练 clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0) clf.fit(x_train, y_train) #4.模型预测 #特征重要性 print(‘feature_importances:’, clf.feature_importances_) #构造数据 x_test = [[0, 0, 0, 0], [2, 6, 4, 4]] y_predict = clf.predict(x_test) print(y