AssembleNet笔记 | 易学教程

https://arxiv.org/pdf/1905.13209.pdf

复杂版的slowfast

与之前的视频分类搜索网络evanet最大的区别在于，之前的evanet的meta-architecture框架固定，而且是单流的，搜索的是每个block中的层的组合；而assemblenet为多流的，block里的层的组合相对固定，主要搜索的是meta-architecture中每层的各个block的连接带来的提升；

connection learning guided evolution
每个block的输入是多流的(多个subnetwork)，包括不同的类型(比如说RGB,光流)，不同的时间间隔；每个block多流中的各个module之间的表征连接(连接学习,connectivity learning, concurrent or sequential)；block同时也可以被合并分离来测试对应效果；
this is done by utilizing the learned connection weights to guide evolution, in addition to randomly combining, splitting, or connecting sub-network blocks
四个同等级的block层(不包含stem)，每个block都是由多个2D residual module(1x1卷积+3x3 2D卷积+1x1卷积)和(2+1)D residual module(temporal kernel为3的时间1D卷积+3x3 2D卷积+1x1卷积)交替(即block内的结构相对固定,但有不同的temporal resolution和重复次数)；
之前的搜索网络都是固定一个meta-architecture，然后在block进行每个层连接搜索；assemblenet是block之间的连接搜索，block内的搜索主要是1D时间膨胀卷积的temporal resolution和各个卷积核数目
Temporally Dilated 1D Convolution：控制每个block input的temporal resolution，就不用像在slowfast里手动挑选不同间隔帧数的输入
Block之间的连接只可能是从low level到high level的；连接方式是通过把需要用到的lower level特征做一个加权平均(若lower level特征之间channel数不同，则加1x1卷积；若尺寸不同，则加max pooling)

搜索结构的喜好：最上层block通常只有一个；最顶层下面一层与最顶层的连接比较简单；同层的block通常由很多个不同temporal resolution的block；通常喜欢用更多流；

来源：CSDN

作者：ystsaan

链接：https://blog.csdn.net/weixin_42388228/article/details/104158319

标签

block

卷积