https://arxiv.org/pdf/1905.13209.pdf
复杂版的slowfast
与之前的视频分类搜索网络evanet最大的区别在于,之前的evanet的meta-architecture框架固定,而且是单流的,搜索的是每个block中的层的组合;而assemblenet为多流的,block里的层的组合相对固定,主要搜索的是meta-architecture中每层的各个block的连接带来的提升;
connection learning guided evolution
每个block的输入是多流的(多个subnetwork),包括不同的类型(比如说RGB,光流),不同的时间间隔;每个block多流中的各个module之间的表征连接(连接学习,connectivity learning, concurrent or sequential);block同时也可以被合并分离来测试对应效果;
this is done by utilizing the learned connection weights to guide evolution, in addition to randomly combining, splitting, or connecting sub-network blocks
四个同等级的block层(不包含stem),每个block都是由多个2D residual module(1x1卷积+3x3 2D卷积+1x1卷积)和(2+1)D residual module(temporal kernel为3的时间1D卷积+3x3 2D卷积+1x1卷积)交替(即block内的结构相对固定,但有不同的temporal resolution和重复次数);
之前的搜索网络都是固定一个meta-architecture,然后在block进行每个层连接搜索;assemblenet是block之间的连接搜索,block内的搜索主要是1D时间膨胀卷积的temporal resolution和各个卷积核数目
Temporally Dilated 1D Convolution:控制每个block input的temporal resolution,就不用像在slowfast里手动挑选不同间隔帧数的输入
Block之间的连接只可能是从low level到high level的;连接方式是通过把需要用到的lower level特征做一个加权平均(若lower level特征之间channel数不同,则加1x1卷积;若尺寸不同,则加max pooling)
搜索结构的喜好:最上层block通常只有一个;最顶层下面一层与最顶层的连接比较简单;同层的block通常由很多个不同temporal resolution的block;通常喜欢用更多流;
来源:CSDN
作者:ystsaan
链接:https://blog.csdn.net/weixin_42388228/article/details/104158319