CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽、交互到共生
【今日推荐】:为什么一到面试就懵逼!>>> 纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是 自洽 的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的 交互 ,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的 共生 ,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如「道生一,一生二,二生三,三生万物」一般,赋予模型在各种视觉与语言任务上的生命力。 This monkey on the back of horse Disney made the best cake of all time using projection Tiny squid flopping around on the rocky bottom of fish tank 注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在 GitHub 上陆续公开( https://