VGG、ResNet、GoogleNet网络理论
本文作者:馬立 分享嘉宾:白浩杰 文章整理:马立辉 内容来源:百度云智学院 导读: 计算机视觉领域涉及许多不同任务,对于图像分类任务,人类一直在追求更高的分类精度,期间衍生了许多有代表性的经典网络结构,今天就来做个探讨。 本篇文章主要包含以下内容: 1.计算机视觉任务 2 图像分类应用案例 3.经典网络结构 1. 计算机视觉任务 计算机视觉通常涉及以下几个任务:图像分类、目标检测、语义分割/实例分割、场景文字识别、图像生成、人体关键点检测、视频分类、度量学习。相对而言,前四个任务已经有比较成熟的技术,工业应用比较广泛。 ① 图像分类 图像分类任务,需要根据在图像信息中所反映的不同特征,把不同类别的目标区分开来。例如,在给定的不同图片中,分类任务需要能够把图片主体识别出来,如给定下面两张图,经过图像分类程序的识别,能够识别出图1是猫,图2是狗。 图1 图2 ② 目标检测 目标检测任务不仅仅要识别图片主体,还要把主体所在的位置用最小包围矩形进行标记。如图3,图中的主体是一位小朋友和他手中拿的小锤子,通过目标检测,把主体所在的位置用最小包围矩形标记了出来。 图3 ③ 语义分割/实例分割 语义分割是指我们按照像素级别的精度,把图片的每一个像素属于哪一个类别标注出来。比如图4(c),黄色区域归于背景,蓝色归于瓶子。 实例分割相比语义分割更加复杂,不仅要求把哪一个像素属于哪一个类别标注出来