计算机视觉

综述自动驾驶中的计算机视觉Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art(上)

只谈情不闲聊 提交于 2019-11-30 03:15:52
综述原文链接 https://arxiv.org/pdf/1704.05519.pdf 17年CVPR上的一篇关于自动驾驶和计算机视觉的综述,比较全面,大体整理一个提纲,重点关注比较新的研究成果,侧重于深度学习方面的。 1. History of Autonomous Driving 自动驾驶的历史 这一部分介绍了自动驾驶的项目和自动驾驶的比赛,包括比较出名的Google waymo,NVIDIA的Dave2,DARPA等,了解一下。 1.1 Autonomous Driving Projects 自动驾驶项目 PROMETHEUS 1986 Navlab 1988 VisLab及其衍生项目 10年之后 PROUD 2010 V-charge an electric automated car outfitted with close-to-market sensors Google Waymo 2009至今 Tesla Autopilot Nvidia DAVE2 Long Distance Test Demonstrations 1.2 Autonomous Driving Competitions 自动驾驶比赛 ELROB The European Land Robot Trial DARPA 2004 American Defense Advanced Research

计算机视觉领域热门研究方向state-of-art算法实时更新

萝らか妹 提交于 2019-11-30 03:13:18
目录 细粒度识别 目标检测 视觉目标跟踪 多目标跟踪 语义分割 人体解析 人体位姿估计 密集场景人脸识别(人脸计数) 超分辨重建 边缘检测(简笔画/素描) 人脸关键点检测 注意事项 本篇博客不再更新,建议大家使用 该链接 来寻找自己感兴趣的方向的最新论文!!! 细粒度识别 目标检测 Bottom-up Object Detection by Grouping Extreme and Center Points; 论文链接 ; 代码链接 ; Scale-Aware Trident Networks for Object Detection; 论文链接 ; Region Proposal by Guided Anchoring; 论文链接 ; AdaScale: Towards Real-time Video Object Detection Using Adaptive Scaling; 论文链接 ; Augmentation for small object detection; 论文链接 ; 视觉目标跟踪 SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks; 论文链接 ; Fast Online Object Tracking and Segmentation: A Unifying

【计算机视觉】相机成像模型四个坐标系的转换(世界坐标系,相机坐标系,图像坐标系,像素坐标系)

為{幸葍}努か 提交于 2019-11-29 19:22:04
世界坐标系,相机坐标系,图像坐标系,图像像素坐标系这四个坐标系的转换实质就是刚体变换、透视投影和数字化图像这几个成像里的步骤。 一、世界坐标系到相机坐标系 世界坐标系,也称为测量坐标系,它是一个三维直角坐标系(xw,yw,zw)。在世界坐标系中可以描述相机和待测物体的空间位置。世界坐标系的位置根据实际情况自行确定。 相机坐标系也是一个三维直角坐标系(xc,yc,zc)。相机坐标系的原点是镜头的光心,x、y轴分别与相面的两边平行,z轴为镜头的光轴,与像平面垂直。 世界坐标系到相机坐标系的变换是刚体变换,也就是只改变物体的空间位置(平移)和朝向(旋转),而不改变物体的形状。用旋转矩阵R和平移向量t可以表示这种变换。 在齐次坐标下,旋转矩阵R是正交矩阵,可通过Rodrigues变换转换为只有三个独立变量的旋转向量。因此刚体变换用6个参数就可以表示(3个旋转向量,3个平移向量),这6个参数就是相机的外参。相机外参决定了空间点从世界坐标系到相机坐标系的变换。 齐次坐标下可表示为 二、相机坐标系到图像坐标系 从相机坐标系到图像坐标系,属于透视投影关系,从3D转换到2D。 图像坐标系也叫平面坐标系,用物理单位表示像素的位置,单位是mm。坐标原点为摄像机光轴与图像坐标系的交点位置。 根据相似三角原理 在齐次坐标下表示为 这一步完成了相机坐标系到理想的图像坐标系的转换

人工智能新编程语言-Gen

与世无争的帅哥 提交于 2019-11-29 18:44:33
MIT 的一个研究小组正努力让初学者更容易入门人工智能,同时也帮助专家进一步推进这个领域的发展。 在 PLDI 大会(Programming Language Design and Implementation conference)上发表的一篇 论文 中,研究人员介绍了一种名为“Gen”的新型概率编程系统。用户无需处理公式或者手写高性能的代码即可编写多个 AI 应用领域的模型和算法,例如计算机视觉、机器人学以及统计学 。Gen 还可以让专业研究人员编写先前不可行的复杂模型和用于预测任务的算法。 例如,在他们的论文中,研究人员展示了一个简短的 Gen 程序可以预测 3-D 身体姿势,这个高难度的计算机视觉预测任务在自治系统、人机交互和增强现实中均有应用。这个程序包括执行图形渲染、深度学习和不同类型的概率模拟组件。与其他 早期系统 相比,这些不同技术的结合提高了这个预测任务的准确性和速度。 由于其简单性以及在某些情况下的自动化,研究人员表示,Gen 可以被任何人轻松使用,包括新手和专家。“这项工作的一个目的是让缺乏计算机科学或数学知识的人更容易入门自动化人工智能,”论文第一作者、电气工程和计算机科学博士 Marco Cusumano-Towner 说,“我们还希望提高生产力,能够让专家更轻松地快速迭代以及制作 AI 系统原型。” 研究人员还展示了 Gen 通过使用另一个 Gen

软件工程实践2019第二次作业

僤鯓⒐⒋嵵緔 提交于 2019-11-29 17:13:24
学习计划 上一篇讲到我想学习计算机视觉,计算机视觉又称computer vision。现在最火热的就是用神经网络中的卷积神经网络搭建构架来学习和识别的。其实在暑假我就已经接触了人工智能方面的书,早些年的人工智能更倾向于人去纠正错误,用人的总结经验来构建图像的特征,这虽然也算是智能,但是不能自我学习。从另外一方面来说,当时因为机能限制,而神经网络需要大量的计算资源,所以发展就更加受到了限制。近些年来,神经网络发展的速度迅猛,越来越受到大家的重视,因为它拥有自我纠正能力,利用反向传播来纠正之前的错误,这更加符合人的思维,也是我所感兴趣的地方。以下是我的学习计划的思维导图。 一阶段一阶段的循序渐进吧。 来源: https://www.cnblogs.com/qq898155390/p/11523879.html

计算机视觉

前提是你 提交于 2019-11-29 14:59:54
李飞飞那门计算机视觉课中提到的梯度应该就是数学中的导数吧,为什么要翻译成梯度呢,一开始都没看懂。 来源: https://blog.csdn.net/windmyself/article/details/100834662

面经-小米

家住魔仙堡 提交于 2019-11-29 08:31:56
面试时间:2019.09.09 现场面试 面试岗位:计算机视觉算法工程师/一面/正式批 面试时长:40Min 面试内容: 视频分类 Word2Vec 手写KNN 手写K-Means 面试评价:还可以 面试时间:2019.09.09 现场面试 面试岗位:计算机视觉算法工程师/二面/正式批 面试时长:40Min 面试内容: 自我介绍 聊方向 C++/Public/Protected/Private 内联函数优势 为什么需要虚函数 内存管理 面试评价:全部回答;感觉面试官对简历比较满意 面试时间:2019.09.09 现场面试 面试岗位:计算机视觉算法工程师/三面/正式批 面试时长:20Min 面试内容: 自我介绍 对小米的了解 优势和不足 期望薪资 工作地点 面试结果: 等通知 来源: https://www.cnblogs.com/LuckPsyduck/p/11494663.html

opencv 入门

本秂侑毒 提交于 2019-11-28 14:58:02
转载于 https://bolebook.com/201907/yousanai/yousanai20190703.html#【AI白身境】搞计算机视觉必备的OpenCV入门基础 01、什么是OpenCV? 它是一款由Intel公司俄罗斯团队发起并参与和维护的一个计算机视觉处理开源软件库。 作为一款优秀的计算机视觉库,在诸多方面都有着卓越的表现: 1.编程语言 多数模块基于C++实现,少部分基于C语言实现,同时提供了Python、Ruby、MATLAB等语言的接口。 2.跨平台 可自由地运行在 Linux、Windows和Mac OS 等桌面平台, Android、 IOS、BlackBerray 等移动平台。 3.活跃的开发团队 目前已更新至OpenCV4.0 4.丰富的API 完善的传统计算机视觉算法,涵盖主流传统机器学习算法,同时添加了对深度学习的支持。 OpenCV可以完成几乎所有的图像处理任务,下面是一个简要list。 视频分析(Video analysis) 3D重建(3D reconstruction) 特征提取(Feature extraction) 目标检测(Object detection) 机器学习(Machine learning) 计算摄影(Computational photography) 形状分析(Shape analysis) 光流算法

AForge.net简介和认识

吃可爱长大的小学妹 提交于 2019-11-28 07:42:21
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/chenhongwu666/article/details/41892415 AForge.net简介和认识 AForge.NET是一个专门为开发者和研究者基于C#框架设计的,他包括计算机视觉与人工智能,图像处理,神经网络,遗传算法,机器学习,模糊系统,机器人控制等领域。 这个框架由一系列的类库组成。主要包括有: AForge.Imaging —— 日常的图像处理和过滤器 AForge.Vision —— 计算机视觉应用类库 AForge.Neuro —— 神经网络计算库AForge.Genetic -进化算法编程库 AForge.MachineLearning —— 机器学习类库 AForge.Robotics —— 提供一些机器学习的工具类库 AForge.Video —— 一系列的视频处理类库 AForge.Fuzzy —— 模糊推理系统类库 AForge.Controls—— 图像,三维,图表显示控件 以下是部分方向的使用 1.基于符号识别的3D现实增强技术 2.基于模糊系统的自动导航 3.运动检测 4.2D增强技术 5.计算机视觉与人工智能 6.模拟识别 7.神经网络 8.图像处理 9.遗传算法 10.机器学习

计算机视觉笔记

∥☆過路亽.° 提交于 2019-11-28 01:24:37
计算机视觉是什么 计算机视觉 是一门研究如何使机器“ 看 ”的科学,更进一步的说,就是指用 摄影机 和 计算机 代替人眼对目标进行识别、跟踪和测量等 机器视觉 ,并进一步做 图像处理 ,用计算机处理成为更适合人眼观察或传送给仪器检测的图像(选自维基百科) 计算机视觉 的研究对象主要是映射到单幅或多幅图像上的三维场景,例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容。 应用: 人脸识别: Snapchat 和 Facebook 使用人脸检测算法来识别人脸。 图像检索:Google Images 使用基于内容的查询来搜索相关图片,算法分析查询图像中的内容并根据最佳匹配内容返回结果。 游戏和控制:使用立体视觉较为成功的游戏应用产品是:微软 Kinect。 监测:用于监测可疑行为的监视摄像头遍布于各大公共场所中。 生物识别技术:指纹、虹膜和人脸匹配仍然是生物识别领域的一些常用方法。 智能汽车:计算机视觉仍然是检测交通标志、灯光和其他视觉特征的主要信息来源。 计算机视觉主要应用: 1.图像分类 : 给定一组全部用单一类别标记的图像,我们被要求为一组新的测试图像预测这些类别并测量预测的准确性。但是有各种变化,如视点变化,尺度变化,类内变化,图像变形,图像遮挡,光照条件和背景杂波。 分为以下几步: 输入是一个训练数据集,由 N个 图像组成,每个图像都标有 K个 不同类别中的一个。