计算机视觉

使用Google的Tesseract和OpenCV构建光学字符识别(OCR)系统

只愿长相守 提交于 2021-01-07 17:26:46
总览 光学字符识别(OCR)是计算机视觉领域中广泛使用的系统 了解如何为各种任务构建自己的OCR 我们将利用OpenCV库和Tesseract来构建OCR系统 介绍 你还记得考试期间我们必须填写正确答案的日子吗?或者你还记得在开始第一份工作之前进行的能力测验呢?我可以回忆起奥林匹克竞赛和多项选择测试,大学和组织会使用光学字符识别(OCR)系统对答卷进行大量评分。 老实说,OCR在广泛的行业和功能中都有应用,因此从扫描文档(包括银行对帐单,收据,手写文档,优惠券等)到阅读自动驾驶汽车的路牌,都在OCR的范畴内。 OCR系统在几十年前建造起来是非常昂贵和繁琐的,但随着计算机视觉和深度学习领域的进步意味着我们现在可以建立自己的OCR系统了! 但是,建立OCR系统并不是一件容易的事,对于初学者来说,面临着诸如图像中的字体不同,对比度差,图像中有多个对象等问题。 因此,在本文中,我们将探讨OCR任务的一些非常著名且有效的方法,以及如何自己实施。 如果你不熟悉目标检测和计算机视觉,建议你先阅读以下资源: 基本目标检测算法的介绍 https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1 计算机视觉课程 https:

谷歌师兄的刷题笔记.pdf

社会主义新天地 提交于 2021-01-07 07:59:41
高畅现在是谷歌无人车部门(Waymo)的工程师,从事计算机视觉和机器学习方向。 他在美国卡内基梅隆大学攻读硕士学位 时,为了准备实习秋招,他从夏天开始整理某 code 上的题目,几个月的时间,刷了几百道题目。 凭借着扎实的基础和长期的勤奋,他很快找到了如愿的工作。 入职前,闲暇的时候,他突然想到,自己刷了那么多题,而且对很多题目的解法有着总结,为何不把这些题目归纳总结一些,做成一个便于后来者阅读学习的电子书呢? 有了想法,作为行动派的他说干就干,于是这样一本制作精美且免费开源的书籍出现在大家面前。 引用他的话来说: 本书分为算法和数据结构两大部分,又细分了十五个章节,详细讲解了刷题时常用的技巧。我把题目精简到了101道,一是呼应了本书的标题,二是不想让读者阅读和练习时间过长。 这么做不太好的一点是,如果只练习这101道题,读者可能对算法和数据结构的掌握不够扎实。因此在每一章节的末尾,我都加上了一些推荐的练习题,并给出了一些解法提示,希望读者在理解每一章节后把练习题也完成。 整本书,我仔细看了一遍,并对书中的一些解题思路和代码进行校验。 从我的直观感受来说,这是一本用心的数据结构算法类书籍,全书总共 143 页篇幅,详细讲解算法的内容有十五个章节。 每个章节都是一些重要的知识点,伴有基础讲解和例题介绍,当然,也有一些推荐的练习题。 话不多说,让我们来看一下书的目录:

手写数字识别

泪湿孤枕 提交于 2021-01-06 16:57:17
本文作者:馬立 分享嘉宾:白浩杰 文章整理:马立辉 内容来源:百度云智学院 导读 上篇文章,我们重点讲解了卷积神经网络的基本概念及结构。本篇,我们将进行代码实战——完成手写数字识别任务。 本次实验代码是基于百度的深度学习框架—— 飞桨( PaddlePaddle )。 本篇文章主要内容包括: 1.创建实验资源 2.项目实战 3.总结 1. 创建实验资源 本次实验将在 百度云智学院实验平台 上进行,该平台已经为大家准备好实验所需环境。实验前,我们需要 创建实验资源 ,步骤如下: 《手写数字识别项目实战》地址为: http://abcxueyuan.cloud.baidu.com/newlab/#/lab_detail/lab_simple_say?id=116 打开该网址进入如下页面,点击: 开始学习 。在弹出的页面中点击 创建资源。 创建资源完成后点击 进入实验 。按以下步骤操作: 步骤一: 步骤二: 步骤三: 步骤四: 步骤五: 按照上述步骤完成实验资源的创建后,便可开始进行实验。 2. 项目实战 2.1 数据集介绍 当我们学习编程的时候,编写的第一个程序一般是打印出"Hello World"。而机器学习(或深度学习)的入门实验,一般是完成MNIST数据集上的手写数字识别任务。原因是手写数字识别属于典型的图像分类任务,比较简单。同时MNIST数据集也很经典

【杂谈】有三AI知识星球一周年了!为什么公众号+星球才是完整的?

淺唱寂寞╮ 提交于 2021-01-06 08:32:06
文/编辑 | 言有三 今天, 有三AI知识星球开设正好一周年 ,在有了微信公众号生态后,为什么我们还要做一个知识星球呢?为什么我们说每一个核心的有三AI粉丝一定是在知识星球里呢?今天来总结一下我们 知识星球的主要内容,它和公众号的关系,以及知识星球存在的必要性。 1 知识星球是什么 知识星球是一个 私密社区 ,以前叫做 小密圈 ,产品已经存在好几年了,有iOS和Android两个平台的APP,可以使用 微信小程序 阅读和 网页版 进行阅读,创业团队在深圳,腾讯投资,下面分别是用APP,小程序,网页打开我们知识星球的预览。 目前音乐和视频的优质内容付费订阅大家已经完全接受,知识星球作为一个 图文为主的付费社区 也是不错的补充,还可以做自由交流。 有三AI知识星球便是依托于知识星球APP,2019年3月12日创建,目前由 言有三全职独立运营 。 如果说过去的一年里微信公众号是有三AI的 第一免费生态 ,那么有三AI知识星球就是我们的 第一付费生态 ,两者的共同特点是, 只专注于做系统性的原创 。下面我们来重点介绍一下知识星球社区的特点,有了微信公众号,为什么我们还一定需要知识星球? 2 可以自由提问 公众号最缺失的内容是什么?实时的自由交流,这就是知识星球最重要的功能之一了。在星球里可以向 有三私信提问 ,也可以直接 自己发状态提问和大家交流 ,还可以向 嘉宾 提问

ResNet、Faster RCNN、Mask RCNN 是专利算法吗?盘点何恺明参与发明的专利

大憨熊 提交于 2021-01-05 18:01:24
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:我爱计算机视觉,52CV君 AI博士笔记系列推荐 周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称 "专利制度是给天才之火浇上利益之油" ,专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet

ECCV 2020 | 这个模型的脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

随声附和 提交于 2021-01-05 02:41:52
近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布。 选自arXiv,作者:Andreas Lugmayr等,编辑:小舟、魔王。 超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。 近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。 该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布 。 论文地址: https:// arxiv.org/pdf/2006.1420 0.pdf 项目地址: https:// github.com/andreas128/S RFlow? 研究者 使用单个损失函数 ,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性,并学习预测不同逼真度的高分辨率图像。此外,研究者利用 SRFlow

ECCV 2020 | 比GAN更强,ETH提出新型超分辨率模型SRFlow

有些话、适合烂在心里 提交于 2021-01-04 05:11:23
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。 选自arXiv 作者:Andreas Lugmayr等 编辑:小舟、魔王 近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow。该模型具备比 GAN 更强的脑补能力,能够根据低分辨率输入学习输出的条件分布。该论文已被 ECCV 2020 收录。 超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。 近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。 该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布 。 论文地址:https://arxiv.org/pdf/2006.14200.pdf 项目地址:https://github.com/andreas128/SRFlow (尚未开源) 研究者 使用单个损失函数 ,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性

校招 | 飞步科技2020夏季校招启动

末鹿安然 提交于 2021-01-03 14:39:05
注明:求职 求职招聘群 博士博士后招募、求职招聘、校园招聘、社会招聘和职场人生等信息,扫码添加CV君拉你入群,若已为CV君其他账号好友请直接私信。 我爱计算机视觉 微信号 : aicvml QQ群:805388940 微博/知乎:@我爱计算机视觉 投稿:amos@52cv.net 网站:www.52cv.net 在看,让更多人看到 本文分享自微信公众号 - 我爱计算机视觉(aicvml)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4580264/blog/4356475

DeepMind最新发现!神经网络的性能竟然优于神经符号模型

↘锁芯ラ 提交于 2021-01-01 18:42:37
来源: 新智元 本文 约1700字 ,建议阅读 5 分钟 根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低! [ 导读 ] DeepMind最新的研究结果再一次打破了传统认知——根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低!不仅如此,实验结果证实,神经网络的在关键任务上的效果还要更好。不需要预先训练,完全无监督,居然这么神奇? 按照之前的常识,结合了算法和符号推理技术的神经符号模型(Neurosymbolic Models),会比神经网络更适合于预测和解释任务,此外,神经符号模型在反事实方面表现更好。 而Neural-Symbolic,本质上其实是将现代数学中的分析学和代数学结合的产物。 分析学擅长处理数值、函数、逼近等问题, 代数学擅长处理推演、抽象、结构等问题,如果能适当将两者结合,会有很可观的效果。 然而,近日,DeepMind的研究人员声称, 在正确的测试条件下,神经网络的性能会优于神经符号模型。 与之前的研究结论相反,研究人员认为, 对于可以衡量高级认知功能并基于视觉的任务来说,基于分布式表示的神经网络模型确实表现良好, 并已经明显胜过了现有的神经符号模型。 在论文中,作者描述了一种关于视频的时空推理的体系结构,此结构可以学习到视频中的所有成分,并且所有中间的表示都贯穿分布在整个神经网络层中。 论文地址: https:/

异常检测(Anomaly Detection)综述

耗尽温柔 提交于 2020-12-31 03:33:47
作者丨阿尔法杨XDU@知乎 来源丨https://zhuanlan.zhihu.com/p/266513299 导读 异常检测是一个发现“少数派”的过程,本文将目前深度学习的异常检测的热门研究方向进行了分类,并列举了对应的文章,并推荐了值得一读的8篇新颖论文,帮助大家理解学习异常检测这一领域。 一、简介 异常检测一直是机器学习中一个非常重要的子分支,在各种人工智能落地应用例如计算机视觉、数据挖掘、NLP中,异常检测算法都是很热门的研究方向,特别是大数据时代,人工处理数据的速度已经远远赶不上机器了,所以更快地检测数据中的异常情况成为了我们当下非常重要的任务。在深度学习广泛的推广之前,传统的异常检测算法有很多,例如高斯拟合,半监督学习等等,而在深度学习大火之后,人们也开始研究将深度学习应用于各种异常任务中(也就是Deep Anomaly Detection,以下统称DAD),并取得了很大的成功,本文将把当下该方向热门的研究方向分类并列举了对应的文章,希望能帮助大家更好地理解此方向的研究。 二、异常检测的概念 异常检测,从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。例如在计算机视觉的应用中,有人在抖音发表一个视屏,在边骑车边打电话,那这就是个不符合规范的视屏,我们能否采用一些方式来将其检测出来,再例如在数据挖掘领域中,那异常检测的应用就更广泛了