语音识别

计算机视觉中的对象检测,Python用几段代码就能实现

自古美人都是妖i 提交于 2020-04-17 21:34:16
目前计算机视觉(CV)与自然语言处理(NLP)及语音识别并列为人工智能三大热点方向,而计算机视觉中的对象检测(objectdetection)应用非常广泛,比如自动驾驶、视频监控、工业质检、医疗诊断等场景。 下面就是我们完整的代码实现(已调试运行): 如图所示,我们将会检测到红色区域 最终的效果图: 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://t.cn/A6Zvjdun 2020年最新Python教程: 如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗? 说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。 以上这些教程小编已经为大家打包准备好了,希望对正在学习的你有所帮助! 获取方式,私信小编 “ 资料 ”,即可免费获取哦! 来源: oschina 链接: https://my.oschina.net/u/4414278/blog/3269903

今日Paper|联合抽取;流式语音识别;差异学习;Skip-Thought向量等

烂漫一生 提交于 2020-04-17 20:02:41
   目录   在序列标注模型中使用位置注意力进行抽取实体与重叠关系的联合抽取   将混合CTC/Attention方法嵌入到Transformer结构中实现在线端到端的流式语音识别架构   基于人工反向修正数据的差异学习   利用一种基于多属性邻近度的方法从可比较的新闻语料库中挖掘事件   Skip-Thought向量    在序列标注模型中使用位置注意力进行抽取实体与重叠关系的联合抽取   论文名称:Joint extraction of entities and overlapping relations using position-attentive sequence labeling   作者:Dai Dai / Xinyan Xiao / Yajuan Lyu / Shan Dou / Qiaoqiao She / Haifeng Wang   发表时间:2019/7/17   论文链接:https://aaai.org/ojs/index.php/AAAI/article/view/4591   本文设计了一种基于位置信息和上下文信息的注意力机制,同时将一个关系抽取任务拆成了n(n为句子的长度)个序列标注子任务,一个阶段即可将实体、关系等信息抽取出来。   本文发表时在两个数据集上达到了SOTA,并且对于跨度长的关系、重叠关系表现尤其好。  

“停课不停学,科技教育工作者在行动”第四期在线公开课精彩回顾

十年热恋 提交于 2020-04-16 23:01:54
【推荐阅读】微服务还能火多久?>>>      2020年新学期,新型冠状病毒疫情复杂、严峻,为响应国家号召及“CAAI在行动”计划,CAAI中小学工作委员会专门搭建了“中小学人工智能教学示范平台”,面向全国委员、会员、科技教育工作者和副主任单位,征集了数百件中小学AI与信息科技课程资源。   CAAI中小学工委会在学会专家和学会秘书处指导下,从中甄选出数门相关优质课程,自3月20日起以线上直播形式向全国中小学教师和学生免费提供“停课不停学”线上公开课,真正做到了保卫校园安全,保障师生们身心健康,倡导利用网络平台,“停课不停学”。    第四期公开课回顾   2020年4月11日-12日,共有近900人次通过在线直播的方式参加了“停课不停学 科技教育工作者在行动”第四期在线公开课的学习。本期课程涵盖人工智能的人脸识别和语音识别,以及自然语言处理与情感分析的内容,还有“停课不停学”在线数字化学习与创新的实践的讲座。本期学员主要来自北京、上海、重庆、天津、吉林、安徽、辽宁、山西、山东、黑龙江、内蒙古、广东、河北、河南、新疆、西藏、陕西、江苏、浙江、湖北、甘肃、海南、湖南、贵州、云南、四川、福建、香港等地的科技教育工作者,其中88%为中小学的人工智能和信息科技一线老师。   4月11日,北京师范大学附属中学信息技术教师 张建彬 以在线直播授课的形式做了一节题目为 《初识人脸识别》

iOS info.plist 中的隐私权限

淺唱寂寞╮ 提交于 2020-04-15 16:51:48
【推荐阅读】微服务还能火多久?>>> 原文地址: https://www.jianshu.com/p/2a309504cec8 每次用到info.plist 文件中的权限都得进行百度,今天总结一下,方便以后项目中使用 a. 常用权限: <key>NSCameraUsageDescription</key> < string > " xxx”需要您的同意,才能访问相机,以便于拍照上传头像等 " </ string > <key>NSPhotoLibraryUsageDescription</key> < string > " xxx”需要您的同意,才能访问相册,以便于从相册获取图片上传头像等</string> <key>NSPhotoLibraryAddUsageDescription</key> < string >“xxx”需要您的同意,才能将保存图片到本地</ string > <key>NSLocationWhenInUseUsageDescription</key> < string >App需要您的同意,才能在使用期间访问位置</ string > <key>NSLocationUsageDescription</key> < string >App需要您的同意,才能访问位置</ string > <key>NSLocationAlwaysUsageDescription

《评人工智能如何走向新阶段》后记(再续23)

独自空忆成欢 提交于 2020-04-14 19:26:17
【推荐阅读】微服务还能火多久?>>> 364.DanielPovey领衔开发第二版语音识别开源工具Kaldi Kaldi集成了多种语音识别模型,包括隐马尔可夫和深度学习神经网络,被认为是世界语音识别框架的基石。 DanielPovey是著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为Kaldi之父。 Daniel毕业于剑桥大学获语音识别博士学位。后来在IBM研究院、微软研究院负责计算机语音识别工作,2012年Daniel加入约翰霍普金斯大学担任语言和语音处理中心系主任,2019年12月初正式加入小米,成为小米首席语音科学家,负责下一代Kaldi开发工作,并将其融入小米的产品和服务的应用中。 语音识别技术发展至今已在工业、医疗、教育、金融等各行业落地,识别准确率达到95~97%。 如此看来语音识别系统准确率已经很高了,但实际上这种高精准度仅仅针对某些特定的语音类型,现阶段要让机器来识别人们日常交流还是比较困难的,尤其是当周围环境掺杂着噪声、音乐,且多人同时发声时。 Daniel加入小米后,领衔开发基于PyTorch的下一代Kaldi丰版本,并服务于小米的手机+AIoT双引擎战略,将第二版Kaldi融入到小米的产品和服务的应用中。 目前基于语音识别的人机交互系统开始大规模应用,语音识别领域的技术突破和应用落地指日可待! 365.神经拟态芯片模仿人脑运作机制

中科院陶建华:语音技术现状与未来

六月ゝ 毕业季﹏ 提交于 2020-04-13 20:25:34
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。中科院陶建华老师为大家带来报告《语音技术现状与未来》。 陶建华,中国科学院自动化研究所所长助理、研究员、博士生导师,模式识别国家重点实验室副主任、中国科学院大学首席教授和人工智能学院院长助理,国家杰出青年基金获得者,国家万人计划领军人才,享受国务院政府特殊津贴。主要从事智能交互、大数据分析、模式识别等方向,在国内外主要期刊或会议上发表论文300余篇,研究成果多次在国内外学术会议上获奖

百度大脑开放日来袭 24种全新AI能力呈现

懵懂的女人 提交于 2020-04-10 18:11:53
本文作者:DuerOs 人工智能连续3年进入政府报告、“智能+”成为时代新命题,这些信息都显示2019年会是AI产业全面加速落地的一年。AI行业的发展,离不开千万开发者的助力。 3月20日,首场百度大脑开放日全新登场,介绍了全新开放的24种全新AI能力,AI赋能市政、物流、教育等行业的20个案例,也为向开发者、行业人士展现了如何搭上AI开放生态的高速列车。 百度大脑开放日来袭 作为百度在人工智能领域多年研究成果的集大成者,百度大脑正在飞速进步着。自2016年启动开放以来,百度大脑目前已经是服务规模最大的AI开放平台,开放了158项AI能力,24小时快速集成,开发者数量超过100万,面向广泛的企业和开发者提供最先进、最全面的AI能力,不断降低AI应用落地的门槛。 百度AI技术生态部总经理喻友平谈到,“在百度大脑的开放生态中,开发者一直是最为重要的一环。百度大脑开放能力不断加速,有很多有价值的技术难以被开发者了解。2019年百度大脑开放日全新登场,希望为AI开发者提供及时、全面、近距离地了解百度大脑最新AI产品和案例,且能深度、持续交流的平台。” 百度AI技术生态部总经理喻友平 首期开放日,喻友平介绍了百度大脑开源深度学习平台PaddlePaddle以及通用AI能力两方面的技术和产品更新,以及百度大脑在市政、物流、教育等行业的落地案例,与开发者们进行深度交流。 更广、更快

中科院陶建华:语音技术现状与未来

蹲街弑〆低调 提交于 2020-04-10 02:10:06
本文作者:HelloDeveloper 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。中科院陶建华老师为大家带来报告《语音技术现状与未来》。 陶建华,中国科学院自动化研究所所长助理、研究员、博士生导师,模式识别国家重点实验室副主任、中国科学院大学首席教授和人工智能学院院长助理,国家杰出青年基金获得者,国家万人计划领军人才,享受国务院政府特殊津贴。主要从事智能交互、大数据分析、模式识别等方向,在国内外主要期刊或会议上发表论文300余篇,研究成果多次在国内外学术会议上获奖。先后负责国家863重点项目、国家重点研发计划项目

对k210的初探——MixNo——图形化编程

元气小坏坏 提交于 2020-04-08 21:18:17
MixNo 市面上关于k210的开发板已经很多了,这次我很荣幸能够测评MixNo MixNo就像arduino一样具有具有低门槛入门,可玩性多样,可加拓展盾板可,加SD卡(加载人工智能模型)等优点。其中特别要说的是:其具有图形化编程的能力,且可以转换成micro python程序语句,且能够实现人脸识别、二维码识别、连接智能云平台,语音识别、操作和读取传感器、控制电机和舵机等功能。 我在入手1h后,就完成了扫码播放音乐的功能。 这是我的代码: 这是效果视频: 链接: https://v.youku.com/v_show/id_XNDYyMTIxNDU4NA==.html . 说一下使用后的感受,相比于我们常用的单片机而言,这款开发板的可玩性很高,能够满足AIOT各方面应用,把以前我们需要多个单片机配合使用的才能完成的困境打破了,使用这一款单片机就可以搞定人工智能+硬件。 顺便提一句:童芯创悟的MixNo技术顾问是真的友好。不论是关于MixNo的问题,还是元器件的问题,亦或是电路的问题,80后油腻大叔都会认真解答,不论多晚。我感觉买开发板最主要的就是看重售后。为他们的职业精神点赞!!! 有问题的可以加入QQ群:1056344043 来源: oschina 链接: https://my.oschina.net/u/4313521/blog/3224704

百度技术沙龙第34期 机器学习之多媒体方向的思考

穿精又带淫゛_ 提交于 2020-04-08 01:56:00
本文作者:HelloDeveloper 在 1 月 12 日由@百度主办、@InfoQ负责策划组织和实施的第 34 期百度技术沙龙活动上,来自百度的多媒体部副总监余凯和简网联合创始人、CTO 谷文栋分享了在机器学习方面的的经验与实践,话题涉及“深度学习进展以及在语音图像中的应用”和“个性化阅读产品实践”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。 本次沙龙是 2013 年的第一次沙龙活动,同时作为 2012 年的年度回顾,InfoQ 中文站创始人兼 CEO 霍泰稳阐述了 InfoQ 的宗旨以及在 2012 和 2013 年的变化。随后分享了《架构师》月刊在 2012 年的专题内容并展望了 2013 年的技术热点。在谈到媒体的责任时,他认为“不在于预测的有多准,而在于记录的有多真实”。最后他强调了 InfoQ 对于移动开发、云计算、大数据、HTML5 和 Node.js 等方面的关注。 本次沙龙还选出了 2013 年的 6 位百度技术沙龙观察员:邵磊、老杨、张俊林、石川、邓侃、沈强。在新的一年里他们将会搜集开发者的反馈,分享精彩观点,将更多精彩的内容呈献给大家。 主题一:深度学习进展以及在语音图像中的应用 百度的多媒体部副总监余凯第一个为大家分享,他谈到自从 80 年代起,以神经网络、支持向量机等为代表的浅层分类模型有了很大的进展,随后以 Kernel