vlad

Utterance-level Aggregation for Speaker Recognition in The Wild

空扰寡人 提交于 2021-02-14 16:39:53
文章[1]主要针对的是语句长度不定,含有不相关信号的说话人识别。 深度网络设计的关键在于主干(帧级)网络的类型【the type of trunk (frame level) network】和有时间序列属性的聚合方法【the method of temporal aggregation】。 文中提出了一个强大的说话人识别深度网络,使用了一个“thin-ResNet” 网络结构,以及一个基于字典的NetVLAD[2]或者GhostVLAD层去在实践层面上聚合特征,这个可端到端训练。 文中实验在VoxCeleb1测试集上进行,证明该方法只需要更少的参数,并且SR(speaker recognition)性能优越。同时,调研了语句长度对网络性能的影响,得到结论:对于in the wild数据,a longer length is beneficial. 算法 对于SR,理想的模型应该有以下特性:1)处理任意长度的输入,得到一个定长的utterance-level descriptor;2)输出的descriptor应该是compat的,即低维表述,所需资源少,便于有效存储和恢复;3)输出descriptor应该是discriminative,例如不同说话人的descriptor之间的距离应该比同一说话人的大。 为了满足上述条件,本文采用 modified

如何设计一款赏心悦目的后台系统界面?

时光怂恿深爱的人放手 提交于 2020-12-13 00:53:30
“什么?后台系统界面还需要设计?不是功能齐全就行了吗?” 相信大部分人看到这个标题时,第一反应都是这样。因为在我们的认知里,后台系统主要是自己人看的,因此界面只需要功能齐全好用就行了,并不需要那么好看。但是随着技术的发展,以及大众审美的普遍提升,用户对于后台系统也有了更高的要求。 那么如何设计出赏心悦目的后台系统界面呢?小摹为大家整理了20个优秀的后台系统界面设计案例,希望能带给大家一些灵感。一起来看看吧~ 20个优秀设计案例赏析 1. 客服中心CRM系统-Firecall 设计师: Myroslav Kroka 这是一款针对用户呼叫中心、客服中心内部管理设计的CRM系统,包含权限管理、营销管理、日程管理、控制中心等页面,囊括了客服人员常用的功能。该设计最大的亮点就是界面设计干净漂亮。左侧导航栏采用了深色,用以区分导航栏与工作区,字体的大小和颜色也颇具亮点,凸显出了整款设计的层次感。相信对于每天要面对繁琐工作的客服人员来说,会有不错的体验。 2. 牙科诊所管理系统 设计师: Bagus Fikri 随着科技的发展,排队看牙医的时代已一去不复返,牙科诊所管理系统应运而生。这是一款专为牙科诊所设计的管理系统,包含数据统计、预约信息、日历、消息等页面。这款设计采用了大量有趣的交互动效,如鼠标悬停查看对应数据、弹窗及弹出面板等。这些巧妙的设计仿佛让高冷的牙科诊疗也变得活泼了起来。 3.

深度学习在三维环境重建中的应用

给你一囗甜甜゛ 提交于 2020-08-05 05:23:20
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 作者:黄浴 https://zhuanlan.zhihu.com/p/112103579 本文仅做学术分享,如有侵权,请联系删除。 最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉(MVS,multiple view stereo),就是多帧的立体匹配,这样采用CNN模型来解决也合理。传统MVS的方法可以分成两种:区域增长(region growing)和深度融合(depth-fusion)。当年CMU在美国超级碗(Superbowl)比赛展示的三维重建和视角转化,轰动一时,就是基于此路径,但最终没有被产品化(技术已经转让了)。 后者在机器人领域成为同步定位和制图(SLAM)技术,有滤波法和关键帧法两种,后者精度高,在稀疏特征点的基础上可以采用集束调整(BA,Bundle Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D数据),LOAM/Velodyne SLAM(激光雷达数据)等。运动恢复结构(SFM)是基于背景不动的前提,计算机视觉的同行喜欢SFM这个术语,而机器人的同行称之为SLAM。SLAM比较看重工程化的解决方案,SFM理论上贡献大。 另外,视觉里程计(VO

CF 1131A,1131B,1131C,1131D,1131F(Round541 A,B,C,D,F)题解

做~自己de王妃 提交于 2020-05-08 03:34:23
A. Sea Battle time limit per test 1 second memory limit per test 256 megabytes input standard input output standard output In order to make the "Sea Battle" game more interesting, Boris decided to add a new ship type to it. The ship consists of two rectangles. The first rectangle has a width of w 1 w1 and a height of h 1 h1, while the second rectangle has a width of w 2 w2 and a height of h 2 h2, where w 1 ≥ w 2 w1≥w2. In this game, exactly one ship is used, made up of two rectangles. There are no other ships on the field. The rectangles are placed on field in the following way: the second

codeforces_Codeforces Round #541 (Div. 2)_abc

杀马特。学长 韩版系。学妹 提交于 2020-05-06 09:51:55
A. Sea Battle time limit per test 1 second memory limit per test 256 megabytes input standard input output standard output In order to make the "Sea Battle" game more interesting, Boris decided to add a new ship type to it. The ship consists of two rectangles. The first rectangle has a width of w 1 w1 and a height of h 1 h1, while the second rectangle has a width of w 2 w2 and a height of h 2 h2, where w 1 ≥ w 2 w1≥w2. In this game, exactly one ship is used, made up of two rectangles. There are no other ships on the field. The rectangles are placed on field in the following way: the second

图像检索(5):基于OpenCV实现小型的图像数据库检索

白昼怎懂夜的黑 提交于 2020-04-20 17:13:46
本文对前面的几篇文章进行个总结,实现一个小型的图像检索应用。 一个小型的图像检索应用可以分为两部分: train,构建图像集的特征数据库。 retrieval,检索,给定图像,从图像库中返回最类似的图像 构建图像数据库的过程如下: 生成图像集的视觉词汇表(Vocabulary) 提取图像集所有图像的sift特征 对得到的sifte特征集合进行聚类,聚类中心就是Vocabulary 对图像集中的图像重新编码表示,可使用BoW或者VLAD,这里选择VLAD. 将图像集中所有图像的VLAD表示组合到一起得到一个VLAD表,这就是查询图像的数据库。 得到图像集的查询数据后,对任一图像查找其在数据库中的最相似图像的流程如下: 提取图像的sift特征 加载Vocabulary,使用VLAD表示图像 在图像数据库中查找与该VLAD最相似的向量 构建图像集的特征数据库的流程通常是offline的,查询的过程则需要是实时的,基本流程参见下图: 由两部分构成:offline的训练过程以及online的检索查找 各个功能模块的实现 下面就使用VLAD表示图像,实现一个小型的图像数据库的检索程序。下面实现需要的功能模块 特征点提取 构建Vocabulary 构建数据库 第一步,特征点的提取 不管是BoW还是VLAD,都是基于图像的局部特征的,本文选择的局部特征是SIFT,使用其扩展RootSift

你好AI丨20 篇聊天机器人领域必读论文速递!

烈酒焚心 提交于 2020-04-18 17:30:56
     聊天机器人(Chatbot)是经由对话或文字进行交谈的计算机程序。其能够模拟人类对话,通过图灵测试。自 1966 年以来人类从未停止过对聊天机器人的探索。现如今,苹果语音助手 Siri,微软的小冰、小娜、Rinna、Tay、Zo、Rukkkuh,亚马逊的Echo,百度的小度机器人,京东JIMI客服机器人,网易七鱼等 Chatbot 纷纷进驻到生活的各个领域,改变着我们的生活。       历史发展脉络    1966 年,MIT 的计算机科学家 Joseph Weizenbaum 发表了 ELIZA,它可以根据人工设计的脚本与人类交流,是世界上第一个模仿人类谈话的机器人; 1971 年, 斯坦福大学的 Kenneth Colby 开发出 Parry 聊天机器人,它模仿偏执狂患者,这是第一个通过图灵测试的聊天机器人; 1988 年,加州大学伯克利分校的 Robert Wilensky 等人开发了名为 UNIX Consultant 的聊天机器人系统; 1990 年,美国人 Hugh Loebner 设立 Loebner Prize,奖励首个与人类回复无差别的计算机程序,即聊天机器人系统; 1995 年,Richard Wallace 博士开发的 ALICE 系统允许用户自定义自己的聊天机器人,被认为是 20 世纪最伟大的聊天机器人。ALICE 在 2000、2001 和