聚类

通过群集在Spotify上分析我最喜欢的歌曲

纵饮孤独 提交于 2020-10-30 09:07:45
作者 | John Koh 来源 | Medium 编辑 | 代码医生团队 感谢 Spotify API ,能够提取和探索喜欢听的歌曲 - 那些让我点击那个心形图标的歌曲。 建立 要从 Spotify API 获取数据,需要使用以下步骤进行初始设置: 1.登录 Spotify for Developers 并创建一个应用程序。 https://developer.spotify.com/dashboard/ 2.从应用程序仪表板页面中,选择编辑设置并将重定 向 URI 设置为 http : // localhost : 8888 3.记下客户端 ID 和客户端密钥。 收集数据 可以使用 Spotpy Web API 的 Spotipy 来获取相关数据。要获取歌曲,需要生成授权令牌。 https://spotipy.readthedocs.io/en/latest/ import spotipy import spotipy.util as util from spotipy.oauth2 import SpotifyClientCredentials cid = '<INSERT CLIENT ID>' secret = '<INSERT CLIENT SECRET>' username = "" client_credentials_manager =

人脸识别,现在连动漫角色都不放过

大兔子大兔子 提交于 2020-10-29 16:36:28
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看过的动漫太多,以至于认角色时有点脸盲? 又或者,只想给自己的二次元老婆剪个出场合辑,却不得不在各大搜索引擎搜索关于她的照片? 试试爱奇艺推出的这个卡通人脸识别基准数据集 iCartoonFace ,用它训练AI帮你找动漫素材,效率分分钟翻倍。 对于脸型相近、但角色不同的二次元人物,能准确识别出来 (脸盲福音) : 如果人物视角出现变化,也能准确识别: 不仅如此,在人脸被大面积遮挡时,也能准确地识别出来: 至于阴影和光照也不在话下,哪怕站在树荫里,也能被AI“侦测”: 效果完全不输现有的真实人脸识别。 那么,这样的技术是怎么做出来的呢? 结合真人数据,训练卡通人脸识别 团队提出了一种卡通和真人的多人物训练框架,主要包括 分类损失函数 、 未知身份拒绝损失函数 和 域迁移损失函数 三部分,如下图所示。 其中,分类损失函数主要用来对卡通脸和真人脸进行分类。 而未知身份拒绝损失函数,则是为了在不同域之间进行无监督正则化投影。 至于域迁移损失函数,目的是降低卡通和真人域之间的差异性,对他们的相关性进行约束。 针对这个框架,研究者们探讨了三个问题:哪种算法最好?人脸识别是否有助于卡通识别?上下文信息对卡通识别是否有用? 从实验结果来看, ArcFace+FL 的效果最佳,所以此次团队选用了这个算法。 至于后两个问题的答案,也是肯定的

【全网首发】腾讯商业数据分析师培养计划

穿精又带淫゛_ 提交于 2020-10-28 15:47:08
核心知识点覆盖 Excel、Python、SQL、Pandas、Numpy、Matplotlib、PyEcharts可视化、数据指标、波士顿矩阵、数据建模、AARRR模型、漏斗模型、RFM模型、A\BTest、逻辑回归、线性回归、预测分析、K近邻算法、网络爬虫、数据化运营、用户画像体系构建 9大真实项目实战 全程直播教学 每个项目均由专业数据分析师 精心挑选 ,从数据到课程知识点设计,涵盖 0-8年 数据分析师必备专业技能和真实工作中的业务场景和所可能遇到的问题。 【项目1】 哔哩哔哩主站广告优化数据分析 【项目2】 哔哩哔哩会员购平台订单报表分析项目 【项目3】 亚马逊电商入驻商数据化运营项目 【项目4】 亚马逊电商入驻商用户画像分析 【项目5】 Kindle电子书多渠道发售商业分析项目 【项目6】 淘宝用户行为的用户价值分析 【项目7】 员工薪水探索性分析 【项目8】 门户网站的广告效果聚类分析 【项目9】 健身房会员体系消费行为分析 以《亚马逊电商入驻商用户画像分析项目》为例,下面是该项目涉及的内容。 项目教学大纲: 互联网电商平台入驻商数据分析思路 什么是用户画像体系(用户属性数据+行为数据) 为什么要搭建用户画像体系(获知自身的品牌定位和产品定位,梳理用户的搜索行为习惯) 用户画像的应用场景和业务价值 获客:如何进行拉新,通过更精准的营销获取客户 粘客:个性化推荐

商业智能bi行业现状,BI应用的3个层次

爷,独闯天下 提交于 2020-10-28 08:52:12
​商业智能bi行业现状。传统的报表系统技术上已经相当成熟,大家熟悉的Excel等都已经被广泛使用。但是,随着数据的增多,需求的提高,传统报表系统面临的挑战也越来越多。 数据太多,信息太少 密密麻麻的表格堆砌了大量数据,到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息。 难以交互分析、了解各种组合 定制好的报表过于死板。例如,我们可以在一张表中列出不同地区、不同产品的销量,另一张表中列出不同地区、不同年龄段顾客的销量。业务问题经常需要多个角度的交互分析。 难以挖掘出潜在的规则 报表系统列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大,产品之间相互关联的程度如何?越是深层的规则,对于决策支持的价值越大,但是,也越难挖掘出来。 难以追溯历史,数据形成孤岛 业务系统很多,数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大。    商业智能bi行业现状?随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着新的技术。目前国内报表系统领先者Smartbi报表的创新技术能较好的满足繁杂的业务需求。数据分析和数据挖掘的时代正在来临。值得注意的是,数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表

入门声纹技术(二):声纹分割聚类与其他应用

拥有回忆 提交于 2020-10-27 12:19:00
声纹识别技术是声纹技术中最为核心的一项,和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。 在10月19日的分享中,谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。第一讲回顾: 【机器之心】入门声纹技术第一讲_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 但是许多人误以为声纹技术等价于声纹识别,却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在 「从算法到应用,入门声纹技术」系列分享的第二讲中 ,王泉老师将着重介绍声纹技术除声纹识别之外的其他应用,声纹分割聚类便是其中最具代表性的应用,也就是关于「谁在什么时间说了什么」这个问题的答案。 10月26日,第二期分享 声纹分割聚类与其他应用 https:// u.wechat.com/MJznHqiyMH RcPKzhMIwL1K0 (二维码自动识别) 分享主题: 声纹分割聚类与其他应用 分享嘉宾: 王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中

“钻进”细胞,探寻病因!这款VR设备让科学家在你的身体漫步

久未见 提交于 2020-10-27 12:00:10
大数据文摘出品 来源:IEEE 编译:朱科锦 物理学家Richard Feynman1959年在加州理工学院的 “微观世界有无限的空间 ”演讲中激励他的听众们去研发功能更加强大的显微镜,这样生物学家就可以探索肉眼不能见的“惊人的小世界”。他说,如果我们能“看见那些东西”,回答基本的生物学问题就会变得容易得多。 几年后,在科幻电影《奇幻之旅》(Fantastic Voyage)中,一个潜艇队员将自己缩小到微观尺寸,并进入人体执行修复大脑损伤的任务。1966年的电影预告片中说,这部电影 “把你所知道和理解的世界的界限下拉”,把观众送到了 “前无古人、后无来者的地方”。 现在,科学家们将本世纪中叶物理学家和电影制片人的愿景结合在一起,形成了一种时髦的虚拟现实体验。在上周发表在《自然医学》上的一篇论文中, 研究人员描述了一款使科学家能够使用虚拟现实(VR)头盔进入细胞或其他生物结构内部并进行探索的新型软件。 这不是电脑生成的体验。超分辨显微镜拍下了这些活细胞的图像。然后,软件将显微镜中的二维数据转换为三维沉浸式可视化图像。这种新鲜的、近乎个人化的生物结构观察,可能让研究人员更好地了解细胞的内部运作,并寻找疾病的成因。 剑桥大学的生物物理化学家Steven Lee说: “我们正试图找到有趣的方法来‘看见这些东西’。” 他是该论文的共同作者

用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案

爷,独闯天下 提交于 2020-10-27 07:28:30
  机器之心报道    编辑:小舟、蛋酱    这三位程序员,用 BERT 捧走了 50 万人民币的高额奖金。   8 月 3 日,一年一度的腾讯广告算法大赛在深圳腾讯滨海大厦举办。   一直以来,腾讯广告都在不断寻找更为优秀的数据挖掘和机器学习算法。这场备受瞩目的算法盛事,今年已经是第四届。每一年的比赛都会吸引上万人参加,还催生出一个小型算法社区。   最终,由三位年轻程序员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额大奖。从初赛冠军、复赛冠军,再到最佳答辩,这三位程序员究竟靠的是什么?   DYG 团队由来自武汉大学计算机科学硕士、算法工程师王贺,中山大学 - 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强组成。值得一提的是,前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主。      左起:腾讯广告副总裁蒋杰,「DYG」战队王贺、郭达雅、梁少强。    比赛题目   今年腾讯广告算法大赛的题目是「广告受众基础属性预估」,和以往比赛分析广告转化率、预估曝光效率的传统思路不同,这次的赛题是一种逆向思考。   通常认为人们对于广告的偏好会因年龄和性别的不同而有所区别,许多行业的实践者已经验证了这一假设。但大多数采用的方法是在已有这些属性之后进行区分推荐,随后对比推荐效果。   而今年的赛题

1024,带你搭建第一个车道线检测网络LaneNet

喜欢而已 提交于 2020-10-26 11:01:17
文章目录 一、LaneNet 算法详解 1.1 LaneNet 简介 1.2 整体结构分析 1.3 LaneNet 网络结构 1.4 H-Net 网络结构 1.5 LaneNet 性能优点 二、手把手带你实现 LaneNet 2.1 项目介绍 2.2 环境搭建 2.3 准备工作 2.4 模型测试 1024,祝大家节日快乐!喜欢就给我点个赞吧,您的支持是我创作的最大动力! 资源汇总: 论文下载地址: https://arxiv.org/abs/1802.05591 github项目地址: https://github.com/MaybeShewill-CV/lanenet-lane-detection LanNet资料合集:https://pan.baidu.com/s/17dy1oaYKj5XruxAL38ggRw 提取码:1024 LanNet论文翻译: 车道线检测网络之LaneNet 一、LaneNet 算法详解 1.1 LaneNet 简介 传统的车道线检测方法 依赖于手工提取的特征来识别,如颜色的特征、结构张量、轮廓等,这些特征还可能与霍夫变换、各种算子或卡尔曼滤波器相结合。在识别车道线之后,采用后处理技术来过滤错误检测并将其分组在一起以形成最终车道。然而,由于道路场景的变化,这些传统的方法容易出现鲁棒性问题! 更新的方法 利用深度学习模型,这些模型被训练用于像素级车道分割

用scikit-learn学习DBSCAN聚类

前提是你 提交于 2020-10-26 05:31:27
    在 DBSCAN密度聚类算法 中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。 1. scikit-learn中的DBSCAN类     在scikit-learn中,DBSCAN算法类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类,除了对DBSCAN本身的原理有较深的理解以外,还要对最近邻的思想有一定的理解。集合这两者,就可以玩转DBSCAN了。 2. DBSCAN类重要参数     DBSCAN类的重要参数也分为两类,一类是DBSCAN算法本身的参数,一类是最近邻度量的参数,下面我们对这些参数做一个总结。     1) eps : DBSCAN算法参数,即我们的$\epsilon$-邻域的距离阈值,和样本距离超过$\epsilon$的样本点不在$\epsilon$-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大,则更多的点会落在核心对象的$\epsilon$-邻域,此时我们的类别数可能会减少, 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大,本来是一类的样本却被划分开。     2) min_samples : DBSCAN算法参数,即样本点要成为核心对象所需要的$\epsilon$

第03课:动手实战中文文本中的关键字提取

你说的曾经没有我的故事 提交于 2020-10-25 03:57:03
前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。 关键词抽取从方法来说主要有两种: 第一种是关键词分配:就是给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。 第二种是关键词提取:针对新文档,通过算法分析,提取文档中一些词语作为该文档的关键词。 目前大多数应用领域的关键词抽取算法都是基于后者实现的,从逻辑上说,后者比前者在实际应用中更准确。 下面介绍一些关于关键词抽取的常用和经典的算法实现。 基于 TF-IDF 算法进行关键词提取 在信息检索理论中,TF-IDF 是 Term Frequency - Inverse Document Frequency 的简写。TF-IDF 是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域,它经常用于因子加权。TF-IDF 的主要思想就是:如果某个词在一篇文档中出现的频率高,也即 TF 高;并且在语料库中其他文档中很少出现,即 DF 低,也即 IDF