聚类

小白入门必看!速成数据分析的五个关键知识点,最后一个90%的人都忽略了!

為{幸葍}努か 提交于 2020-10-02 04:03:25
无论是数据分析小白,还是进入数分行业好多年的老油条,包括很多公司和企业,很多人都不知道, 数据分析 究竟是什么,或者说数据分析的本质是什么。 很多人跟我抱怨从网上看到公司招数据分析师,进入了之后发现是做什么的呢?就是天天用sql取数给业务用,十分机械而且也没成就感。 这叫做数据分析吗?当然不叫。所以我们要先对数据分析有个整体的认知。 教科书上的定义我们就不看了,过于繁琐,很多刚刚接触数据分析的人都不一定能看得懂,因此我自己给数据分析下了个定义: 数据分析,就是针对某个问题,将获取后的数据用分析手段加以处理,并发现业务价值的过程。 大家可以看到我把五个关键词给标红了,这一句话,基本上可以包含数据分析所必须的流程点: 一、问题 首先第一个关键词是“问题”,我们可以把这个词解释“发现问题”或者是“目标问题”,这个关键词的核心是—— 目标 。 数据分析一定要有目标! 哪怕业务人员给你提出的问题或者需求,根本不是那么明确和清晰,你也要找到自己要分析的目标!这是太多人经常会犯的错误了,很多人知道数据分析要有目标,但是在实际过程中就成了摆设、花架子、无用功,最后你会变成了什么呢?就是取数机器。你会发现,你会陷入一个恶性循环,取数、发现没用-然后取更多的数-直到满足业务方的需求。 举个最简单的例子,业务方最近新上线了一个功能,想让你分析一下目前这个功能的使用情况。这时候你该怎么做?你会觉得

###好好好##BERT新转变:面向视觉基础进行预训练| NeurIPS 2019论文解读

£可爱£侵袭症+ 提交于 2020-10-01 23:47:14
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 论文作者: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee(佐治亚理工学院、俄勒冈州立大学、Facebook AI Research) 点此进入 “论文地址” 摘要 本文提出ViLBERT(Vision-and-Language BERT),该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型,在各自的流中处理图像和文本输入,这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练,再将其迁移应用到多个视觉-语言任务:视觉问答,视觉常识推理,指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。 ViLBERT代表了一种转向:从将学习视觉和语言之间的基础知识仅作为任务训练的一部分,转向将视觉基础知识作为一种可预训练和可迁移的能力。 介绍 视觉理解任务包括通过在图像

区别于传统低效标注,两种基于自然语言解释的数据增强方法

本秂侑毒 提交于 2020-10-01 23:16:45
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 秦禹嘉,清华大学电子工程系本科生,大二开始在清华大学自然语言处理实验室学习。导师刘知远副教授。主要研究方向为义原知识体系的完善与应用。 尽管深度学习模型已经在许多自然语言处理任务上取得了非常好的效果,它们通常依赖于大量的训练数据;然而在实际应用场景下,标注能力、训练数据并不充足的情况经常出现,因此如何让标注者高效率地标注是一个十分有意义的问题。 传统给出标签的标注方式在一定程度上限制了标注者能够提供的信息量,很多情况下我们不仅关注标注者打出的标签,更加关注于其打出该标签的理由。因此一种更加高效的做法是让标注者在给出标签的同时给出相应的自然语言解释来解释其做出该决定的原因。 本文将分享应用自然语言解释的一些挑战,并介绍目前应对这些挑战做出的探索和最新工作。 自然语言解释的概念与背景 如开篇所讲,深度学习的技术已经在许多自然语言处理的任务上取得了很好的效果,但是仍然还有两个问题没有解决。第一个是模型通常需要大量的数据。第二个是模型缺乏可解释性。 先看 data hungry 的问题,很多情况下我们并没有那么多的数据能够喂给模型

###好好好####多模态中的BERT

百般思念 提交于 2020-10-01 22:33:42
image BERT自问世以来,几乎刷新了各种NLP的任务榜,基于BERT的变种也层出不穷,在很多任务里都可以看到其身影。大浪淘沙,沉者为金,回想第一次看到BERT的论文时,确实不曾想其也能对工业界产生极大的影响。 本文尝试梳理今年BERT在多模态任务(主要涉及视觉和文本模态)上的一些工作,尝试比较各工作的主要思路以及做法上的区别,因此不会过多的涉及细节。总的来看,众多工作的主体模型大同小异,均使用Transformer,从表1(引用自VL-BERT论文)可以对各工作之间的相似和不同之处有个整体的认识。 image 可以看到,各方案之间的差异基本在于模态融合方式、预训练任务、以及下游任务微调,下文也将主要从这几个维度展开介绍和对比(排名不分先后)。 VideoBert image VideoBert主体采用单Transformer同时对文本token和视频片段进行模态表示和融合。与BERT区别在于把原来的句子对是否匹配(是否为下一句),换成了句子视频是否匹配任务。同时对于视频片段帧进行随机的MASK,预测对应的特征向量,文中叫visual words(通过预训练的视觉模型抽取得来,如S3D,然后聚类得到相应特征向量的id),对应于BERT的masked语言模型。 CBT image 和VideoBert不同在于,视频输入和文本输入分成了两支。视频输入经过S3D网络得到视觉特征序列

【机器学习】机器学习算法优缺点对比(汇总篇)

女生的网名这么多〃 提交于 2020-10-01 15:08:21
作者 | 杜博亚 来源 | 阿泽的学习笔记 「本文的目的,是务实、简洁地盘点一番当前机器学习算法」。文中内容结合了个人在查阅资料过程中收集到的前人总结,同时添加了部分自身总结,在这里,依据实际使用中的经验,将对此模型优缺点及选择详加讨论。 主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。「换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)」。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。

中科院在读博士带你全面了解“异常检测”领域

谁说我不能喝 提交于 2020-10-01 14:26:30
本文作者:张宇欣,中国科学院计算技术研究所博士生,研究方向为异常检测和深度学习。 本文对 异常检测 (Anomaly detection) 领域进行了一个较为全面的概述,主要介绍异常检测的问题定义、研究挑战、应用领域,以及主要研究方法。 什么是异常检测 不同于常规模式下的问题和任务,异常检测针对的是少数、不可预测或不确定、罕见的事件,它具有独特的复杂性,使得一般的机器学习和深度学习技术无效。 异常检测面临的挑战: 未知性 :异常与许多未知因素有关,例如,具有未知的突发行为、数据结构和分布的实例。它们直到真正发生时才为人所知,比如恐怖袭击、诈骗和网络入侵等应用; 异常类的异构性 : 异常是不规则的,一类异常可能表现出与另一类异常完全不同的异常特征。例如,在视频监控中,抢劫、交通事故和盗窃等异常事件在视觉上有很大差异; 类别不均衡 :异常通常是罕见的数据实例,而正常实例通常占数据的绝大部分。因此,收集大量标了标签的异常实例是困难的,甚至是不可能的。这导致在大多数应用程序中无法获得大规模的标记数据。 异常的种类: 点异常 (point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标; 条件异常 (conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的

AI为你拨开“阴霾”:机器学习在抑郁症治疗中的应用

 ̄綄美尐妖づ 提交于 2020-10-01 02:03:30
本文转载自公众号“读芯术”(ID:AI_Discovery)。 机器学习这一话题早已远远超出了它的起源——计算机科学,***到了众多的公共和私营行业以及各种不同的学术学科。尽管机器学习技术和人工智能(AI)这两个术语经常可以互换使用,但其实前者通常被认为是更广泛的人工智能(AI)领域的一个子集。 医疗保健业就是尝试将运用机器学习技术的领域之一。目前,医疗行业中应用最广泛的人工智能技术就是机器学习,它在改善患者身体健康以及心理健康等方面都有所涉足。 医疗保健行业内机器学习应用的目标一般是增强临床理解与改善患者护理。具体来说,越来越多的研究都将重点放在使用机器学习来改善患者的筛查、诊断、临床决策和特定治疗结果上。 相较于机器学习在身体健康领域的应用来说,它在心理健康领域的应用仍比较落后。不过我们很开心能看到,近年来有关机器学习改善人们心理健康方面的研究数量增长十分迅速。 心理健康是一个庞大的产业,这一领域的机器学习研究已经被应用到了大量的课题,包括药物治疗、临床诊断、心理治疗结果,它甚至可以预测严重精神疾病的发生。更具体地说,上述几个方面机器学习在心理健康领域的应用往往聚焦于某一特定的诊断群体,有时甚至会细化到该心理疾病的某一特定治疗方式。 目前机器学习研究中最普遍的诊断群体也是心理健康疾病中最普遍的病症——抑郁症。据估计,仅在美国

大数据平台搭建包含哪些层级

為{幸葍}努か 提交于 2020-09-30 21:48:39
  大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。而今天我们就来了解一下,常见的大数据平台都包含哪些层次?   1、数据采集层:分3个层面的采集技术进行支持,一是传统业务系统数据库和半结构化、结构化数据的采集和集成,如采用Sqoop技术进行关系数据库和Hadoop系统之间的数据抽取和交换;二是交通实时流数据的采集,包括实时传感器数据、定位轨迹数据和其他实时流数据;三是交通公共数据的采集,包括公网的数据爬取、开放平台的数据接口、行业公共数据库的数据交换等。对采集到的数据需进行提取、转换和加载(extract-transform-load,ETL)处理,包括数据抽取、转换、清洗和隐私脱敏等预处理工作,预处理集成后的数据进入交通大数据云存储中心。   2、数据存储层:交通领域数据规模巨大,数据存储层需设计基于云计算的分布式云存储系统,以支持海量数据的存储扩展。提供基于云的列式存储、NoSQL存储或数据仓库存储能力;根据业务需求和快速配置,可切换相应的分布式存储模式,还可根据需要对传统BI系统的数据仓库和数据集市进行集成。利用Hadoop集群提供PB级存储能力扩展,同时Hadoop YARN和Spark Mesos等集群资源管理框架可支持多种存储模式和计算模式在此基础上,对各类存储数据进行多粒度信息融合

印刷质量缺陷的视觉检测原理概述

▼魔方 西西 提交于 2020-09-30 16:57:27
点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 本文转载自「计算机视觉工坊」,该公众号重点在于介绍深度学习、智能驾驶等领域,一个小众的公众号。 一、应用背景 印刷品作为产品包装的一种主要形式,具有外观精美、清洁卫生、成本低廉、使用方便等优点,在众多行业得到了广泛的应用,其特点是材质多样、工艺复杂、质量要求高。 在本问题域中,印刷品主要涉及三个主要类型:不干胶标签、烟盒包装和塑料薄膜软包装。其中,不干胶标签主要包括:药品标签、电子产品标签、日化品标签、食品标签;烟盒包装包括:软盒包装和硬盒包装;塑料薄膜软包装主要包括:药品包装、食品包装、日化品包装。标签、烟包和软包装典型的产品图像如图1~图3所示。 图 1 药品标签 图 2 烟包 图 3 塑料软包装 印刷品生产过程中可能会产生各种各样的缺陷,如墨点、异物、文字残缺、漏印、色差、套印不准、脏点、刀丝、拖墨、划伤、溢胶、气泡等。这些缺陷一旦出现在产品包装上,产品视觉观感将大打折扣,严重影响产品的品牌、降低客户满意度。 目前,印刷企业主要以频闪灯照明、人工粗略局部抽检进行质量控制。由于人眼的局限性,质量得不到有效控制。随着用户对产品品质要求的不断提高以及行业竞争的加剧,传统的以人工抽检为主的质量检测手段已经严重制约了企业竞争力的提高,用自动化质量检测设备代替人工是必然趋势。 目前,市场中已经出现了多种自动化质量检测系统

美国AI博士指出:60天掌握Python全栈需要...

家住魔仙堡 提交于 2020-09-30 09:33:41
我见过市面上很多的 Python 讲解教程和书籍,他们大都这样讲 Python 的: 先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Python 的 list, dict, tuple 等数据结构,然后再介绍字符串处理和正则表达式,介绍文件等 IO 操作,再介绍异常处理, 就这样一章一章往下说。 虽然这样的讲解很全面,但是单纯的理论说明经常很枯燥,让人越看越累,越累越不想看。 那么,有没有比这更好的方法呢? 01 让 6600 多人选择的编程专栏 因为我也有过那段「自学」Python 的迷茫时期,所以我深知好的系统学习规划和生动的老师讲解,是事半功倍并且省下我们更多青春的关键。 所以我提炼出过往 5 年 多的工作经验,并和远在美国学府进修的 AI 博士后老师一起撰写了这个《Python 全栈 60 天精通之路》专栏。 别人在介绍知识点时都会说「这东西是什么」,但我不想这样做。我觉得「 为什么这东西是这样 」或者「 在什么场景、适应什么需求、有什么好处 ,才会用这东西」,反而更能让你们对知识本身有更深刻的理解。 1. 每天 1 小时 我将整个 Python 内容 按天划分 为 60 天 。即使你是上班族或者课业量较大的学生,也能轻松完成当天的课程任务。 少刷 1 小时动森或抖音,就能让你在成为 Python 全栈工程师的路上比别人更快几倍! 2. 案例教学