聚类

数据挖掘-数据预处理的必要性及主要任务

狂风中的少年 提交于 2020-11-10 03:38:38
数据预处理的必要性及主要任务 1、数据预处理的必要性 数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。 2、数据预处理技术 (1)数据清理:可以用来清除数据中的噪声,纠正不一致。 (2)数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 (3)数据归约:可以通过如狙击、删除冗余特征或聚类来降低数据的规模。 (4)数据变换:可以用来把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量的挖掘算法的准确率和效率。 这些技术不是互相排斥的,可以一起使用。 3.为什么要对数据预处理 数据如果能满足其应用要求,那么它肯定是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性 数据质量的三个要素:准确性、完整性和一致性。 不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。 导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。 不完整数据的出现可能有多种原因

李继同

荒凉一梦 提交于 2020-11-09 01:00:05
姓名 李继同 出生年月 1994.08 学历 硕士 政治面貌 积极分子 籍贯 甘肃天水 从事行业 计算机 民族 汉族 邮箱 ljt_IT@163.com 技能证书 《数据库系统工程师》 2019.05 全国计算机等级考试二级《MySQL数据库程序设计》 2017.03 全国计算机等级考试二级《C语言程序设计》 2016.09 主要荣誉 美国大学生数学建模H(二等)奖 河北省第三届研究生数学建模竞赛三等奖 2020年硕士研究生一等奖学金 重庆邮电大学数学建模二等奖 北方工业大学第四届信息类研究生学术论坛三等奖 硕士阶段 2018.09 - 至今 北方工业大学 计算机学院 计算机科学与技术 主修课程 机器学习,高级算法设计,数据挖掘,人工智能,数据科学,软件工程等 主要经历 参与 国家自然基金项目 1项:《基于车辆轨迹的车联网服务信息传递机制研究》 参与 北京市教委科研计划一般项目 1项:《车联网信息传递机制研究》 参加 第十三届中国物联网学术会议 (CWSN2019)并 作学术报告 主要项目 ( Linux平台 Python实现) 2018.09 - 2019.09 基于目的地预测的车联网信息转发机制研究 (国家自然基金项目) 项目简介 使用 贝叶斯模型 和 LSTM模型 预测车辆的目的地,基于目的地预测提出了一个 信息转发机制 ,该机制利用 多目标优化 的方法可使信息转发的

你和 BAT 的数据分析师差在哪儿?

纵饮孤独 提交于 2020-11-07 16:55:32
说起近几年热门高薪的工作,数据分析师绝对算得上头牌。 一方面薪资高,打开拉勾招聘 App 就会发现,数据分析师的岗位薪资都是20K起。 另一方面,数据分析师目前依旧还是企业的强需求,大量的企业都很难招到合格的数据分析人员。(Burning Glass Technologies的数据显示,未来 10 年,数据分析师的工作预计还将增长 14.3%。) 那么问题来了—— 你的薪资水平,达到均值了么? 你觉得你是心仪公司的“香饽饽”吗? 坦诚地讲,目前虽然有很多人在从事数据分析的岗位,但最多只能叫“提数机器”。他们的典型特征就是:半路出家、不懂业务、不懂技术。 15 年,你会用 Excel,会查 SQL 数据库,那你不难找到一份数据相关的好工作。 后来,你得会做 BI 可视化,会用 SPSS 做数据挖掘,能做漂亮的报表,还得了解点 Python …… 现在,MySQL 、 Python 、 BI 这些都是数据分析的基础技能,除此之外,你还要懂统计、数据清洗、特征工程、建模、算法…… 而且互联网红利期已经过去,凭“感觉”,靠“经验”去做决策的风险越来越大,只有通过高质量的数据分析,才能更加直观高效准确。 这也从业务需求上,倒逼数据从业者有更高的数据分析能力。对于那些底层数据分析师,高薪前景都与他们无关,还面临随时被踢出局的风险。 到底该如何有效提升数据分析能力,制胜职场? 这个双十一

构建数据相似系统

。_饼干妹妹 提交于 2020-11-06 08:36:54
一、基于共享码片构建(难度高)   经调研,没有开源工具可以做共享代码构建,如Bindiff可以分析两个样本之间相似阈值和代码可视化,接口可以批量对样本进行相似分析,但仍是两个样本之间关联,无法做到多样本关联。   共享代码定义:完整的反汇编(过滤系统API汇编代码),意图只保留病毒本身汇编(跟系统和其它无关),使用算法切割(类似于Minhash这种切割)。 应用价值:   用法一:提取不同家族共享代码,通过算法产出代码聚类和结论,关联不同组织代码共性,完善情报分析(目前很多国外情报和安全公司使用的方法之一)。   用法二:以不同家族为主节点,通过代码片段构建共享代码相似系统(匹配搜索系统)。   用法三:共享代码数据可以提供给算法团队(如果他们有需求),用于数据建模和数据挖掘。   二、基于MInhash构建(难度折中)    先尝试PE格式,如sys,dll,exe计算不同类型的Minhash,或直接构建样本集总Minhash。 应用价值:    用法一:设置阈值大于0.8为相似样本,借助BinDiff批量对比筛选或人工根据文件类型对比,分析共享代码,完善情报分析。 emsp; Hellsing和APT15之间效果图(100以内样本): Hellsing样本集生成数据库:   输入APT15样本集计算相似阈值,如果出现下述意味着没有命中:   以APT1为列子生成数据库

毕业设计之 --- 基于协同过滤的商品推荐系统

末鹿安然 提交于 2020-11-05 14:19:34
简介 推荐系统,是当今互联网背后的无名英雄。 我们在某宝首页看见的商品,某条上读到的新闻,某度上的搜索列表,甚至在各种地方看见的广告,都有赖于推荐算法和系统. 本片文章讲述有哪些常用的推荐算法, 协同过滤推荐算法的原理, 以及如何使用协同过滤算法设计一个商品推荐毕业设计系统. 常见推荐算法 协同过滤 协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,就是通过在线数据找到用户可能喜欢的物品,而离线过滤,则是过滤掉一些不值得推荐的数据,比比如推荐值评分低的数据,或者虽然推荐值高但是用户已经购买的数据。 协同过滤的模型一般为m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。 一般来说,协同过滤推荐分为三种类型。第一种是基于用户(user-based)的协同过滤,第二种是基于项目(item-based)的协同过滤,第三种是基于模型(model based)的协同过滤。 基于用户的协同过滤的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的用户群,然后基于这些用户的历史偏好,为当前用户进行推荐。 假设用户A喜欢物品A、物品C,用户B喜欢物品B

NeurIPS 2020 | 港中文MMLab自步对比学习: 充分挖掘无监督学习样本

穿精又带淫゛_ 提交于 2020-11-05 08:20:39
作者: 香港中文大学多媒体实验室三年级博士生 葛艺潇 NeurlPS 20 20系列论文解读 第·2·期 NeurlPS 2020工作分享 火热报名中... 投稿方式: ① 点击文末“ 阅读原文 ” ② 在公众号后台回复“ 投稿 ”查看详情 本文介绍一篇 港中文MMLab 发表于 NeurIPS 2020 的论文 《 Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID 》。 该工作提出 自步对比学习框架及混合记忆模型 ,旨在解决无监督及领域自适应表征学习中数据无法被充分挖掘的问题。 这项工作在无监督的目标重识别任务上显著地超越最先进技术高达 16.7% ;领域自适应的目标重识别任务中,在 无监督 的目标域上超越最先进技术高达 5.0% ,同时可以提升有监督的源域性能高达 6.6% 。实验结果充分证明其广泛的应用场景及有效性:可被应用于解决无监督学习任务,也可被应用于利用额外无监督数据提升有监督学习的任务。 另外,葛艺潇的Talk “ 无监督及领域自适应的目标重识别 ” 将会在 11月5日(周四) 晚8点 在TechBeat准时开播,感兴趣的同学可以复制下方链接预约! https://www.techbeat.net/talk-info?id=456 论文链接:

一起学SPSS文章总目录

久未见 提交于 2020-11-03 07:24:20
【重磅】中山医人微信订阅号介绍(V 1.4版) 《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》 配套教学视频 不断制作及持续更新ing…… 【SPSS入门】软件界面的语言设置方法 SPSS Statistics 24.0 抢鲜看 【我问一起学SPSS】卡方值后面为什么有个小a? 【一起学Minitab】聚类分析:Q型聚类 【一起学SPSS】订阅号使用技巧 回复“ SPSSD “获取PPT下载网址 00 统计综合知识 随机化意义的流行病学阐释 关于医学科研设计的若干要点(建议收藏备查) 统计方法选用手册,以后再也不用问别人啦! 有这样一门学科,叫做流行病学 在临床流行病学的基础上谈循证医学 SCI论文常见的统计学问题和处理方法 加强风湿病临床研究力度 如何识别和控制临床研究中的混杂与偏倚 临床研究方法学(一):如何寻找临床研究题目? 临床研究方法学(二):疾病预后研究的设计与分析方法 临床研究方法学(三):因果关系的推导及一些相关的概 念 临床研究方法学(四):确定实验室指标的临床意义与诊断试验 临床研究方法学(五):治疗学研究的设计与分析方法 临床研究方法学(六): 临床医学论文书写要点 常用的多重比较统计方法 P值的迷思(一):显著与非常显著 P值的迷思(二):P值告诉我们什么 P值的迷思(三):与P值相关的几个概念 P值的迷思(四):什么是效应量? 【干货

从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络模型 (三)

流过昼夜 提交于 2020-11-01 05:11:30
本文属于图神经网络的系列文章,文章目录如下: 从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络模型 (一) 从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络模型 (二) 从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络模型 (三) 恭喜你看到了本系列的第三篇!前面两篇博客分别介绍了基于循环的图神经网络和基于卷积的图神经网络,那么在本篇中,我们则主要关注在 得到了各个结点的表示后,如何生成整个图的表示 。其实之前我们也举了一些例子,比如最朴素的方法,例如图上所有结点的表示取个均值,即可得到图的表示。那有没有更好的方法呢,它们各自的优点和缺点又是什么呢,本篇主要对上面这两个问题做一点探讨。篇幅不多,理论也不艰深,请读者放心地看。 图读出操作(ReadOut) 图读出操作,顾名思义,就是用来生成图表示的。它的别名有图粗化( 翻译捉急 ,Graph Coarsening)/图池化(Graph Pooling)。对于这种操作而言,它的核心要义在于: 操作本身要对结点顺序不敏感 。 这是为什么呢?这就不得不提到图本身的一些性质了。我们都知道,在欧氏空间中,如果一张图片旋转了,那么形成的新图片 就不再是原来那张图片 了;但在非欧式空间的图上,如果一个图旋转一下,例如对它的结点重新编号

漫谈图神经网络 (三)

与世无争的帅哥 提交于 2020-11-01 02:01:30
恭喜你看到了本系列的第三篇!前面两篇分别介绍了基于循环的图神经网络和基于卷积的图神经网络,那么在本篇中,我们则主要关注在 得到了各个结点的表示后,如何生成整个图的表示 。其实之前我们也举了一些例子,比如最朴素的方法,例如图上所有结点的表示取个均值,即可得到图的表示。那有没有更好的方法呢,它们各自的优点和缺点又是什么呢,本篇主要对上面这两个问题做一点探讨。篇幅不多,理论也不艰深,请读者放心地看。 >>>> 从图(Graph)到图卷积(Graph Convolution):漫谈图 神经⽹络模型 (⼀) 从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络 (二) 图读出操作(ReadOut) 图读出操作,顾名思义,就是用来生成图表示的。它的别名有图粗化( 翻译捉急 ,Graph Coarsening)/图池化(Graph Pooling)。对于这种操作而言,它的核心要义在于: 操作本身要对结点顺序不敏感 。 这是为什么呢?这就不得不提到图本身的一些性质了。我们都知道,在欧氏空间中,如果一张图片旋转了,那么形成的新图片 就不再是原来那张图片 了;但在非欧式空间的图上,如果一个图旋转一下,例如对它的结点重新编号,这样形成的图与原先的图其实是一个。这就是典型的**图重构(Graph Isomorphism)**问题。比如下面左右两个图,其实是等价的: 图重构

基于深度学习的小目标检测算法文献综述阅读

╄→尐↘猪︶ㄣ 提交于 2020-10-30 17:02:04
基于深度学习的小目标检测算法文献综述阅读 目标检测简要介绍 传统目标检测 基于深度学习的目标检测 基于候选区域的目标检测 基于回归的目标检测 小目标检测背景介绍及难点 小目标检测算法介绍 多尺度预测 反卷积和上采样 对抗网络GAN 总结与展望 最近做了一个对于小目标检测算法的文献的阅读,在搜查文献的时候,了解了目标检测的发展过程以及其中比较典型的算法,以下根据汇报的PPT从四个方法介绍小目标检测算法文献综述,分别是: 目标检测的简要介绍、小目标检测背景介绍及难点、小目标检测算法介绍、总结与展望 ,此篇博客也可作为汇报的讲稿。 目标检测简要介绍 目标检测过程简单的可以分为两个过程:定位和识别,定位是对于某一个目标位于哪一个位置而言,识别是指所定位的目标是什么,是一个分类问题。目标检测的发展也可以分为两个过程,其一是传统的目标检测,另一个是基于深度学习的目标检测。 传统目标检测 传统目标检测可以分为三个过程:获取检测窗口、手工设计感兴趣目标的特征、训练分类器。 1998年Papageorgiou发表一篇关于A general framework for object detection,提出Harr分类器,这是一个用于检测人脸的目标检测分类器,计算获取的每个检测窗口的像素总和,然后取它们的差值,利用差值作为特征进行目标分类,该方法的优点是速度快。2004年,David