聚类

算法比赛 | 新能源数据清洗算法比赛

£可爱£侵袭症+ 提交于 2021-02-02 04:58:25
光伏功率异常数据识别与清洗 赛题背景 随着光伏发电数字化技术不断深入发展,伴随而来的是多种类、大批量、高密度的各种数据。如何筛选清洗数据成为后期数据分析的基础。以国家电投集团示范光伏电站为例,该电站全年约产生各类生产运行数据、设备监测数据、气象分析数据等多种类数十GB的各种数据,如何判别数据有效性,筛选有效数据开展定性及定量分析,是目前亟待突破的一项重大课题,机器取代人工分析不仅可以提高分析效率同时可以避免人工过多干预带来的不必要错误。大幅提高效率的同时降低人工成本,提高电站整体经济效益。因此开发智能数据清洗算法成为当前需要面对的一个问题,解决该问题可以有效提高光伏发电系统分析效率,同时为未来光伏发电系统精细化运维提供保障。 赛题任务 以异常数据判断及清洗为目的,开展相应功能算法研究。以国家电投集团提供的示范光伏电站数据为依据,数据记录了示范光伏电站10个方阵各3台逆变器1个月的5min间隔有功功率运行数据,主要给出时间戳信息、逆变器所属区块和方阵信息等。需要利用10个方阵的各3台光伏逆变器功率数据结合机器学习无监督算法技术,建立鲁棒的光伏功率异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。 异常数据是由光伏逆变器运行过程与设计运行工况出现较大偏离时产生,此处异常数据可分为3类

初识量化投资

放肆的年华 提交于 2021-01-30 12:02:45
什么是量化投资 出处:http://www.80soho.com/?p=333 简单来讲,量化投资就是利用计算机科技并采用一定的数学模型去践行投资理念,实现投资策略的过程; 传统的投资方法主要有基本面分析法和技术分析法两种,与它们不同的是,量化投资主要依靠数据和模型来寻找投资标的和投资策略。 量化投资主要内容 量化选股 量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为。 量化择时 量化择时及时利用数量化的方法,通过对各种宏观,微观指标的量化分析,试图找到影响大盘走势的关键信息,并且对未来走势进行预测。 该策略收益率最高,但风险也极大,研究的难度也很高。 股指期货套利 股指期货套利是指利用股指期货市场存在的不合理价格,同时参与股指期货与股票现货市场交易,或者同时进行不同期限,不同(但相近)类别股票指数合约交易,已赚取差价的行为。 股指期货套利分为期现套利,跨期套利,跨市套利和跨品种套利。 商品期货套利 商品期货套利指的是在买入或者卖出某种商品期货合约的同时,卖出或买入相关的另一种合约,并在某个时间同时将两种合约平仓的交易方式。 统计套利 统计套利是指利用证券价格的历史统计规律继续套利,是一种风险套利,其风险在于这种历史统计规律在未来一段时间内是否继续存在。 期权套利 期权套利交易是指同时买进卖出同一相关期货

时间序列异常检测

你。 提交于 2021-01-29 06:52:49
时间序列异常检测基础研究 随着时间序列数据越来越频繁的被使用,异常数据在时间序列中的价值被发 掘和利用,越来越多的人们将目光投入到时间序列异常检测领域,并且提出了很多 时间序列异常检测技术,这些技术的提出大大促进了时间序列异常检测领域的发 展,对于后面学者进行时间序列数据挖掘有着重要的参考价值。 上一章介绍了时间序列数据的来源,时间序列数据挖掘的起源还有发展过程, 并且描述了时间序列异常检测领域的一些知识,本章介绍一些常用的时间序列异 常检测技术,并且介绍各个算法的优缺点,以及各自适用的数据和场景,通过比较 可以得到一些结论,对于本文提出的时间序列异常检测方案有着重要的帮助。 时间序列异常检测数据 数据挖掘是从大量的数据中挖掘出有价值的、深层次的的知识的过程,大部分 的数据挖掘工作的研究重点都是为了发现那些数据中频繁出现的模式或者由此总 结出某种规律,比如周期、关联关系等等,但是在某些场景中,非频繁出现的模式 或者说异常的模式往往具有更大的价值,能带来更有启发的知识。比如网络入侵检 测、电子交易欺诈检测、可疑活动的监控等等。这样的数据挖掘工作开启了一个新 的研究领域,就是异常检测,异常检测作为数据挖掘的一个分支,正在受到越来越 多的关注和研究,在数据挖掘领域的异常检测通常可以分为五类:基于聚类的方法 [19]、基于距离的方法[20]、基于密度的方法[21-23]、基于分布的方法

个推异常值检测和实战应用

有些话、适合烂在心里 提交于 2021-01-28 23:22:43
日前,由又拍云举办的大数据与 AI 技术实践|Open Talk 杭州站沙龙在杭州西溪科创园顺利举办。本次活动邀请了有赞、个推、方得智能、又拍云等公司核心技术开发者,现场分享各自领域的大数据技术经验和心得。以下内容整理自个推资深算法工程师令狐冲现场分享: 令狐冲(花名),个推资深算法工程师,目前负责个推深度学习相关研发工作,对 AI 算法有深入的了解及丰富的实践经验,擅长将大数据分析与深度学习神经网络相结合,为业务落地输出算法产品化能力。 大家好,我是来自个推的令狐冲,今天主要分享大数据中的异常值检测和实战应用,围绕研究背景、异常值检测方法、异常检测实战应用等话题,结合相关实战数据介绍异常值检测算法的最新进展情况。 研究背景 异常值检测是大数据分析中一个重要的研究方向,实时异常值自动检测有助于运营人员快速发现系统异常问题。我们常说的异常值通常是相对于正常值来表述的,要结合实际业务来讲一个值是否正常,也就说这是一个业务描述。如果我们要解决一个业务问题,首先要做的就是将这个问题数学化,将业务描述转化为数学描述,这样你才可以使用适合的算法或使用其他分析方法来解决。 对于异常值而言,从数学上看可以看做一个离群点。当然在实际业务中,考虑到业务的结合情况不同,有些异常值看似是离群点,但是从全局业务上看也可能是一个正常值。具体情况需要结合结果来分析,不过我们大致可以使用离群点来代表异常值。

基于需求侧划分的低/无代码平台商四大类型及其核心能力分析

别说谁变了你拦得住时间么 提交于 2021-01-28 05:42:05
中国进入新时代以来,企业数字化建设需求不断增高,从而推动低/无代码市场逐步形成,截至到2020年市场规模已达19亿元,已经初具规模。海比研究院在调研过程中发现,低/无代码市场对平台商的类型划分比较混乱,对于平台商应该具备哪些核心能力也各有看法。 因此,海比研究院希望通过本次研究重点探讨低/无代码平台商的类型划分和核心能力,以期望帮助业内企业更为准确、全面的了解行业现状,同时也为有数字化建设需求的企业了解低/无代码市场提供参考,帮助低/无代码市场的供需两端凝聚共识、拓展需求。 01 供给侧类型划分 市场常见三种类型划分方式,但是从平台商角度划分 现在我们在说到低/无代码平台商的类型划分时,通过从三个维度进行区分,分别是:目标人群、技术、企业性质。 按目标人群来看,主要是分为低代码和无代码两类,低代码更多是面向有一定代码编写能力的研发人员,无代码则更多是面向没有代码编写能力的业务人员。按技术划分则是模型驱动和表单驱动两类。按企业性质划分则分为综合厂商和独立厂商。 现有的三种划分方式均是平台商角度的划分方法,对于有数字化建设需求的企业或机构来说,部分名称有些抽象,无法第一时间确定哪类平台商适合作为企业数字化建设的合作平台。因此,市场需要一个从企业需求角度的类型划分方式,以便于企业更好的选择适合自身的平台。 02 需求侧核心能力 开发工具、业务场景、生态系统、数据模型、服务能力、行业应用

聚类 高维聚类 聚类评估标准 EM模型聚类

十年热恋 提交于 2021-01-24 13:01:31
高维数据的聚类分析 高维聚类研究方向 高维数据聚类的 难点 在于:   1、适用于普通集合的聚类算法,在高维数据集合中效率极低   2、由于高维空间的稀疏性以及最近邻特性,高维的空间中基本不存在数据簇。 在高维聚类的研究中有如下几个研究重点: 1)维度约简 ,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;( 降维 ) 2)高维聚类算法 ,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以看做维度约简的推广; 子空间聚类:   特征选择算法综述: http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html    不同的簇对应不同的子空间 ,并且每个子空间维数不同,因此也不可能一个子空间就可以发现所有的簇。选取与给定簇密切相关的维,然后在对应的子空间进行聚类。子空间聚类需要自定义一种搜索策略和评测标准来筛选出需要聚类的簇   传统的特征选择算法可以用来确定相关维。 CLIQUE算法(综合了基于密度和基于网格的算法)   CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密单元和稀疏单元。如果映射到它的对象数超过该密度阈值

面向图结构聚类why问题的溯源解释问题

自古美人都是妖i 提交于 2021-01-24 12:38:01
图是描述现实世界各类复杂系统的一种普适模型,具有很强的表述能力。在现实世界中,很多应用将数据和数据之间的关系表示为一个图,比如说社交网络,信息网络,协作网络,电子商务网络,通信网络,生物蛋白质网络等。从数据管理角度出发,对大规模数据进行按需加载,将会节省大量计算资源,图的聚类为上述需求提供了解决途径,有利于大规模图的分析,理解和可视化。 在围绕图结构聚类算法展开研究时,我们发现图结构聚类算法主要存在的两个问题,第一是数据存在质量问题,第二是聚类方法存在参数不合理的问题。 1.图数据质量问题:图数据存在质量问题分为4个小点,第一点是由于图数据源存在缺失信息和错误的现象导致的,如由于人为因素,机器故障或位置确定技术的限制,移动设备用户的位置信息有时不准确或丢失,第二点是图数据抽取存在错误,如网页抽取数据时,大部分抽取方法不但速度慢,容易出错而且难以维护,第三点是图数据在提取时发生重复错误的现象,如在线服务中,一个用户可能有多个账号,造成有多个用户的假象,第四点是图数据的集成错误导致的质量问题,在整合多源数据时,对于同一个事实,不同的数据源有不同的判断,造成了数据冲突和不确定。图结构聚类方法对数据时敏感的,如果数据中存在质量问题,那么聚类结果就不能满足用户的需求 2.聚类参数不合理问题:图结构聚类方法对聚类参数是非常敏感的,由于用户专业知识有限

实时跟踪之TRACA

只愿长相守 提交于 2021-01-22 08:31:17
背景: 目前,在实时跟踪领域存在着越来越多的先进方法,同时也极大地促进了该领域的发展。主要有两种不同的基于深度学习的跟踪方法:1、由在线跟踪器组成,这些跟踪器依赖网络连续的微调来学习目标的变化外观,精度虽高,但无法满足实时要求;2、基于相关滤波器的跟踪器组成,利用原始深度卷积特征,如Imagenet中包含的一般对象,存在高维度的问题,另外,相关滤波器计算时间随着特征维度的增加而增加,也不满足实时要求。 在2018年的CVPR会议上,出现了这样一篇文章:《Context-aware Deep Feature Compression for High-speed Visual Tracking》,引起了不小的反响。主要提出了一种新的基于上下文感知的相关滤波器的跟踪框架,以实现一个实时跟踪器。在计算速度和精度方面都有着不错的成绩。速度提升主要来源于深度特征压缩,利用多个expert auto-encoder的上下文感知方案;上下文是指根据不同层特征图对跟踪目标的粗略分类。在预训练阶段,每个类别训练一个expert auto-encoder。在跟踪阶段,指定一个最佳expert auto-encoder。为了实现高效跟踪性能,引入外部去噪处理和新的正交性损失项orthogonality loss,用于expert auto-encoder的预训练和微调。在保持当前最佳性能的同时

2020人脸识别报告:上万家企业入局,八大技术六个趋势一文看尽

匆匆过客 提交于 2021-01-19 09:35:45
文章来源: 智东i 编辑:智东西内参 8大技术优势,6个发展趋势,人脸识别已经深入到了生活的方方面面。 近年来, 随着人工智能、计算机视觉、大数据、云计算、芯片等技术的迅速发展,人脸识别技术取得了长足的进步并且在众多场景中得以成功应用并大规模商业化普及,为经济社会的发展以及人们日常生活带来便捷 。 就市场发展趋势而言, 人脸识别应用场景虽然渗透各个行业场景, 但市场规模增长趋势出现分化, 国内市场呈现从算法竞争到芯片全产业链激烈竞争的状态;就技术发展层面, 边缘端 SOC 芯片算力的提升使得人脸识别系统中的部分甚至全部算法可以运行在边缘设备上, 从而使云边结合已成为人脸识别产品和应用方案的发展趋势。 本期的智能内参,我们推荐全国信息技术标准化技术委员会的研究报告《2020 年人脸识别行业研究报告》,从技术特点、行业发展趋势和标准化现状三方面还原人脸识别技术的最新发展状况。 本期内参来源:全国信息技术标准化技术委员会 原标题: 《2020 年人脸识别行业研究报告》 作者:蒋慧 等 01 . 什么是人脸识别? 人脸识别 ( Face Recognition) 是一种基于人的面部特征信息进行身份识别的生物特征识别技术 。近年来 , 随着人工智能 、 计算机视觉 、 大数据 、 云计算 、 芯片等技术的迅速发展 , 人脸识别技术取得了长足的进步并且在众多场景中得以成功应用 。

R语言宏基因组学统计分析学习笔记(第三章-3)

天涯浪子 提交于 2021-01-19 00:09:53
3.4 微生物数据组成分析 早在1897年,皮尔逊就警告说,在器官测量中使用两个 绝对测量值的比值 ,可能会形成“ 伪相关 ”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用 成分的比率 来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中, 对数比变换 方法被地质学、生态学等领域的统计学家和研究人员广泛接受,因为通过对数比变换,可以消除组成数据的样本空间(单纯性)受约束问题,并将数据投影到多元空间中。因此,所有可用的标准多元技术都可以再次用于分析成分数据。 微生物组成的数据分析方法和工具是最近才得到发展的。方法的开发聚集于解除 组成的限制 : 样本中的所有微生物相对丰度之和为1 。约束导致组成数据驻留在单纯形而不是欧几里德空间中。为了恰当地比较微生物的组成,从样本中生物分类的相对丰度(而不是样本中生物分类的总丰度)推断出生态系统中的总分类比(OTU)。 为了避免伪相关,Lovell等提出了 比例 度量用于分析相对数据,因为比例是对相对数据的适当相关性分析。Erb和Notredame进一步提出了部分比例,这是从部分相关中采用的定义。为了确定物种的比例丰度,Erb等人提出了差分比例统计(2017)。它等同于分类比率的单向方差分析。