聚类

7篇ICLR论文,遍览联邦学习最新研究进展

大兔子大兔子 提交于 2020-05-01 13:41:41
  机器之心分析师网络    作者:仵冀颖    编辑:H4O    本篇提前看重点关注 ICLR 2020 中关于联邦学习(Federated Learning)的最新研究进展。      2020 年的 ICLR 会议原计划于 4 月 26 日至 4 月 30 日 在埃塞俄比亚首都亚的斯亚贝巴举行,这本是首次在非洲举办的顶级人工智能国际会议,但受到疫情影响,ICLR 2020 被迫取消线下会议改为线上虚拟会议。 今年的 ICLR 论文接受情况如下:共计接收 679 片文章,其中:poster-paper 共 523 篇、Spotlight-paper(焦点论文)共 107 篇、演讲 Talk 共 48 篇,另有被拒论文(reject-paper)共计 1907 篇,接受率为 26.48%。   本篇提前看重点关注 ICLR 2020 中关于联邦学习(Federated Learning)的最新研究进展。联邦学习是一种在分布式网络中实现的客户端本地存储数据并训练局部模型、中央服务器汇聚各客户端上载数据后训练构建全局模型的分布式机器学习处理框架。联邦学习能够有效解决分布式网络中两方或多方数据使用实体(客户端)在不贡献出数据的情况下的数据共同使用问题,同时保证全局模型能够获得与数据集中式存储相同的建模效果。关于联邦学习,机器之心也有过相关的进展分析报道。   在 ICLR 2020

Deseq2 的可视化策略汇总

亡梦爱人 提交于 2020-05-01 07:28:04
1) MA图 对于MA图而言, 横坐标为该基因在所有样本中的均值,basemean = (basemean_A + basemean_B ) / 2, 纵坐标为 log2Fold change 其中,pvalue < 0.1 以下的点被认为是差异基因,标记为红色 2) count 图 (单个基因在不同组样本中的分布) 为了防止样本表达量相同时,点出现重合的情况,添加了扰动 library("ggplot2") ggplot(d, aes(x=condition, y=count)) + geom_point(position=position_jitter(w=0.1,h=0)) + scale_y_log10(breaks=c(25,100,400)) 3) heatmap (基因表达矩阵的heatmap) 值得注意的是,当我们想要通过heatmap 图来看规律的时候,可以先不对样本和基因进行聚类,直接按照分组顺序来排就好,这样可以直观的看出来在不同分组中的规律 4) heatmap (sample-to-sample 的距离矩阵的热图) 此时,可以对样本进行聚类,看样本的聚类效果和实验设计时的分组是否一致; 5)PCA 图(样本的PCA 图) 6) boxplot (观察离群值点) 来源: oschina 链接: https://my.oschina.net/u/4323130

hash冲突的方法

自作多情 提交于 2020-05-01 02:11:33
1.线性探测法 当冲突发生后,直接去下一个位置找是否存在没用的位置,例如2位置发生冲突,然后去下一位置3查找,如果3也被占用,去找4,直到问题解决 image.png 问题: 这样就会导致落在区间内的关键字Key要进行多次探测才能找到合适的位置,并且还会继续增大这个连续区间,使探测时间变得更长,这样的现象被称为“一次聚集(primary clustering)”,也就是说越后面的数,如果发生hash冲突,探测的时间越长,因为前面的数都已经将很多可用区域占了。 例如对数组(5,1,3,2,4)做mod 3处理 hash值数字 5 1 3 2 4 hashcode 2 1 0 2 1 未发生冲突前 code 0 1 2 对应数字 3 1 5 直到现在2插入,发现2位置上上是5,已经有值,所以去找下一个发现没有了,紧接着直接扩容和线性探测 code 0 1 2 3 对应数字 3 1 5 2 后面4插入时,先去看1,发现有1,看2发现有5,看3发现有2,扩容插入4 code 0 1 2 3 4 对应数字 3 1 5 2 4 可以看到非常容易产生一次聚类 2.平发探测法 以上为例: 当2发现发生冲突时直接每次增长i^2 倍,即2(hash值)+(-) i^2 code 0 1 2 3 对应数字 3 1 5 2 当4发生冲突,先是寻找2(1+1^2)再寻找5(1+ 2^2) code 0 1

基于神经网络的证据推理方法在证券市场专家群体预测信息融合与决策中的应用

早过忘川 提交于 2020-04-30 18:40:44
1. 证券市场专家群体预测方法概述 0x1:为什么需要专家群体预测 在证券投资分析中,把握投资时机对取得投资收益具有重要作用。证券公司和证券咨询机构往往会阻止专业证券分析人员,对证券市场的变化趋势进行分析预测,以帮助投资者进行投资决策。 在互联网网站上公布有很多证券公司的证券分析专家对证券市场变化趋势的预测结果,如果科学地将这些预测信息进行合成得到高质量的预测结果,并在预测的基础上进行证券投资决策是利用互联网上专家群体进行预测与决策所要解决的重要问题。 同时,证券市场的预测具有不确定的因素,一般将证券市场的变化趋势分为以下三种状态: 上涨 持平 下跌 不同的证券咨询专家对证券市场的变化趋势的分析预测存在差异、甚至是互相冲突的。所以,我们需要寻找能够将多个专家的预测进行融合的方法,从而进行更好的预测。 0x2:传统的专家群体预测方法(基于统计的投票表决法) 传统的预测方法是,以统计的方法将预测结果相同的专家意见进行累加,公布有多少专家预测证券市场上涨、有多少专家预测下跌、有多少专家预测持平(变动幅度<0.25%)。 这样预测证券市场的涨跌,是以多数专家意见为依据的,若认为上涨的专家人数多,则认为预测结果为上涨。 通过对某网站上公布的52位专家对上海证券交易所股票指数半年预测结果数据的复核,该方法的预测准确率仅为33.08%。而该网站专家个人的预测准确率的均值为36.23%

<老古董>线性支持向量机中的硬间隔(hard margin)和软间隔(soft margin)是什么

烂漫一生 提交于 2020-04-30 04:16:36
_________________________________________________________________________________________________ The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following idea: input vectors are non-linearly mapped to a very high-dimension feature space. In this feature space a linear decision surface is constructed. Special properties of the decision surface ensures high generalization ability of the learning machine. The idea behind the support-vector network was previously implemented for the restricted case where the

海量数据检索的利器

[亡魂溺海] 提交于 2020-04-28 21:28:03
检索:解决的最大问题就是如何做到低延迟、快速匹配   采用局部敏感哈希:lsh   FaceBook的开源数据包:pysparnn   解决问题:稀疏数据的近邻搜索!   源代码网址:http://www.github.com/facebookresearch/pysparnn 测试源码: """ test """ import os import pysparnn.cluster_index as ci from sklearn.feature_extraction.text import TfidfVectorizer DIR_PATH = os.path.dirname(os.path.abspath( __file__ )) data = [ " 你好 世界 " , " 哦 世界 在这里 " , " 和 他 一起 玩 " , " 你 喜欢 玩 篮球 " , ] tv = TfidfVectorizer() tv.fit(data) # 特征向量 features_vec = tv.transform(data) # 建立搜索索引 cp = ci.MultiClusterIndex(features_vec, data) # 搜索带有索引的 search_data = [ " 哦 在这里 " , " 我 喜欢 玩 足球 " ] search_feature_vec = tv

论述当今社会GIS技术都有哪些应用

旧城冷巷雨未停 提交于 2020-04-28 08:01:14
伴随着电子计算机技术、通讯技术、航空航天及航空遥感技术的发展趋势,地理信息系统GIS(GeographicInformatioilSystem)日臻成熟,其运用也快速而普遍地拓展到当然科学和社会发展科学的很多行业。以遥感技术系统(RS)、导航定位系统(GPS)、对地观察系统(EOS)等为意味着的一系列高新科技技术的发展趋势,使大家获得很多的自然地理空间数据变成将会,应对很多、繁杂的自然地理空间数据,选用传统化的手工制作处理方法显而易见是不好的,必须依靠电子计算机解决、剖析,最终输出一系列结果做为管理决策信息内容,这就造成了最开始的地理信息系统。 一、地理信息系统简述 1.地理信息系统的含义 地理信息系统迄今尚沒有国际性统一的界定,不一样课程和行业对GIS的了解也各有不同。有的专家学者将GIS界定为“纪录、解决、查找、剖析和显示信息相关所在位置信息内容的电子计算机系统。”也是有专家学者觉得,GIS是在电子计算机硬件软件适用下,对具备室内空间部位和拓扑关系的空间数据以及有关特性开展键入、储存、查询、与运算、剖析、表述的综合型技术系统,是集电子计算机科学、地理学、自然环境科学、大城市科学、室内空间科学、信息内容科学和管理方法科学为一体的一门新兴边缘学科。 GIS的优点取决于它的数据信息综合性、自然地理仿真模拟和空间分析工作能力,它是GIS的关键和优点。GIS最先是一个信息内容系统

Faxttext 快速文本分类

馋奶兔 提交于 2020-04-28 05:09:32
Fasttext 文本分类模型 只讲关键,不讲具体训练、loss的设计技巧。 1. 词嵌入模型 ​ NLP的首要问题就是寻求恰当的文本表示方法。因为,良好的文本表示形式,是后续进一步处理的基础。传统的机器学习方法使用 词袋模型,把每个词都做为独立的特征。然而这种方式,丢弃了词语之间的相关信息,往往限制了模型的泛化能力,而且模型输入数据具有上百万的维度,难以处理。因此,另一种词表征方式 "词嵌入" 应运而生。 ​ 词嵌入背后的直觉很简单,自然文本中,同时出现的单词在语义上有联系,那么我们可以用某个模型来学习这些联系,这样训练好后,就可以拿出隐含层,作为词的一种表示(降维,embedding),词向量。训练好的词向量的几何性质与词语的语义性质存在着对应关系,比如聚类性质,语义类似的向量之间的距离总是较小,因而这些词会倾向于聚成一类。例如,距离狗(dog)最近的词向量是猫(cat)、鼠(mouse)等等,这些词都代表了动物。聚类性在几何上对应为向量间的距离。 2. 词嵌入的训练方式 ​ word2vec ( CBOW , skip-gram ) 和 Glove 模型是无监督训练词向量的热门方式,后面 word2vec 的作者去了Facebook之后又在 CBOW 的基础上,提出了 fasttext 文本分类模型,利用标签的监督信息,训练词向量。 2.1 无监督训练方法-CBOW

20179214 2017-2018-2 《密码与安全新技术》第六次作业

心已入冬 提交于 2020-04-27 19:35:26
学号 2017-2018-2 《密码与安全新技术》第六周作业 课程:《密码与安全新技术》 班级: 201792 姓名: 刘胜楠 学号:20179214 上课教师:谢四江 上课日期:2018年X月X日 必修/选修: 必修 学习内容 ###模式识别导论 概念: 模式识别(英语:Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。 模式识别的主要方法 根据问题的描述方法 基于知识的模式识别方法:以专家系统为代表,根据人们已知的(从专家那里收集整理得到的)知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,再对未知样本决策其类别。 基于数据的模式识别方法:制定描述研究对象的描述特征,收集一定数量的已知样本作为训练集训练一个模式识别机器,再对未知样本预测其类别(主要研究内容) 研究进展 模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下

《从机器学习到深度学习基于scikit-learn与TensorFlow的高效开发实战》PDF代码分析

别来无恙 提交于 2020-04-27 08:37:06
用通俗的语言讲解涵盖算法模型的机器学习,主要内容包括机器学习通用概念、三个基本科学计算工具、有监督学习、聚类模型、降维模型、隐马尔可夫模型、贝叶斯网络、自然语言处理、深度学习、强化学习、模型迁移等。在深入浅出地解析模型与算法之后,介绍使用Python相关工具进行开发的方法、解析经典案例,能理解、能设计、能编码、能调试,没有基础的在学习后也能够上手设计与开发机器学习产品。 推荐学习《从机器学习到深度学习:基于scikit-learn与TensorFlow的高效开发实战》,场景式机器学习实践,理论方面从人工智能与机器学习的基本要素讲起,逐步展开有监督学习、无监督学习、强化学习这三大类模型的应用场景与算法原理;实践方面通过金融预测、医疗诊断概率模型、月球登陆器、图像识别、写诗机器人、中国象棋博弈等案例,将机器学习应用在各行各业里,其中后三个案例使用了深度学习技术。 《从机器学习到深度学习:基于scikit-learn与TensorFlow的高效开发实战》PDF,369页,有目录,文字可复制;配有源代码。 下载: https://pan.baidu.com/s/1LS77COnA2ZexybiuMH7xMA 提取码: st6n 感觉深度学习中应用RNN实现一个写诗机器人,挺有意思,基于LSTM讲解开发步骤:网络架构、数据加载、搭建TensorFlow Graph 、解析LSTM RNN