聚类

excel插件开发,Smartbi免费版安装流程

柔情痞子 提交于 2020-09-30 06:01:05
excel插件开发,Smartbi免费版安装流程 自动安装 1、安装Microsoft .Net Framework 4.0 Full 2、获取安装介质 插件安装包不包含在标准的产品安装包中,若需对插件进行学习或使用,请到官网进行下载。 3、点击安装介质,弹出安装界面如图: 4、点击 下一步 ,配置安装路径: 5、点击 下一步,检测是否有插件正在被使用: 6、点击 安装,进行安装: 7、安装完成。 插件升级 Excel插件支持在线更新的方式。 系统检测更新 设计、维护用户在每次使用Excel插件登录的时候,会检测服务器插件版本是否有更新; 若服务器上Excel插件有了新版本,则会提示更新,按提示进行更新即可。 手动检测更新 点击工具栏的 更新 按钮,进行更新: 安装环境要求 关于电子表格插件的安装环境要求,详情请参考官网产品在线文档或咨询客服· 关于Smartbi Smartbi强大的数据分析能力,人人可用的自助式BI。简便的操作,专业化的要求不高。可以大范围的应用。使得Smartbi在BI领域独树一帜。 1、下载安装 下载和安装很简单,官网上直接下载。启动软件时会加载数据日志,但是所有操作都在web端。 2、学习教程 激活时会发送一个学习资料包,有功能教学视频,还有学习帮助文档,下载激活时大家留心,记得收藏。除此之外,还有个学习交流的论坛,提问回答好积极,对技术宅来讲是极好的。

2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】

柔情痞子 提交于 2020-09-29 21:20:23
2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】 MPai下载链接:www.mpaidata.com 关注公众号:【万灵数据】可以看很多很多建模资料噢 附件数据下载:https://mpaidata.lanzoui.com/iC1kAgk03ba 讲解视频: https://www.bilibili.com/video/BV1154y1C7ZC?from=search&seid=8443983732512492584 改进策略: 1,调整模型参数(效果微小) 2,扩充特征指标(效果中等) 3,扩充样本数量(效果卓越) 思路如下: 该题目可使用评分卡(量化)+机器学习解决 可以使用MPai数据科学平台 量化分析-AHP或熵权法 与监督机器学习-分类解决 C题 中小微企业的信贷决策 在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠。银行首先根据中小微企业的实力、信誉对其信贷风险做出评估,然后依据信贷风险等因素来确定是否放贷及贷款额度、利率和期限等信贷策略。 某银行对确定要放贷企业的贷款额度为万元;年利率为4%~15%;贷款期限为1年。附件1~3分别给出了123家有信贷记录企业的相关数据

从多模态到泛化性,无监督学习如何成为人工智能的下一站?

点点圈 提交于 2020-09-29 20:37:42
     作者 | 彩娴、青暮、宝尚   编辑 | 大鑫   2016年,图灵奖得主Yann LeCun 表示,未来几年的挑战是让机器学会从原始的、没有标签的数据中学习知识,即无监督学习。 Yann LeCun提出,无监督学习是人工智能的下一站。   2020年, 图灵奖得主Geoffrey E. Hinton指出,人类无法完全依赖有监督学习的方法完成所有神经元训练,而需要更多来自于无监督学习的帮助。   目前无监督学习技术备受关注,无监督表达学习技术在自然语言处理领域进展神速,OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光;无监督图嵌入表达技术在图学习领域取得了不俗的成果;自监督学习技术在视觉领域近期也有较大的突破,Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标提升了 7-10%,甚至可以媲美有监督学习的效果。   但我们同时也看到,对GPT-3的质疑声一直不断,无监督学习技术在更多的领域尚待突破。   2020年8月22日, 中国计算机学会青年计算机科技论坛深圳分论坛主办大湾区IT创新论坛“无监督学习,如何成为人工智能的下一站?”。      本次论坛吸引了超过1千人通过线下会场、腾讯会议及B站全程参与,包括涉及表达学习、自然语言处理、计算机视觉分析、数据挖掘、金融大数据处理等众多相关领域的青年学者

AntV 墨者周刊 第二十八期 · I AM FULL、美洲地名地图可视化、图中集合关系的可视分析

瘦欲@ 提交于 2020-09-29 16:44:44
地图遇上中国风 数据源自公开的中国30m间距DEM,设色上参考点翠首饰之配色。国境线成胚,地势图为羽,用分层设色临摹翠翘风采。 冰裂纹:中国主要的公路 星象图:北半球河流 珐琅:中国行政区划 油纸伞:世界地图 美洲地名地图可视化 通过拉取了美洲11000个地名的数据进行分析,最后反映设到地图上,可以发现一些有趣的现象。举个例子,在南美洲以‘SANTA’开头的地名遍布各地,但是‘SAN ’开头的地名似乎都集中在整个西海岸。 下面这个例子,来自tjukanov,一些有特定地理含义的地名在美洲的分布,可以看出美洲各个地方的地形分布,例如带有Lake的地名就密集的分布在五大湖的附近。 ☝️一个彩蛋 在分析地名数据的时候做个排序,发现了世界上最长的单个单词地名: Taumatawhakatangihangakoauauotamateapokaiwhenuakitanatahu Rājekumāravenkataperumālrāzumbahadūrvāripeta Hangukhwangyeongjeongchaekpyeonggayeonguwon Jainnonghyeopjeontongjangnyugagonggongjang Hangukdambaeinsamgonsasuwonjejochangsawon 图中集合关系的可视分析 本文是 2013 年 EuroVis

机器学习教程篇1 -- 线性回归(上)最小二乘法

孤街浪徒 提交于 2020-09-28 17:48:23
机器学习 -- 线性回归 一、最小二乘法 1、概念 2、内容讲解 (1)模型结构 (2)误差函数 (3)代码 (4)调用Scikit-learn库进行开发 “好好学习,天天向上” – 机器学习的第一个教程开始啦,后续会附上视频讲解 一、最小二乘法 1、概念 线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。主要解决的就是如何通过样本来获取最佳的拟合线。现在使用得比较广泛的就是梯度下降和最小二乘法,,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。在有监督学习问题中,线性回归是一种最简单的建模手段。这里首先讲解最小二乘法。 2、内容讲解 (1)模型结构 从线性回归模型开始讲起,由式子,最后是一条高维空间的直线(因为这里的x都是一次项的),最终的目的是求出a和b,也就是所有的x和b,为了让所有的点都在线上,就要不断调整w(系数,也即权重)。随着维度的增加,计算量也增加,用一组向量就可以表示所有的系数。注意这里W是列向量。 所以确定W和b就能求出y了。 (2)误差函数 理论值与预测值的差的平方最小。 (3)代码 1、导入数据,定义损失函数和拟合函数等。 import numpy as np import matplotlib . pyplot as plt points = np . genfromtxt ( 'data.csv' ,

hslogic_模式识别人工神经网络BP算法

孤者浪人 提交于 2020-09-28 14:00:56
识别活动是人类的基本活动,人们希望机器能代替人类进行识别工作。因此模式识别的理论和方法引起了人们极大的兴趣并进行了长期的研究,现已发展成一门多学科交叉的学科。针对不同的对象和不同的目的,可以用不同的模式识别理论、方法。而人工神经网络能较好地模拟人的形象思维,而且由于具有大规模并行协同处理能力、较强的容错能力和联想能力以及较强的学习能力,所以将神经网络方法运用到模式识别中去解决识别问题己成为国内外科技工作者广泛关注的热点。 本文首先对模式识别、神经网络的发展概况以及应用神经网络来进行模式识别的历史渊源等方面作了较为详细的介绍,然后分析了模式识别的一些基本概念、方法,指出了其困难和要求,同时给出了神经网络进行模式识别的方法,并比较它与传统方法的异同,说明了神经网络方法进行模式识别的特点与优越性;然后给出了本文核心即BP神经网络模式分类的实现思想。运用上述研究成果,借助于MATLAB,用BP算法完成了神经网络结构设计。进行的测试表明其运行稳定、字符识别率较高,表明了本文研发成果的有效性。 神经网络的研究是以人脑为基础的一门智能科学的研究与探索,实际上,40年代初,就有人认识到这一领域研究的重要性。可以说,它的研究与当今串行计算机的研究是同步进行的。但是,由于当时分子生物学发展的限制,人脑的机理还未真正弄清楚,从而影响这一研究领域的进展:另一方面,由于VLSI技术日新月异的进步

faiss简介及示例

北战南征 提交于 2020-09-27 17:04:15
转自: https://blog.csdn.net/kanbuqinghuanyizhang/article/details/80774609 简介 faiss是为稠密向量提供高效相似度搜索和聚类的框架。由 Facebook AI Research 研发。 具有以下特性。 1、提供多种检索方法 2、速度快 3、可存在内存和磁盘中 4、C++实现,提供Python封装调用。 5、大部分算法支持GPU实现 下面给出一些快速链接方便查找更多内容。 github 官方文档 c++类信息 Troubleshooting 官方安装文档 faiss在个人小项目中的运用:“夫妻相/更像谁”中查找人脸相似 个人项目可通过下面两种方式访问体验 1、微信小程序 2、PC端 AI爱 yep66.com 安装 文档中给出来编译安装,conda等安装方式。因为公司服务器编译安装需要权限,所有我们一般使用conda的方式安装python Module。 # 更新conda conda update conda # 先安装mkl conda install mkl # faiss提供gpu和cpu版,根据服务选择 # cpu版本 conda install faiss-cpu -c pytorch # gpu版本 -- 记得根据自己安装的cuda版本安装对应的faiss版本,不然会出异常。使用命令:nvcc -V

Datawhale数据分析课程第二章

一世执手 提交于 2020-09-26 02:19:55
Datawhale数据分析课程第二章 准备工作 数据清洗及特征处理 相关定义 缺失值观察与处理 任务一:缺失值观察 (1) 请查看每个特征缺失值个数 (2) 请查看Age, Cabin, Embarked列的数据 以上方式都有多种方式,所以大家多多益善 任务二:对缺失值进行处理 (1)处理缺失值一般有几种思路 (2) 请尝试对Age列的数据的缺失值进行处理 (3) 请尝试使用不同的方法直接对整张表的缺失值进行处理 重复值观察与处理 任务一:请查看数据中的重复值 任务二:对重复值进行处理 (1)重复值有哪些处理方式呢? (2)处理我们数据的重复值 任务三:将前面清洗的数据保存为csv格式 特征观察与处理 任务一:对年龄进行分箱(离散化)处理 (1) 分箱操作是什么? (2) 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示 (3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示 (4) 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示 (5) 将上面的获得的数据分别进行保存,保存为csv格式 任务二:对文本变量进行转换 (1) 查看文本变量名及种类 (2) 将文本变量Sex, Cabin ,Embarked用数值变量12345表示

大数据分析软件有哪些,怎么做数据分析?

送分小仙女□ 提交于 2020-09-26 00:55:29
​ 数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍的效果,以下是数据分析员必备的9种数据分析思维模式:  1. 分类  分类是一种基本的数据分析方式,数据根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。  2. 回归  回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够很好的拟合实测数据,如果能够很好的拟合,则可以根据自变量作进一步预测。  3. 聚类  聚类是根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大的一种分类方式,其与分类分析不同,所划分的类是未知的,因此,聚类分析也称为无指导或无监督的学习。  数据聚类是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。  4. 相似匹配  相似匹配是通过一定的方法,来计算两个数据的相似程度,相似程度通常会用一个是百分比来衡量。相似匹配算法被用在很多不同的计算场景,如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和DNA序列匹配等领域。  5. 频繁项集 

生产实践 | 基于 Flink 的短视频生产消费监控

梦想的初衷 提交于 2020-09-25 18:43:20
本文详细介绍了实时监控类指标的数据流转链路以及技术方案,大多数的实时监控类指标都可按照本文中的几种方案实现。 短视频生产消费监控 短视频带来了全新的传播场域和节目形态,小屏幕、快节奏成为行业潮流的同时,也催生了新的用户消费习惯,为创作者和商户带来收益。而多元化的短视频也可以为品牌方提供营销机遇。 其中对于垂类生态短视频的生产消费热点的监控分析目前成为了实时数据处理很常见的一个应用场景,比如对某个圈定的垂类生态下的视频生产或者视频消费进行监控,对热点视频生成对应的优化推荐策略,促进热点视频的生产或者消费,构建整个生产消费数据链路的闭环,从而提高创作者收益以及消费者留存。 本文将完整分析垂类生态短视频生产消费数据的整条链路流转方式,并基于 Flink 提供几种对于垂类视频生产消费监控的方案设计。通过本文,你可以了解到: 垂类生态短视频生产消费数据链路闭环 实时监控短视频生产消费的方案设计 不同监控量级场景下的代码实现 flink 学习资料 项目简介 垂类生态短视频生产消费数据链路流转架构图如下,此数据流转图也适用于其他场景: 链路 在上述场景中,用户生产和消费短视频,从而客户端、服务端以及数据库会产生相应的行为操作日志,这些日志会通过日志抽取中间件抽取到消息队列中,我们目前的场景中是使用 Kafka 作为消息队列;然后使用 flink 对垂类生态中的视频进行生产或消费监控