数据挖掘

哈罗出行数据挖掘实习生电面题 (一面二面)

感情迁移 提交于 2020-01-06 23:39:38
(一面) 1、先自我介绍一下自己的背景和接触的项目 ; 2、如果一个数据没有明显的相关性 还能放进去LSTM吗; 3、说一下过拟合解决办法; 4、说一下你最熟悉的一个模型; 5、说一下神经网络中怎么解决过拟合; 6、集成方法中的bagging和boosting的区别; 7、随机梯度下降和其他优化方法的区别; 8、口述逻辑回归公式;逻辑回归有什么优化方法吗;逻辑回归为啥用log 9如果你对你的SQL打分打多少分。有用户ID 和时间 怎么写语句找到时间差 ; 10、白噪声 然后就是实习时间 要求一周4天 我说10号前估计只能3天 后面可以天天来 (估计凉 (二面) 1、线性回归的系数和高斯分布的均值 方差有什么关系吗(求解答) 2、xgboost和GBDT区别 3、综合面 比如平时兴趣爱好 、10点上班7点下班 6点半给你个任务 你怎么办、我看你修了机器学习和数据挖掘 你能讲讲学了哪些模型吗 4、你是控制科学与工程的学生,你能说说你在这块和科班的有啥优缺点吗 5、x是常量 y是递增的 可以去拟合吗 来源: CSDN 作者: 南瓜风槐 链接: https://blog.csdn.net/qq_39785597/article/details/103847615

BI 项目管理之角色和职责

十年热恋 提交于 2020-01-04 05:25:59
DW/BI 系统在生命周期中需要许多不同的角色和技能,它们来自业务和技术领域。本文将介绍创建DW/BI 系统所涉及的主要角色。角色和人之间很少是一对一关系。与我们合作的团队小到只有一人,大到有40 人(听说有更大的),大部分DW/BI 团队在3~10 个全职成员之间,并根据需要增加其他人。 单个DW/BI 团队常常同时承担开发和操作任务,不同于大部分技术项目团队,这与DW/BI 项目开发周期的高度迭代相关。 下面的角色与设计和开发活动相关: ● DW/BI 经理负责项目的总体领导和方向把握。DW/BI 经理必须能够与高级业务和IT 管理人员进行有效的通信,并能够和团队一起工作,以规划DW/BI 系统的总体体系结构。 ● 项目经理负责系统开发过程中项目任务和活动的日常管理。 ● 业务项目领导者是业务领域的成员,并和项目经理紧密合作。 ● 业务系统分析师或业务分析师负责领导业务需求定义活动,并且经常参与业务过程维度模型的开发。业务系统分析师需要能够在业务和技术之间架起桥梁。 ● 数据建模人员负责执行详细的数据分析,包括数据剖析和开发详细的维度模型。 ● 系统架构师设计DW/BI 系统的各个组件,包括ETL 系统、安全系统、审核系统和维护系统。 ● 开发数据库管理员(DBA)创建关系型数据仓库数据库,并且负责总体的物理设计,包括磁盘布局、分区和初始的索引计划。 ● OLAP

数据挖掘优秀工具对比

烈酒焚心 提交于 2019-12-31 16:49:35
https://www.cnblogs.com/Yuanjing-Liu/p/9391964.html 目录 1、数据挖掘工具对比 2、Rapid Miner 3、Orange 4、Weka 4.1 介绍 4.2 使用准备 4.3 主要功能与使用 4.4 优缺点 4.5 开发资源 5、KNIME 5.1 介绍 5.2 主要功能与使用 5.3 优缺点 5.4 开发资源 6 Apache Mahout 6.1 简介 6.2 主要特性 6.3 Mahout安装、配置 6.4 使用简单示例验证mahout 6.5 优缺点 文献 正文 回到顶部 1、数据挖掘工具对比 数据来源: Top 15 Best Free Data Mining Tools: The Most Comprehensive List — Software Testing Help 回到顶部 2、 Rapid Miner 回到顶部 3、Orange 回到顶部 4、Weka 4.1 介绍 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而Weka的主要开发者来自新西兰。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类

机器学习基本概念

末鹿安然 提交于 2019-12-30 23:07:17
机器学习基本概念 数据挖掘和机器学习的关系 训练数据/验证数据/测试数据 监督学习/无监督学习/半监督学习 回归/分类/聚类 数据挖掘和机器学习的关系 什么是数据挖掘? 能够通过简单的查询就能知道结果的问题不属于数据挖掘;而需要很多数据去挖掘数据背后的东西才能得到想要的结果,这样复杂的问题才属于数据挖掘。 什么是机器学习? 机器学习是在需要进行数据挖掘时所需要用到的一个工具。 训练数据/验证数据/测试数据 监督学习/无监督学习/半监督学习 监督学习 处理的数据是带标签的,可以用来 分类 。 无监督学习 处理的数据是不带标签的,可以用来 聚类 。 半监督学习 半监督学习是监督学习和无监督学习相结合的一种学习方式。主要用来解决使用少量带标签的数据和大量没有标签的数据进行训练和分类的问题。 回归/分类/聚类 回归 回归可能是线,也可能是面。下面是根据二维数据点画出来的一条回归线。 根据已有的数据样本建模,得到回归模型(直线/曲线/面),当有新的样本拿过来时,可以根据模型去预测新的样本输出值。(如房屋价格预测),预测数据为连续型数值。 分类 如图像识别、垃圾邮件分类、文本分类……根据已有是带标签的数据(明确知道样本属于哪个标签)进行训练分类器,当有新的样本过来时,我们根据其属性以及训练好的模型,来判断新样本属于哪个类别。预测数据为类别型数据,但是类别已知。 聚类 聚类数据是没有标签的

[人工智能]初识

我是研究僧i 提交于 2019-12-30 03:26:17
人工智能 摘抄自《深度学习之Pytorch》。 定义 人工智能(Artificial Intelligence),也称机器智能,是指由人工制造出来的系统所表现的智能。所谓的智能,即值可以观察周围环境并据此作出行动已达到目的。 分类 人工智能的概念很宽泛,现在根据人工智能的实例将它分为三大类: 弱人工智能(Artificial Narrow Intelligence,ANI) 弱人工智能是擅长单个方面的人工智能,如AlphaGo。 强人工智能(Artificial General Intelligence,AGI) 达到类人级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活,它都能干。创造强人工智能比创造弱人工智能难得多,目前还做不到。 Linda Gottfredson 教授把智能定义为“一种宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作。”强人工智能在进行这些操作时应该和人类一样得心应手。 超人工智能(Artificial Super Intelligence,ASI) 牛津哲学家、知名人工智能思想及 Nick Bostrom 把超级智能定义为 “在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍。

Python 数据分析与挖掘概述

非 Y 不嫁゛ 提交于 2019-12-28 03:12:44
Python 数据分析与挖掘概述 一、数据分析与挖掘介绍 从人类历史的角度出发,我们回顾整个计算机的发展历程可以看到,从第一台电子计算机(ENIAC)于1946年2月诞生到今天,也不过是短短的六十载,但就是在这短短的几十年过程中,计算机技术得到了飞速的发展,极大地促进了社会生产力的提高,提升了生产制造水平。可以说计算机技术是近代以来发展最为迅速的技术之一。 尤其是近年来,随着半导体技术,通讯技术的不断发展,人类收集数据和存储数据的能力都得到了极大的提高。无论是在科学研究还是社会生活的各个领域中都产生积累了大量的数据,对这些数据进行分析以挖掘出蕴含在这些数据中的有用信息,已成为我们各个领域的共同需求,对改善人类的生活,促进社会的发展有着极大的作用。 数据分析与挖掘是指利用数学和计算机的手段,对收集来的数据进行适当的处理和开发,以求最大化地开发数据的功能,发挥数据的作用。具体来说,数据挖掘是从海量的数据中挖掘出隐含的、先前未知、对决策有潜在价值的关系、模式、趋势,并利用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具、和过程。 留心观察就会觉察到,大数据分析在我们生活中的应用案例屡见不鲜。例如许多电商网站会根据用户的历史浏览足迹、购买记录等数据,挖掘出用户的喜好等信息,然后基于用户的兴趣偏好,把用户感兴趣的物品或者视频、资讯等推荐给用户,给用户带来沉浸式的体验

顶级数据工程师思考方式

試著忘記壹切 提交于 2019-12-26 10:23:12
  男怕入错行,女怕嫁错郎。同样是IT行业,既有6000块月薪横扫一片的外包人形代码机器,也有刚毕业就年薪30万都招不到的互联网算法工程师。    那顶级数据工程师在面对一堆数据的思考方式是什么样的呢 ?本文主要讲解数据分析的基本概念、基本分析建模方式、以及两种验证方法,最后谈论数据分析和深度学习的区别。 数据分析概念 数据分析 指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用 。数据分析是为了提取有用信息和形成结论而对数据加以洋细研究和概括总结的过程。 数据分析基础分析 数据分析中的 基础分析主要解答事物的统计特征,以及概率的相关问题 。它首先研究是否可以通过均值、方差等简单的统计量来说明问题;其次,分析数据是否符合某种分布,如果能给出数据分析的有效分布,就可以合理地计算事物的概率。 数据挖掘建模 一般情况下,应由易到难地选择建模方式,解决实际问题。比如针对一组数据,我们 首先要 考虑基本的统计量以及概率分布是否能达到数据分析的目标; 其次 思考能否运用数据挖掘的方法来对数据进一步的分析; 最后探讨 深度学习思路能否更好地解决问题。总之,兵无常之势,水无常形。而现在多少人上来就是直接深度学习的。 结果验证 常用的两种方法:1. 多维度对比法 ;2. 冗余验证法 。 多维度对比法 是指对于某一项数据

数据挖掘——层次聚类(Hierarchical clustering)学习及python实现

被刻印的时光 ゝ 提交于 2019-12-24 18:49:17
文章目录 一、前言 二、自底向上的层次算法 三、 python实现层次聚类 四、使用Sklearn中的层次聚类 五、使用Scipy库中的层次聚类 (1). linkage(y, method=’single’, metric=’euclidean’) (2).fcluster(Z, t, criterion=’inconsistent’, depth=2, R=None, monocrit=None) 六、层次聚类的优缺点 参考资料: 一、前言   层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。层次聚类算法相比划分聚类算法的优点之一是可以在不同的尺度上(层次)展示数据集的聚类情况。   根据创建聚类树有的两种方式:自下而上合并和自上而下。基于层次的聚类算法可以分为:凝聚的(Agglomerative)或者分裂的(Divisive)。 自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。 自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”。   这两种路方法没有孰优孰劣之分

Python数据分析与挖掘实战学习笔记(1)

微笑、不失礼 提交于 2019-12-24 14:47:51
Chapter1 数据挖掘基础 目录 Chapter1 数据挖掘基础 什么是数据挖掘 数据挖掘的基本过程 定义挖掘目标 数据取样 数据探索 数据预处理 模型评价 什么是数据挖掘  从数据中淘金,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。 数据挖掘的基本过程 定义挖掘目标  针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。 数据取样  在明确了需要进行挖掘的目标以后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部的企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。  进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此下去,则很可能会造成误导。若从正在运行的系统中进行数据取样

数据可视化案例 | 如何打造数据中心APP产品

僤鯓⒐⒋嵵緔 提交于 2019-12-24 10:41:23
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 意识到数据探索带来的无尽信息,越来越多的企业开始建立自有的数据分析平台,打造数据化产品,实现数据可视化。 在零售商超行业,沃尔玛“啤酒与尿布”的故事已不再是传奇。无论是大数据还是小数据,众多智者都意识到,与其逐波随流,不如就地落实,深化管理,打造数据于战略的联盟。 永辉也深知这样的道理。作为首批将生鲜农产品引进现代超市的流通企业,十几年来,永辉一路经历了家门口永辉、百姓永辉、绿色永辉、科技永辉、生态永辉的发展。在企业管理上,注重员工文化,注入了很多理想,推行合伙人机制。员工、供应商和企业股东一起搭建一个创业平台。 其中,数据就是这个平台中重要的板块。数据的挖掘和驱动关系着未来的发展和引资。 搭建APP数据平台 在数据管理方面,永辉一直使用SAP体系,但在使用过程中,诸如出现空白页报表的情况屡见不鲜。基于搭建APP数据平台这一契机,永辉联手帆软报表FineReport,打造了移动端报表。 因为FineReport采用的H5的架构,自适应效果很好。永辉利用用ATK做二次开发,在FineReport的APP上做个性化定制,将FineReport的原生报表集成到自己的APP中。 同时,植入互联网思维,不断改进和优化交互界面,以提高员工的使用率。 APP数据报表的应用 目前,永辉使用的报表有两百多张