数据挖掘

电商大数据分析技术

删除回忆录丶 提交于 2019-12-11 18:32:35
电商大数据分析技术 一、电商大数据分析主要体现 1,其实对于电子商务来说最早的大数据分析是体现在分析网站数据上,现在电子商务的形式变得多样化,无论是PC端还是移动端百花齐放,而最开始电子商务主要的载体就是网站,因此分析网站每天或者每个时段的流量以及来源和具体的用户追踪数据等,这些都属于大数据分析。 2,随着电子商务的成熟,现在的电子商务不仅有网站一种载体,还有各种平台和app等载体,因此电商大数据分析就体现在RFM模型上,RFM模型指的是从各个渠道了解客户访问的产品的分类品牌价格和渠道等数据,打造完成的客户消费模型,以此来分析出有用的数据。 3,电子商务大数据分析自然不能只停留在用户行为的模仿,还体现在营销活动的精细化分析方面,具体的分析对象则是产品而不是用户,以产品为中心采集和分析数据,得到营销活动精细化的分析数据,最终可以用来优化产品。 4,大数据分析技术现在已经非常的成熟,因此在电子商务方面的体现还有分析产品之间的关联性,通过大量的数据分析得出产品和产品之间的关联性,这样可以让商家作为参考来调整产品。 二、数据挖掘与分析 随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。

python数据挖掘01——Matplotlib

百般思念 提交于 2019-12-11 02:01:29
Jupyter notebook: 是一个在web应用程序,相当于网页版的python IDE。 1、快捷方式: Shift+Enter : 运行本单元,选中下个单元 Ctrl+Enter : 运行本单元 A :在上方插入新单元 B:在下方插入新单元 DD:删除该行 Ctrl+鼠标:多光标操作 Matplotlib: 用于开发二维图表的可视化工具。 1、快速入门: # 引入matplotlib import matplotlib.pyplot as plt # %matplotlib inline # 创建画布 plt.figure() # 描点(1,4),(0,5),(9,6) plt.plot([1,0,9],[4,5,6]) plt.show() 2、三层结构: 画板层(Canvas):置于最底层,用户一般无法接触 画布(Figure):建立在Canvas之上 绘图区(Axes):建立在画布之上,其中辅助显示层与图像层都建立在Axes之上。 3、画布属性: figsize:图像长宽 dpi:清晰度 # 在建立画布的时候设定 plt.figure(figsize=(8, 6), dpi=80) # 添加网格 plt.grid(linestyle='--', alpha=0.5) # 添加标题信息等 plt.xlabel("time") plt.ylabel("温度") plt

《基于数据挖掘聚类算法的学生成绩分析》 文献笔记(十八)

柔情痞子 提交于 2019-12-08 20:30:30
一、基本信息 标题:基于数据挖掘聚类算法的学生成绩分析 时间:2019 来源:电脑知识与技术 关键词:数据挖掘; 数据仓库; 方法; 二、研究内容 1.数据挖掘系统结构 2.模式的兴趣度 (1)模式容易让人理解; (2)新的数据同样满足挖掘的模式; (3)模式具有潜在的效用; (4)模式是以前没出现过的, 具有新颖性; 3.FP树结构 三、结论 收集好了的数据进行离散化处理, 特别是性别与年龄的离散化的处理方便了挖掘算法的实现。 同时为确保挖掘出的规则的实用性和正确性对学生成绩的影响因素进行问卷调查, 便于以后比对。主要使用数据挖掘中FP增长算法作为基础, 在实际情况为依托进行频繁项集的计算过程中对FP增长算法进行了相应的调整, 使之更容易由开发工具实现并减少了系统开销, 并得到关联规则。 四、参考文献 [5]张贵元.基于数据挖掘聚类算法的学生成绩分析[J].电脑知识与技术,2019,15(09):1-2 来源: https://www.cnblogs.com/zzq1234/p/12007037.html

《数据挖掘技术在学生成绩分析中的应用研究》 文献笔记(十七)

这一生的挚爱 提交于 2019-12-08 20:20:46
一、基本信息 标题:数据挖掘技术在学生成绩分析中的应用研究 时间:2010 来源:西安油门大学 关键词:数字挖掘技术;学生成绩;分析应用; 二、研究内容 1.数据挖掘模型与任务 2.数据挖掘基本过程与主要步骤 三、结论 概括了数据挖掘的过程、挖掘的对象、功能和方法。为后续数据挖掘的时间研究奠定了理论基础。 四、参考文献 [1]李杰,数据挖掘技术在学生成绩分析中的应用研究[D].西安:西安油门大学,2010. 来源: https://www.cnblogs.com/zzq1234/p/12006928.html

《基于数据挖掘的高校学生成绩关联分析研究》 文献笔记(十四)

僤鯓⒐⒋嵵緔 提交于 2019-12-08 18:36:31
一、基本信息 标题:基于数据挖掘的高校学生成绩关联分析研究 时间:2018 来源:北京邮电大学 关键词:数据挖掘; 聚类; 关联规则; 成绩分析; 二、研究内容 1.关联规则的支持度 2.频繁模式树 3.数字信号处理 4.引入兴趣度度量的关联规则挖掘算法流程图 三、结论 知网上的页数太多,在网页上在线阅读了没有下载,图片模糊不清,其实几个基于数据挖掘的论文都大同小异。 四、参考文献 [17]张甜. 基于数据挖掘的高校学生成绩关联分析研究[D].北京邮电大学,2018. 来源: https://www.cnblogs.com/zzq1234/p/12006579.html

Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探

落花浮王杯 提交于 2019-12-06 23:17:34
Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探 1 前言 分类和回归是强大易学的机器学习技术。需要注意的是:为了对新的样本预测未知的值, 必须从大量已知目标值的样本中去学习,这类技术统称为监督学习技术。 下面将会重点介绍非监督学习的算法:K均值聚类。这样的情况实际中总是可能碰到:当你手头的数据完全没有目标变量的正确结果。 例如:请根据电子商务站点提供的关于用户习惯和品味的数据给用户分群,输入数据是他们购物、点击、个人图片 、浏览、下单等等的特征,输出是用户的分组标识,也许其中某个类别的人是代表有时尚意识的用户,而另一个组的 用户更加喜欢价格便宜的商品等等。不过不用担心这类问题却可以用非监督学习的方法解决。这些技术并不是通过学习目标值才去预测目标值, 因为没有目标值。然而这些技术通过学习数据的结构,从而发现哪些样本之间是相似的,或者学到哪些输入可能会发生, 哪些又不会发生。放心上面的问题下面将会一步一步用Spark实战的方式得到初步解决。 2 异常值检测 异常值检测正如其名目的就是为了发现不寻常的事情。如果你已经有一批标记为异常的数据集合,那么存在大量的监督学习算法 非常容易就可以检测异常。这些算法将从标记有 “异常” 和 “非异常” 的数据集中 学会怎么去区别它们。然而现实世界里的异常值却是人们不知道的事情。换句话说

数据挖掘(二)-经典算法

大憨熊 提交于 2019-12-06 22:14:34
数据挖掘经典算法 先描述各种算法的基本知识,后续会推出所有单个算法的具体描述、推导、代码。 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1.用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2.在树构造过程中进行剪枝; 3.能够完成对连续属性的离散化处理; 4.能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。 其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效(相对的CART算法只需要扫描两次数据集, 以下仅为决策树优缺点 )。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。 K-means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据。 来源:

我学Python都看了哪些书

一笑奈何 提交于 2019-12-06 17:07:12
前言 2017年11月29日,自己曾在公众号内写过一篇《 聊聊我的R语言学习路径和感受 》的文章,受到了很多朋友的关注和赞扬,同时,也有其他公众号在帮忙转载。当然,也有很多朋友也给我留言, 能不能聊聊关于Python的学习建议 ,时隔一个多月,今天抽空再来谈谈自己学习Python的路程吧。 准确的说自己是从2014年的9月份开始接触Python的,那会由于工作需要,硬着头皮开始学习Python,不怕各位笑话,我的 第一本Python启蒙书籍 是 《与孩子一起学编程》 。这本书真的非常通俗易懂,从什么是变量、基本的数学运算、数据类型到复杂一点的控制流语法和应用,再到Python的几种数据结构讲解等等,同时也会将这些基础知识拼起来写一个和小孩一起玩的游戏( 尽管自己对游戏没有什么兴趣,但还是照书抄代码了 )。 说这段经历的目的是想说明, 你必须得明确自己学习Python的目的是什么 ,因为对于一个初学者来说,经常向度娘或周边的朋友询问:“学习Python,有什么书可以推荐吗?” 如果不搞清楚自己学习的目的,那这个问题其实是白问的 。因为Python能做的事实在是太多了,对于这个问题,你会得到五花八门的答案,此时你也会疑惑,这么多可供选择的初级书,我该选择哪一本呢?所以, 首先问自己 ,我学习Python是用它来搞运维?还是用它来做开发?还是用它来完成你的数据分析与挖掘?很显然

吹吹BI

折月煮酒 提交于 2019-12-06 15:21:45
我自己理解的BI环节: ETL:完成数据抽取转换并加载到数据仓库 数据分析:这里主要指基于数据集市的OLAP,使分析人员多角度理解数据,验证相应的假设 主要是在较高的汇总级别的。 数据挖掘:使用挖掘算法,获得深层次的数据洞察,发现数据中隐藏的有趣模式。 前端展示层:主要指报表,以各种图表(仪表盘,趋势图等方式),其数据可以来源于OLAP或者数据挖掘结果 BI应该是IT在企业级别应用上未来几年的发展方向,在企业完成了ERP,SAP之后,建设数据仓库和BI将是未来的主流。 29楼提到的几个环节基本cover了BI技术层面的要点;但是真正的BI,一定是以业务知识和工业实践为主导,best practice,business knowledge才是BI的核心。 未来几年将是BI的天下,大浪淘尽,最后屹立不倒的公司,一定有业务理解的独到之处;最后成为大牌专家的顾问,一定首先是业务专家 业务+模型!! 业务和技术都很重要哦,不懂业务就不明白客户管理者到底需要的是什么,该用什么方式展示。。。BI说到底还是为管理高层服务的。 BI程序员分2类:etl工程师,数据挖掘工程师 etl:你就要学好数据库,低端角色学好sql语句,高端角色学好sql DBA 数据挖掘:学好那10大算法的原理后,会用工具,会分析数据,分析业务(要求了解业务逻辑) 其实用sqlserver,还是用oracle,还是DB2

海量数据的二度人脉挖掘算法(Hadoop 实现)

坚强是说给别人听的谎言 提交于 2019-12-06 13:54:57
原创博客,转载请注明: http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你关注的人中有N个人同时都关注了 XXX 。 在程序的实现上,其实我们要找的是:若 User1 follow了10个人 {User3,User4,User5,... ,User12}记为集合UF1,那么 UF1中的这些人,他们也有follow的集合,分别是记为: UF3(User3 follow的人),UF4,UF5,...,UF12;而在这些集合肯定会有交集,而由最多集合求交产生的交集,就是我们要找的:感兴趣的人。 我在网上找了些,关于二度人脉算法的实现,大部分无非是通过广度搜索算法来查找,由于深度已经明确了2以内;这个算法其实很简单,第一步找到你关注的人;第二步找到这些人关注的人,最后找出第二步结果中出现频率最高的一个或多个人,即完成。 但如果有千万级别的用户,那在运算时,就肯定会把这些用户的follow 关系放到内存中,计算的时候依次查找;先说明下我没有明确的诊断对比,这样做的效果不一定就不如 基于hadoop实现的好;只是自己,想用hadoop实现下,最近也在学;若有不足的地方还请指点。 首先,我的初始数据是文件,每一行为一个follow 关系 ida+‘