数据挖掘

理解用户画像

≡放荡痞女 提交于 2019-12-24 10:25:09
伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及,如今互联网产品又该如何运营、攻城略地?本文介绍的用户画像或许能带来一点思路。 用户画像数据定义 用户画像 是根据用户 社会属性 、 生活习惯 和 消费行为 等信息/数据而抽象出的一个 标签化的用户模型 。 构建用户画像的核心工作即是 给用户贴“标签” —— 用数据来描述人的行为和特征 ,用通过对用户信息分析而来的高度精炼的特征标识(标签)从不同的维度来表达一个人,是 对现实世界中用户的数学建模 , 是数据策略的基石 。 从数据结构角度而言,用户画像是一个(用户,标签列表)二元组。 用户画像的作用 用户画像承载了两个业务目标: 一是如何准确的 了解现有用户 ; 二是如何在茫茫人海中通过广告营销 获取类似画像特征的新用户 。 比如在了解用户的基础上明确产品定位,“投其所好”;获取一个新用户/新订单;售前的 精准营销 、售中的 个性化推荐匹配 ,以及 售后的增值服务 等。 用户流量的三大终极问题:认知用 户 “用户是谁?”(用户画像与特征)现存客户 (Existing Customer) - 我的现存客户是怎么样,喜欢什么,什么消费习惯,哪些客户最值钱等等“用户从哪里来?”(用户来源渠道与效果) 现存客户 (Existing Customer) - 我的现存客户是怎么样,喜欢什么,什么消费习惯

异常值探测的相关理论及方法

牧云@^-^@ 提交于 2019-12-23 04:56:10
 摘要: 异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题 给予 很高的关注。所以,近年来有关异常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计法 律制度的 健全以及统计工作程序完善等方面。虽然这两点确实能提高统计数据的质量,但对于已经形成的统计数 据,在进行统 计分析之前,我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社会经济现象实 际的数量特征之间 的差距问题。异常值的存在,使得统计分析的误差大大增大,小则出现差错,大则可能发生事 故,甚至可能会导致严 重的宏观决策失误。因此,在利用已得数据进行统计分析之前,必须对异常值进行探测和 检验。 关键词: 异常值 定义 方法 一、概述 异常数据挖掘,又称为离群点分析或者孤立点挖掘。在人们对数据进行分析处理的过程中,经常会遇到少量 这样的数据,它们与数据一般模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为异常数据, 对异常数据的处理在某些领域很有价值,例如在网络安全领域,可以利用异常数据挖掘来分析网络中的异常行 为;在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚假报价、欺诈贷款 等。 异常数据挖掘涉及两个基本问题。其一,在对一个给定的数据集分析之前必须事先约定满足什么样的数据才 是异常数据,也就是异常数据定义的问题。其二

《数据挖掘概念与技术》学习笔记-第一章

和自甴很熟 提交于 2019-12-20 23:11:34
1.1 什么是数据挖掘? 数据挖掘是从大量数据中发现有趣模式和知识的过程,它既不是一种广告宣传,也不是数据库、统计学、机器学习或模式识别发展而来的技术的简单转换或应用。 机器学习的不断发展,为数据挖掘提供了很好的数据分析技术基础,而统计学则帮助人们更好的理解数据的全貌,模式识别也在数据挖掘的过程中被广泛应用,因此,数据挖掘实际上是多种数据分析技术共同发展才得以发展壮大的,并且与这些技术相辅相成,互相促进。 如果把数据挖掘看作知识发现过程,则这一过程涉及以下步骤: 1.数据清理:消除噪声和删除不一致数据 2.数据集成:多种数据源可以组合在一起 3.数据选择:从数据库中提取与分析人物相关的数据 4.数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式 5.数据挖掘:基本步骤,使用智能方法提取数据模式 6.模式估计:根据某种兴趣度度量,识别代表知识的真正有趣的模式 7.知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识 1.2数据仓库与数据库有什么异同? 数据库与数据仓库的主要区别在于数据集的大小和对数据的处理方式。 数据库处理数据的主要方法是操作型处理,即联机事务处理OLTP(On-Line Transaction Processing),也可以称为面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改。用户较为关心操作的响应时间

Spark MLlib

给你一囗甜甜゛ 提交于 2019-12-18 16:05:22
MLlib 数据挖掘与机器学习 数据挖掘体系 数据挖掘:也就是data mining,是一个很宽泛的概念,也是一个新兴学科,旨在如何从海量数据中挖掘出有用的信息来。 数据挖掘这个工作BI(商业智能)可以做,统计分析可以做,大数据技术可以做,市场运营也可以做,或者用excel分析数据,发现了一些有用的信息,然后这些信息可以指导你的business,这也属于数据挖掘。 机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类、聚类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。 深度学习:deep learning,机器学习里面现在比较火的一个topic,本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。 总结:数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习也是来源于机器学习的算法模型

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1)

北城以北 提交于 2019-12-14 21:09:35
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) 1 前言 结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战。对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本。但是,一些情况下人们希望找到某一个概念的文本,而不关心文本里面是否包含某个关键词。这种情况下应该如何是好? 隐语义分析(Latent Semantic Analysis,简称:LSA)是一种寻找更好的理解语料库中词和文档之间关系的自然语言和信息检索的技术。它试图通过语料库提取一系列概念。每个概念对应一系列单词并且通常对应语料库中讨论的一个主题。先抛开数据而言,每一个概念由三个属性构成: 每个文档与概念之间的相关性 每个单词与概念之间的相关性 概念描述数据集变化程度(方差)的重要性得分 比如:LSA可能会发现某个概念和单词“股票”、“炒股”有很高的相关性并且和“互联网金融系列文章”有很高的相关性。通过选择最重要的概念,LSA可以去掉一些噪音数据。 在很多场合都可以使用这种简洁的表示,比如计算词与词、文档与文档、词与文档的相似性。通过LSA得到的关于概念的得分,可以对语料库有更加深入的理解,而不只是简单的计算单词或者共现词。这种相似性度量可以解决同义词查询

Spark数据挖掘-TF-IDF文档矩阵

那年仲夏 提交于 2019-12-14 20:28:29
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Spark数据挖掘-TF-IDF文档矩阵 前言 得到词文档矩阵往往都是文本挖掘算法的第一步,词文档矩阵中行表示语料库中出现过的词(实际代码都是对词进行整数编码),列表示所有的文档,矩阵中的每个值就代表词在文档中的重要程度。目前已经有很多计算词在文档中权重的模型,不过最通用的模型应该就是 词频-逆文档频率(简称:TF-IDF) 矩阵。 TF-IDF 先看一下TF-IDF如何计算每个词在文档中的重要程度,先假设得到了下面几个变量的值: termFrequencyInDoc:Int 词在文档中出现的次数 totalTermsInDoc: Int 文档中所有词的个数 termFreqInCorpus: Int 语料库中出现这个词的不同文档数 totalDocs: Int 整个语料库包含的文档数量 利用上面的几个值就可以计算一个词在文档中的重要程度,代码如下: def termDocWeight(termFrequencyInDoc: Int, totalTermsInDoc: Int, termFreqInCorpus: Int, totalDocs: Int): Double = { val tf = termFrequencyInDoc.toDouble / totalTermsInDoc val docFreq

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)

ⅰ亾dé卋堺 提交于 2019-12-14 20:28:19
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) 前一篇: Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) 1 前言 Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V 它们含义分别如下: V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度 U: 每一行表示文档,列表示概念,矩阵的值表示文档在概念里面的重要程度 S: 对角矩阵,每一个对角线元素代表概念的重要程度 通过这个文档,首先想到的是文档中最重要的概念是什么?概念往往对应话题,这样基本就能确定文档的主题了,然后每个主题通过V矩阵可以得到重要的词,这样就可以给文档添加标签了,但是其实可以走的更远,本文将重点研究如何使用这两个矩阵,这里的用途很容易推广到LDA模型,LDA 模型得到 phi(词与topic关系矩阵) 和 theta(文档与topic的关系矩阵) 两个矩阵之后也可以干这些事。接下来主要尝试回答下面三个问题: 文档与文档关系如何? 词与词关系如何? 词与文档关系如何? 给出一系列查询词最相关的文档是哪些? 2 粗浅的解决方案 其实从最原始的词文档矩阵可以得到上面这些问题粗浅的答案

什么是联机分析处理(OLAP)

99封情书 提交于 2019-12-13 18:52:22
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。 OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB 设计面向应用面向主题数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术

数据挖掘学习图谱

南笙酒味 提交于 2019-12-13 11:53:32
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 接下来的三个月打算用来攻下数据挖掘这一座大山。可以算是从零基础开始入门,希望我的课表能给将来的学习者提供一些学习上的捷径。 1. 数学基础 机器学习必要的数学基础主要包括:多元微积分,线性代数 Calculus One Calculus: Single Variable Multivariable Calculus Linear Algebra 2. 统计基础 Data Analysis and Statistical Inference | 课程笔记 Introduction to Statistics: Descriptive Statistics 概率 Introduction to Statistics: Inference 3. 编程基础 Programming for Everybody Introduction to Computer Science:Build a Search Engine & a Social Network 4. 机器学习 Statistical Learning Machine Learning 机器学习基石 机器学习技法 下面是近期的给外行人读的泛数学科普书籍,由浅至深,作用除了感受数学之美之外,更重要的是可以作用每天学习的鸡血,因为这些书都比较好读…… 1.《数学之美

数据挖掘

不想你离开。 提交于 2019-12-11 18:43:04
数据挖掘 一、数据挖掘分析 1.数据挖掘分析是什么? 技术层面:探查和分析大量数据以发现有意义的模式和规则的过程。 商业层面:为公司带来决策性作用。 2.数据挖掘与分析的功能 自动预测趋势和行为 关联分析 聚类 概念描述 偏差检测 3.数据挖掘与分析目的 提供有用的信息并形成分析结论 4.对数据进行进一步分析 探索性数据分析 模型选定 推断结论 二、数据挖掘方法 1.水平比较分析(同一人每学期成绩作对比) ● 指标比较(发展的好坏),包括定基动态比率、环比动态比率。 定基动态比率:指定一个月份,用别的月跟这个月份比较。 环比动态比率:没一期的动态比。 ● 报表比较,(财务上,决策上),包括相对值分析与绝对值分析。 ●项目比较 2.趋势分析法(预测),用趋势线表示。 ●横向分析(公司自己每一个阶段比较) ●纵向分析(公司跟别的公司) ●标准分析 ●综合分析 3.定标比超法(与定的目标比较) 比超重点分:产品定标比超、过程、管理与战略。 4.波士顿矩阵法,包括明星业务(企业主打)、金牛业务(平稳)、幼童业务(金钱支持)与瘦狗业务(放弃)。 产投差=销量增幅-产能增幅 三、数据挖掘发展趋势 网络化、决策、集成、智能。 情报信息管理功能:市场预警,环境监控,竞争分析,策略制定,信息跟踪,信息安全。 信息情报系统设置考虑的关键KPI指标系统 资本性KPI,效益类KPI,竞争力KPI。 来源: