聚类

如何突破长效增长困局?用户运营才是新零售王者之道!

匆匆过客 提交于 2020-10-05 17:53:10
新零售行业的发展正在进入到一个全新的发展阶段,与早期资本运作期的大刀阔斧不同,这个阶段,新零售行业的发展更显沉稳和坚定。 新零售,已然颠覆了传统零售经营产品的思维,经营用户才是核心,作为运营需要把用户的需求具象化,具象成人群特质,具象成场景反馈,在实践中触达用户;打造用户与品牌、与商品的连接、归属和粘性。用户运营贯穿整个用户生命周期,是一项持续持久的运营工作。通过LTV模型(生命周期价值)对用户进行不同阶段的价值聚类,对其进行有针对性的运营。 阿里报告中“以消费者体验为中心的数据驱动的泛零售型态”定义新零售,以7-Eleven为例,它与传统企业最大的差异就是“一切以用户价值为导向”,在店员结账时会记录顾客的性别年龄,或是用电子广告牌上的摄影机分析记录你的表情。收集行为数据后,他们会结合销售数据,不断调整进货的品类、商品陈列、折扣,去优化消费体验、加速商品流通、压低库存,几十年来将用户需求满足到了极致。所以从 7-Eleven 身上,早就可以看到消费体验为中心、数据驱动与泛零售的雏形。 世界一直在变,但本质却不陌生,不断提升效率,不断细化分工,以大数据支撑场景洞察,以体验设计为基础架构的新信用关系与新效率体系。可以预见,未来的主力消费群体一定非常渴望在生活中获得便利且新鲜的体验,对于新零售行业来说,缺少的不是概念,而是真正可以落地的能力。 下面,诸葛君围绕拉新、粘度、活跃

文本挖掘之情感分析(一)

做~自己de王妃 提交于 2020-10-05 08:17:47
一、文本挖掘 文本挖掘则是对文本进行处理,从中挖掘出来文本中有用的信息和关键的规则,在文本挖掘领域应用最往广泛的是对文本进行分类和聚类,其挖掘的方法分为无监督学习和监督学习。文本挖掘还可以划分为7大类:关键词提取、文本摘要、文本主题模型、文本聚类、文本分类、观点提取、情感分析。 关键词提取 :对长文本的内容进行分析,输出能够反映文本关键信息的关键词。 文本摘要 :许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。 文本聚类 :主要是对未标注的文本进行标注,常见的有 K均值聚类和层次聚类。 文本分类 :文本分类使用监督学习的方法,以对未知数据的分类进行预测的机器学习方法。 文本主题模型 LDA :LDA( Latent Dirichlet Allocation )是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,该模型可以用于获取语料的主题提取和对不同类别的文档进行分类。 观点抽取 :对文本(主要针对评论)进行分析,抽取出核心观点,并判断极性(正负面),主要用于电商、美食、酒店、汽车等评论进行分析。 情感分析 :对文本进行情感倾向判断,将文本情感分为正向、负向、中性。用于口碑分析、话题监控、舆情分析。 因为自己的论文写的是关于情感分析方面的内容,因此打算接下来主要写情感分析系列的内容

新手一看就秒懂的数据挖掘的10大算法

狂风中的少年 提交于 2020-10-05 06:23:29
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。 数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。 算法分类 连接分析:PageRank 关联分析:Apriori 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 一、PageRank 当一篇论文被引用的次数越多,证明这篇论文的影响力越大。 一个网页的入口越多,入链越优质,网页的质量越高。 原理 网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和 一个网页的影响力:所有入链的页面的加权影响力之和。 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。 比喻说明 1、微博 一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。 如果是僵尸粉没什么用

2020入门数据科学的9大项目力荐

℡╲_俬逩灬. 提交于 2020-10-04 15:09:48
现在疫情逐渐好转,在接下来的自我隔离期内,大家可以利用独处时间学习新技能,读书,提升自己。 对于那些对数据分析,数据科学或是其他相关领域感兴趣的同学来说,我想制作一份大家业余时间可以做的9个项目的清单,这份清单没有特定的完成顺序。 1. 信用卡反欺诈 据预测,在2022年之前全球将会有12亿信用卡持有者。 为了保证信用卡交易的安全性,监控欺诈行为就变得非常重要。信用卡公司必须要能够识别出盗刷交易,这样客户才不必为他们没有购买的东西买单。一个信用卡数据集会同时包含欺诈和合法的交易数据,项目的目标是预测交易是否为欺诈。 用到的算法: 由于目标变量是分类变量,这个问题可以用以下机器学习算法来解决: 逻辑回归 决策树 神经网络 R/Python代码示例: Data Science Project - Detect Credit Card Fraud with Machine Learning in R https:// data-flair.training/blo gs/data-science-machine-learning-project-credit-card-fraud-detection/ Credit Card Fraud Detection Project https://www. kaggle.com/mendozav/cre dit-card-fraud

Nifi简介及核心概念整理

丶灬走出姿态 提交于 2020-10-03 21:44:33
简介 Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。 它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。 NiFi原来是NSA(National Security Agency [美国国家安全局])的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一 NiFi基于Web方式工作,后台在服务器上进行调度。 用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。 Nifi 核心概念 Nifi 的设计理念接近于基于流的编程 Flow Based Programming。 FlowFile:表示通过系统移动的每个对象,包含数据流的基本属性 FlowFile Processor(处理器):负责实际对数据流执行工作 Connection(连接线):负责不同处理器之间的连接,是数据的有界缓冲区 Flow Controller(流量控制器):管理进程使用的线程及其分配 Process Group(过程组):进程组是一组特定的进程及其连接,允许组合其他组件创建新组件 设计模型 什么是SEDA(Staged Event-Driven Architecture)? 核心思想是把一个请求处理过程分成几个Stage

GNN中的Graph Pooling

徘徊边缘 提交于 2020-10-03 21:41:09
前言 GNN/GCN在非欧数据中的应用具有极大的挖掘价值。通常,GNN的应用分为两种:1,节点分类;2,图分类。 节点分类 可以用在点云分割,社交网络节点分类,推荐算法等等。 图分类 可以用在姿态估计,蛋白质分类等等,当然,也可以用在图像分类。 对于节点分类而言,图结构在forward阶段是不会改变的,改变的只是节点的隐藏层属性。如下: 对于图分类而言,图结构在前传的时候会 downsize ,最后聚合成一个点的feature再做MLP: 截图来自论文:https://arxiv.org/abs/1901.00596 图分类所用的downsize便是本文的主角graph pooling 。--终于引出来了.. Graph Pooling GNN/GCN 最先火的应用是在Node classification,然后先富带动后富,Graph classification也越来越多人研究。所以, Graph Pooling的研究其实是起步比较晚的 。 Pooling就是池化操作,熟悉CNN的朋友都知道Pooling只是对特征图的downsampling。不熟悉CNN的朋友请按ctrl+w。对图像的Pooling非常简单,只需给定步长和池化类型就能做。但是Graph pooling,会受限于非欧的数据结构,而不能简单地操作。 简而言之,graph

思考:如何保证服务稳定性?

☆樱花仙子☆ 提交于 2020-10-03 07:20:20
最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。 生产全链路压测终于告一段落,抽出时间将个人收集的稳定性相关资料整理review了一遍,顺带从不同的维度,谈谈稳定性相关的“务虚”认知和思考。。。 一、SLA! 在开始谈稳定性保障之前,我们先来聊聊业内经常提及的一个Topic: SLA! 业内喜欢用SLA (服务等级协议,全称:service level agreement)来衡量系统的稳定性,对互联网公司来说就是网站服务可用性的一个保证。 9越多代表全年服务可用时间越长服务越可靠,停机时间越短。就以一个标准99.99%为例,停机时间52.6分钟,平均到每周也就是只能有差不多1分钟的停机时间, 也就是说网络抖动这个时间可能就没了。保证一个系统四个9或者更高的五个9,需要一套全体共识严格标准的规章制度,没有规矩不成方圆。创建的规范有如下几种: 1、研发规范、自身稳定; 2、事务中不能包含远程调用; 3、超时时间和重试次数要合理; 4、表数据操作必须double check,合理利用索引,避免出现慢查询、分库分表不走分表键; 5、没有有效的资源隔离, 避免不同业务共用一个线程池或连接池; 6、合理的系统拓扑,禁止不合理的服务依赖,能去依赖就去依赖,否则同步依赖尽量改成异步弱依赖;

K近邻算法哪家强?KDTree、Annoy、HNSW原理和使用方法介绍

微笑、不失礼 提交于 2020-10-03 03:46:33
1、什么是K近邻算法 K近邻算法(KNN)是一种常用的分类和回归方法,它的基本思想是从训练集中寻找和输入样本最相似的k个样本,如果这k个样本中的大多数属于某一个类别,则输入的样本也属于这个类别。 关于KNN算法,一个核心问题是: 如何快速从数据集中找到和目标样本最接近的K个样本? 本文将从这个角度切入,介绍常用的K近邻算法的实现方法。具体将从原理、使用方法、时间开销和准确率对比等方面进行分析和实验。 2、距离度量 在介绍具体算法之前,我们先简单回顾一下KNN算法的三要素: 距离度量、k值的选择和分类决策规则 。 其中机器学习领域常用的距离度量方法,有欧式距离、余弦距离、曼哈顿距离、dot内积等 主流的近邻算法都支持上述不同的距离度量。其中n维特征空间的a、b向量的 欧式距离 体现数值上的绝对差异,而余弦距离基于余弦相似度(两个向量间夹角的余弦值),体现方向上的相对差异。 如果对向量做归一化处理,二者的结果基本是等价的。 实际应用中,需要根据业务目标来选择合适的度量方法。 3、K近邻算法的实现方法 K近邻的实现方式多达数十种,笔者从中挑选了几种常用、经典的方法作为分析案例。 首先最直观的想法(暴力法),是线性扫描法。将待预测样本和候选样本逐一比对,最终挑选出距离最接近的k个样本即可,时间复杂度O(n)。对于样本数量较少的情况,这种方法简单稳定,已经能有不错的效果。但是数据规模较大时

学术分享丨草莓采摘机器人的果实定位与环境感知

旧街凉风 提交于 2020-10-02 16:11:23
      随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《草莓采摘机器人的果实定位与环境感知》。   随着农业智能化发展,机器视觉越来越多的应用于农业之中。近期IEEE Access发表了“Fruit Localization and Environment Perception for Strawberry Harvesting Robots”,文中介绍了一种应用于草莓采摘机器人的机器视觉系统,可以实现草莓定位与环境感知。首先利用深度卷积神经网络对草莓进行检测,然后通过坐标变换、基于密度的聚类方法和位置逼近方法对草莓进行局部定位。环境感知对于农业机器人来说至关重要,保证了机器人与人、目标物体与周围环境之间的安全交互。    1、系统总体设计   文中的草莓采摘机器人采用静态采摘,即当机器人处理图像时处于静止状态,处理完成后向机器人控制系统发出指令。因此,当机器人处于静止状态时,机器视觉系统通过相机模块获取的RGB和深度图像实现草莓定位和环境感知计算。   所提出的机器视觉系统的整体架构如图1所示。利用实例分割网络R-CNN对草莓、皮带和桌子等目标进行检测。然后

学了这么久,你知道Python机器学习全流程是怎样的么?

こ雲淡風輕ζ 提交于 2020-10-02 11:23:27
万事开头难,首先Python机器学习整个流程的第一步就是学习Python这门编程语言的相关基础知识。 第一步:基本 Python 技能 如果要使用 Python 进行机器学习,拥有对 Python 有基础的理解非常关键。幸运的是,Python 是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的 Python 经验和编程经验。 这里推荐几本python入门必读书籍: 别再说你不知道怎么学习Python了,13本书给你安排的明明白白! 对于想要速成课程的人,这里有 全网最全Python学习路线图+14张思维导图,让你不走弯路! 第二步:机器学习基础技能 KDnuggets 的 Zachary Lipton 指出,人们对数据的认识千差万别,这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知核函数方法是否是必需的?答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围, 而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。 好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。 关于机器学习基础技能