贝叶斯

机器学习在高德地图轨迹分类的探索和应用

人盡茶涼 提交于 2020-10-16 18:37:47
​1.背景 当我们打开导航,开车驶向目的地的过程中,有时候会碰到这样的问题:前方明明没有路,可能在施工封闭,可是导航仍然让我们往前开车,以至于我们无法顺利到达目的地。全国道路千千万,每天都有巨量的道路变得不可通行,那么如何动态的识别出哪些道路走不通了呢? 图中所示即为因封路事件导致的导航路线改变 道路不通往往导致该条道路汽车流量突然降低。监控汽车流量的变化是挖掘封路事件的重要指标。但是,目前业务中遇到的一个重要问题是,针对汽车无法通行的封路事件,行人、自行车可能都可以穿行,这些行人、自行车等的噪声流量大大削弱了道路流量变化。 因此,如果能够对行人、自行车、汽车的轨迹进行分类,就可以对道路流量的噪声进行过滤,仅仅关注汽车流量,流量随着封路事件的变化将更为显著,从而便于道路封闭的挖掘。本文主要针对非机动车、机动车分类探索轨迹分类问题。 2.样本获取与标签制定 由于轨迹数据缺少原始真值,我们将用户导航模式作为轨迹分类的伪标签。例如当时用户采用汽车导航,其轨迹对应的标签即为汽车。由于汽车导航数据远远多于非机动车,不同伪标签样本比例差异巨大,存在严重的样本不平衡问题。此外,用户导航模式与用户实际出行方式可能并不一致。比如有些用户可以根据汽车导航步行到达目的地。下文介绍的标签- 概率混合贝叶斯模型 将分析并试图解决上述2个问题。 3.特征分析 可以将轨迹分类相关特征划分为5类。分别是:

构建简历解析工具

佐手、 提交于 2020-10-16 10:43:36
作者|Low Wei Hong 编译|VK 来源|Medium 当我还是一名大学生的时候,我很好奇自动提取简历信息是如何工作的。我将准备各种格式的简历,并上传到招聘网站,以测试背后的算法是如何工作的。我想自己尝试建一个。因此,在最近几周的空闲时间里,我决定构建一个简历解析器。 一开始,我觉得很简单。只是用一些模式来挖掘信息,结果发现我错了!构建简历解析器很困难,简历的布局有很多种,你可以想象。 例如,有些人会把日期放在简历的标题前面,有些人不把工作经历的期限写在简历上,有些人不会在简历上列出公司。这使得简历解析器更难构建,因为没有要捕获的固定模式。 经过一个月的工作,根据我的经验,我想和大家分享哪些方法工作得很好,在开始构建自己的简历分析器之前,你应该注意哪些事情。 在详细介绍之前,这里有一段视频短片,它显示了我的简历分析器的最终结果( https://youtu.be/E-yMeqjXzEA ) 数据收集 我在多个网站上搜了800份简历。简历可以是PDF格式,也可以是doc格式。 我使用的工具是Google的Puppeter(Javascript)从几个网站收集简历。 数据收集的一个问题是寻找一个好的来源来获取简历。在你能够发现它之后,只要你不频繁地访问服务器,抓取一部分就可以了。 之后,我选择了一些简历,并手动将数据标记到每个字段。标记工作的完成是为了比较不同解析方法的性能。

贝叶斯神经网络对梯度攻击的鲁棒性

五迷三道 提交于 2020-10-15 05:07:21
©PaperWeekly 原创 · 作者|尹娟 学校|北京理工大学博士生 研究方向|随机过程、复杂网络单位 引言 贝叶斯神经网络(BNN)在最近几年得到了一定的重视,因为其具有一定的推断能力。BNN 不同于一般的 DNN,其权重参数是随机变量,而非确定的值,它是通过概率建模和神经网络结合起来,并能够给出预测结果的置信度。 其先验用来描述关键参数,并作为神经网络的输入。神经网络的输出用来描述特定的概率分布的似然。通过采样或者变分推断来计算后验分布。这对于很多问题来说非常关键,由于 BNN 具有不确定性量化能力,所以具有非常强的鲁棒性。 本文分析了贝叶斯神经网络对对抗攻击具有一定的鲁棒性并且分析了在大数据量、过参数极限下的对抗攻击的几何结构。 并且作者证明了,在一定范围内,由于数据分布中的简并性(高维数据可以映射到低维流形上),当数据位于环境空间的低维子流形上时,基于梯度的攻击的脆弱性就会出现,并且本论文提供了相关的代码,最后一部分会介绍相关的代码。 论文标题: Robustness of Bayesian Neural Networks to Gradient-Based Attacks 论文链接: https://arxiv.org/abs/2002.04359 论文的贡献 本文的贡献可以归结如下三点: 作者提出了在大数据限制下 BNNs 对抗鲁棒性分析的理论框架

“从数学到机器的故事”读后

纵然是瞬间 提交于 2020-10-15 02:00:50
假期是悠闲的,最悠闲的事情莫过于坐下来喝一杯茶,静静地读一本书。陪我度过这个假期是一本薄薄小册子,名为《极简算法史》—— 这本书并没有阐述种种算法的诞生及其应用的场景,而是以哲学思考的方式来讲述从数学到机器的故事。什么是哲学?哲学不是宗教,不是智慧的源泉,也不是解决方案,更不是精确的科学,它是点燃人们思想的一门独立、完整的学科,激励我们与自己麻木不仁的思维不断斗争。 如果把数学、逻辑学和计算机科学绘制成一个三角形,那么数学和逻辑为第一和第二顶点,继而慢慢收敛到计算机科学这第三顶点。 那好吧,让我们来计算一下。——莱布尼兹 关于数学 数学的两大丰碑——概率和对数,是信息论的基础,而贝叶斯公式可能是互联网算法的核心。尽管阴谋论认为一个阴谋导致一系列事件的概率永远大于一系列事件背后藏着一个阴谋的概率,但是科学的核心并不是在统计的基础上建立一个粗略近似的现象。 在数学中,我们永远不会理解所有的事,但会习惯它 ......——冯诺伊曼 数学的美妙来自于人们的抽象,至少经历了3次抽象运动,才逐渐形成了我们现在看到的数学。 第一次抽象运动:将数字从其具体应用中分离开来,变成了抽象的事物。 第二次抽象运动:物体是地球的度量单位,几何学既适用大尺度范围,也适用于小尺度范围。 第三次抽象运动:把解决问题的方法和问题本身分开,代数成了不限制研究对象的概念化工具。 毕达哥拉斯说“万物皆数”,而柏拉图认为

机器学习之贝叶斯网络(概率流动的影响性、有效迹(active--trail)、网络的构建)

人走茶凉 提交于 2020-10-15 01:37:39
  前面学习了朴素贝叶斯的原理,并且利用朴素贝叶斯原理对西瓜数据集3.0数据集进行了分类: 朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正的朴素贝叶斯分类器 ,今天我们更进一步,来探讨一下贝叶斯网络的原理以及应用。 贝叶斯网络 1.定义 2.概率流动的影响性 2.1独立的概念 2.2通过网络判定条件独立 3.有效迹 3.1定义 3.2条件独立与有效迹 3.3 D-separation 3.4判断独立性 4.贝叶斯网络的构建 5.贝叶斯网络的特性 6.贝叶斯网络的缺陷 1.定义   贝叶斯网络(Bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model),是一种概率图型模型。一个贝叶斯网络是一个有向无环图(Directed Acyclic Graph,DAG),由代表变量结点及连接这些结点有向边构成。   上面只是一些繁琐的定义,接下来的说明比较关键: 结点代表随机变量,结点间的有向边代表了结点间的互相关系(由父结点指向其子结点),用条件概率进行表达关系强度,没有父结点的用先验概率进行信息表达。 结点变量可以是任何问题的抽象,如:测试值,观测现象,意见征询等。适用于表达和分析不确定性和概率性的事件,应用于有条件地依赖多种控制因素的决策,可以从不完全

我用Python做了个股票分析工具,真香!

孤街浪徒 提交于 2020-10-15 00:50:31
Python的热度一直高居不下!除了数据分析,还有运维、自动化测试、后端开发、机器学习...Python的用武之地真的太多了! 而量化更是Python的一种高级应用! 什么是量化? 我们利用计算机技术,通过建模分析、优化参数等手段,从历史金融数据中挖掘出影响投资的指标,使用程序进行自动交易来获得“超额”的收益,这种投资方法就叫做量化交易。 现在,很多量化机构将人工智能和机器学习与量化策略相结合。国内的一些顶尖私募,比如:九坤、幻方、朱雀等都在使用AI量化策略,从各大公司的招聘公告上也可以看出这点。 如果想要进一步了解数据分析和量化交易,可以了解下 网易云课堂免费推出的《3天 数据分析师实战营 》 , 资深数据分析大牛带你在 项目案例中实战 学习, 带你少走弯路,真正实现从0到1。 3天数据分析师实战营直播主题 ▼ 9月22日&量化金融进阶: 利用Python玩转A股投资(RSI指标篇) 场景和工具:Pandas工具分解RSI指标 流程处理:业务场景分析建模和可视化 学习成果:使用RSI指标模型做买卖点搜索、交易回溯 实战项目:分析搭建沪深股市投资模型 9月23日&数据算法入门: 60分钟带你搞定数据的高效分类 场景工具:利用贝叶斯算法掌握算法适用的场景 流程处理: 业务场景分析,数据归类和Python语句学习 学习成果:学会操作算法库,对数据进行高效分类 实战案例

Mxnet (44): 使用神经协作过滤(NeuMF模型)进行个性化排名

ⅰ亾dé卋堺 提交于 2020-10-14 22:41:59
1.个性化排名 前面对电影数据集的处理只考虑了明确的反馈,通过观察到的等级进行了训练和测试。这种方法有两个缺点: 在实际应用中,大多数的反馈都是隐式的,显式的反馈往往需要更高的收集成本。 未被观察的哪些用户-项目交互可能用于预测用户的喜好但是被忽略了,当这些缺失不是随机导致的而是由于用户的喜好导致的这些方法将不在适用。很显然,未观测的这些用户-项目对是用户真实的负反馈(用户对这些不感兴趣才没看)和缺失值(正常随机的缺失,跟喜好无关,将来有可能会看)的结合体。如果简单的忽略其实是不对的。 为了解决这个问题,针对从隐式反馈生成排名推荐列表的一类推荐模型已获得普及。通常, 可以使用逐点、逐对以及逐列的方法优化个性化排名模型。逐点方法一次只考虑一次交互,并训练分类器或回归器来预测个人偏好。矩阵分解和AutoRec使用逐点目标进行了优化。 逐对方法为每一个用户考虑一对项目并且致力于为这对项目最优排序。通常, 逐对方法更适合于排序任务,因为预测一对的顺序会使人联想到排序。逐列方法将整列的项目近似排序, 如直接优化排名指标:Normalized Discounted Cumulative Gain ( NDCG )。然而, 列表方法比点方法或成对方法更加复杂且计算量大。 1.1 贝叶斯个性化排序 贝叶斯个性化排序(BPR)是从最大后验估计量得出的成对个性化排序损失

清华张钹院士专刊文章:迈向第三代人工智能(全文收录)

随声附和 提交于 2020-10-12 11:17:37
来源:清华大学人工智能研究院 作者:张钹、朱军、苏航 在这篇评述文章中,清华大学人工智能研究院院长、中国科学院院士张钹教授阐述了自己对于「第三代人工智能」的看法。他认为,第三代 AI 发展的思路是把第一代的知识驱动和第二代的数据驱动结合起来,通过利用知识、数据、算法和算力等 4 个要素,构造更强大的 AI,目前存在双空间模型与单一空间模型两个方案。本文对这篇评述进行了全文刊载。 全文链接:http://scis.scichina.com/cn/2020/SSI-2020-0204.pdf 人工智能(ArtificialIntelligence,简称 AI)在 60 多年的发展历史中,一直存在两个相互竞争的范式,即符号主义与连接主义(或称亚符号主义)。符号主义(即第一代人工智能)到上个世纪八十年代之前一直主导着 AI 的发展,而连接主义(即第二代人工智能)从上个世纪九十年代逐步发展,到本世纪初进入高潮,大有替代符号主义之势。但是今天看来,这两种范式只是从不同的侧面模拟人类的心智 (或大脑),具有各自的片面性,不可能触及人类真正的智能。 清华大学人工智能研究院院长、中国科学院院士张钹教授在「纪念《中国科学》创刊 70 周年专刊」上发表署名文章,首次全面阐述第三代人工智能的理念,提出第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数据驱动的人工智能, 同时利用知识、数据

one-hot encoding非万能,这些编码方法值得拥有

假如想象 提交于 2020-10-09 07:53:56
  选自towardsdatascience    机器之心编译    作者:Andre Ye   编辑:小舟、张倩       one-hot encoding 是一种被广泛使用的编码方法,但也会造成维度过高等问题。因此,medium 的一位博主表示,在编码分类变量方面,我们或许还有更好的选择。   one-hot 编码(one-hot encoding)类似于虚拟变量(dummy variables),是一种将分类变量转换为几个二进制列的方法。其中 1 代表某个输入属于该类别。      从机器学习的角度来看,one-hot 编码并不是一种良好的分类变量编码方法。   众所周知,维数越少越好,但 one-hot 编码却增加了大量的维度。例如,如果用一个序列来表示美国的各个州,那么 one-hot 编码会带来 50 多个维度。   one-hot 编码不仅会为数据集增加大量维度,而且实际上并没有太多信息,很多时候 1 散落在众多零之中,即有用的信息零散地分布在大量数据中。这会导致结果异常稀疏,使其难以进行优化,对于神经网络来说尤其如此。   更糟糕的是,每个信息稀疏列之间都具有线性关系。这意味着一个变量可以很容易地使用其他变量进行预测,导致高维度中出现并行性和多重共线性的问题。      最优数据集由信息具有独立价值的特征组成,但 one-hot 编码创建了一个完全不同的环境。

12款最好用的数据挖掘工具

我们两清 提交于 2020-10-09 05:25:40
数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。 数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。 免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务: 分类: 将熟悉的结构概括为新数据的任务 聚类: 在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。 关联规则学习: 查找变量之间的关系 回归: 旨在找到一个函数,用最小的错误来模拟数据。 下面列出了用于数据挖掘的软件工具 数据挖掘工具 1.Rapid Miner Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,通过基于模板的框架提供高级分析。 它使得实验可以由大量的可任意嵌套的操作符组成,这些操作符在XML文件中是详细的,并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具,让我们可以轻松地分析数据。 2. IBM SPSS