机器学习

深度学习的一些经验总结和建议| To do v.s Not To Do

女生的网名这么多〃 提交于 2020-12-23 04:22:11
每天进步一点点,关注&置顶“ 我爱计算机视觉 ” CV君:本文作者为百度 PaddlePaddle 组技术布道师Charlotte77,内容全是实战经验的精炼总结,强烈推荐大家收藏。 除了列出来的内容,各位读者有什么独门秘籍也欢迎文末留言分享!截止到明晚23点(7月22日),留言被点赞最多的深度学习绝招,联系CV君(文末扫码)发50元红包! 昨天看到几篇不同的文章写关于机器学习的to do & not to do,有些观点赞同,有些不赞同,是现在算法岗位这么热门,已经不像几年前一样,可能跑过一些项目、懂点原理就可以了,现在对大家的要求更高,尤其工程能力更不可缺少,只跑过一些iris鸢尾花分类、啤酒与尿布、猫狗分类等的同学需要再提高提高,因为竞争太激烈了, 我在这里结合我自己的经验 总结一下 吧~ To Do 做项目时,边搜集数据可以边用已经搜集好的 少部分数据跑模型 。不用等到所有数据都搜集好了再跑。 不知道什么算法合适,可以直接把所有的算法都跑一遍,看效果再选择,多跑几个应用场景你就知道什么算法适合什么场景,什么数据对不同的算法会有什么影响了。 不知道什么参数是最佳参数,可以用random search或者grid search自动搜索最佳参数组合,有经验以后对于每个参数的大概范围心里会有个数。 一定要练习工程能力,只会调参的demo侠现在很难找到工作啦。 模型复现和刷题

Mars:加速数据科学的新方式

余生长醉 提交于 2020-12-22 22:25:06
本文分为4个部分: Mars的背景和现状 Mars解决了什么问题 Mars背后的哲学 总结与展望 一、Mars的背景和现状 说到加速数据科学的新方式,就不得不说什么是数据科学,以下是维基的定义: 数据科学通过运用各种相关的数据来帮助非专业人士来理解问题。第一,它的目标是从数据中提取输入价值的部分,第二,它要生产数据产品,第三它结合了非常多重要的技术,包括数学、统计、机器学习、可视化,最后,它需要真正解决问题。 它包含三个方面,计算机科学、数学和统计、领域和商业知识。它们结合起来分别是机器学习、软件开发和传统研究,中间是数据科学。 数据科学技术栈包含语言、数据分析、数据工程、机器学习、Web开发、运维和商业智能。每个技术栈都包含不同的工具,提供不同的数据服务。 传统Python数据科学栈的三大底座是NumPy、Pandas和SciPy。NumPy是最核心的部分,它用来做数值计算,几乎其他所有Python的数据科学技术栈都建立在NumPy上,因为它有最基础的数据结构,也就是多维数组;另外,Pandas也用NumPy实现,它上面有很多API来进行分析操作;而SciPy主要负责科学计算。在此基础上,是机器学习和可视化,同时还有丰富的Python函数。 上面是Python数据科学技术栈整体的状况,他们有几大好处,比如广泛使用,是事实标准;上手成本低,容易为初学者和学生入门;和语言结合紧密

「直播回顾」Mars:加速数据科学的新方式

偶尔善良 提交于 2020-12-22 11:30:31
简介: 本文从数据科学概念、背景和现状切入,引出加速数据科学的新方式Mars,并介绍了Mars具体能解决的一些问题和背后的逻辑、哲学,同时对Mars整体数据处理流程进行了介绍。 本文分为4个部分: Mars的背景和现状 Mars解决了什么问题 Mars背后的哲学 总结与展望 一、Mars的背景和现状 说到加速数据科学的新方式,就不得不说什么是数据科学,以下是维基的定义: 数据科学通过运用各种相关的数据来帮助非专业人士来理解问题。第一,它的目标是从数据中提取输入价值的部分,第二,它要生产数据产品,第三它结合了非常多重要的技术,包括数学、统计、机器学习、可视化,最后,它需要真正解决问题。 它包含三个方面,计算机科学、数学和统计、领域和商业知识。它们结合起来分别是机器学习、软件开发和传统研究,中间是数据科学。 数据科学技术栈包含语言、数据分析、数据工程、机器学习、Web开发、运维和商业智能。每个技术栈都包含不同的工具,提供不同的数据服务。 传统Python数据科学栈的三大底座是NumPy、Pandas和SciPy。NumPy是最核心的部分,它用来做数值计算,几乎其他所有Python的数据科学技术栈都建立在NumPy上,因为它有最基础的数据结构,也就是多维数组;另外,Pandas也用NumPy实现,它上面有很多API来进行分析操作;而SciPy主要负责科学计算。在此基础上

Kaggle比赛(一)Titanic: Machine Learning from Disaster

时光总嘲笑我的痴心妄想 提交于 2020-12-22 07:29:09
泰坦尼克号幸存预测 是本小白接触的第一个Kaggle入门比赛,主要参考了以下两篇教程: <a href="https://www.cnblogs.com/star-zhao/p/9801196.html" target="_blank"> https://www.cnblogs.com/star-zhao/p/9801196.html </a> <a href="https://zhuanlan.zhihu.com/p/30538352" target="_blank"> https://zhuanlan.zhihu.com/p/30538352 </a> 本模型在Leaderboard上的最高得分为0.79904,排名前13%。 由于这个比赛做得比较早了,当时很多分析的细节都忘了,而且由于是第一次做,整体还是非常简陋的。今天心血来潮,就当做个简单的记录(流水账)。 导入相关包: import numpy as np import pandas as pd import matplotlib.pyplot as plt import re from sklearn.model_selection import GridSearchCV from sklearn.linear_model import LinearRegression from sklearn.ensemble

穆迪分析连续三年荣获风险技术奖评选的两个类别奖

北慕城南 提交于 2020-12-22 07:11:56
纽约--(美国商业资讯)--穆迪分析(Moody’s Analytics)连续第三年荣获风险技术奖(Risk Technology Awards)评选的 年度最佳信用数据提供商奖 和 年度最佳批发信贷建模软件奖 。这些是我们所获 七项 2020年风险技术奖中的两项,这些奖项涵盖金融、会计、监管和信贷功能等领域。 此新闻稿包含多媒体内容。完整新闻稿可在以下网址查阅: https://www.businesswire.com/news/home/20200812005119/en/ 穆迪分析董事总经理Nihil Patel表示:“我们的客户依赖穆迪分析获得对其信用风险敞口快速且全面的了解。疫情大流行加速了他们对考虑多项前瞻性信号以评估信贷风险的需求。我们将继续投资于更多资产类别覆盖、另类数据源以及能够产生新的分析和见解的机器学习,从而确保我们的客户拥有所需的所有信息来满足其最紧迫的业务需求。” 穆迪分析的一系列解决方案具有广泛的信用数据和建模能力,这也是获得这两个奖项的原因所在: Data Alliance 是全球最大、最全面的数据联盟之一。其成员在许多资产类别间共享数据,并获得基准指标作为回报。 来自穆迪分析旗下公司Bureau van Dijk的 Orbis 提供有关逾3.75亿家私营公司和其他实体的信息。 RiskCalc™

《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密......

二次信任 提交于 2020-12-22 05:44:26
为什么需要加星标? 由于 微信公众号出现了 “乱序” 排列 的状况,也就是说: 文章不会按照 “时间顺序” 推送给你。 那么朋友们就不能第一时间,收到我的干货 。因此希望 您抽出一分钟,完成如下三步 。 01 02 03 1845 人已添加“ 星标 ” 文末获取“本文代码” 前言 最近,最火的电视剧莫过于《大秦赋了》,自12月1日开播后,收获了不错的口碑。然而随着电视剧的跟新,该剧在网上引起了 激烈的讨论 ,不仅口碑急剧下滑,颇有 高开低走的趋势 ,同时该剧的评分也由最初的8.9分,下降到了现在的6.5分。 虽然我还没有看过这个新剧,但是对于小伙伴们讨论的内容,却颇有兴趣(主要还是大家老是讨 论这个剧)。因此, 我用Python爬取了《大秦赋》的相关数据 ,进行了一波分析。 数据爬取 巧妇难为无米之炊,做数据分析之前最重要的就是 “数据获取” 。于是,我准备用Python爬取豆瓣上的 短评数据 以及一些 评论时间信息 、 评价星级信息 。 关于数据的爬取主要说以下几个内容: 1) 关于翻页操作 第一页: https://movie.douban.com/subject/ 26413293 /comments?status=P 第二页: https://movie.douban.com/subject/ 26413293 /comments?start= 20 &limit= 20

图像特征提取(颜色,纹理,形状)

风格不统一 提交于 2020-12-22 05:24:17
点击上方 “ 机器学习与生成对抗网络 ”,关注"星标" 获取有趣、好玩的前沿干货! 来源 新机器视觉 来自 小白学视觉 编辑 王萌 深度学 习冲鸭 著作权归作者所有,文仅分享,侵 删 1.颜色特征提取 计算机视觉的特征提取算法研究至关重要。在一些算法中,一个高复杂度特征的提取可能能够解决问题(进行目标检测等目的),但这将以处理更多数据,需要更高的处理效果为代价。而颜色特征无需进行大量计算。只需将数字图像中的像素值进行相应转换,表现为数值即可。因此颜色特征以其低复杂度成为了一个较好的特征。 在图像处理中,我们可以将一个具体的像素点所呈现的颜色分多种方法分析,并提取出其颜色特征分量。比如通过手工标记区域提取一个特定区域(region)的颜色特征,用该区域在一个颜色空间三个分量各自的平均值表示,或者可以建立三个颜色直方图等方法。下面我们介绍一下颜色直方图和颜色矩的概念。 (1)颜色直方图: 颜色直方图用以反映图像颜色的组成分布,即各种颜色出现的概率。Swain和Ballard最先提出了应用颜色直方图进行图像特征提取的方法[40],首先利用颜色空间三个分量的剥离得到颜色直方图,之后通过观察实验数据发现将图像进行旋转变换、缩放变换、模糊变换后图像的颜色直方图改变不大,即图像直方图对图像的物理变换是不敏感的。因此常提取颜色特征并用颜色直方图应用于衡量和比较两幅图像的全局差。另外

图像特征提取(颜色,纹理,形状)

我的未来我决定 提交于 2020-12-22 05:21:35
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 转自 | 新机器视觉 1.颜色特征提取 计算机视觉的特征提取算法研究至关重要。在一些算法中,一个高复杂度特征的提取可能能够解决问题(进行目标检测等目的),但这将以处理更多数据,需要更高的处理效果为代价。而颜色特征无需进行大量计算。只需将数字图像中的像素值进行相应转换,表现为数值即可。因此颜色特征以其低复杂度成为了一个较好的特征。 在图像处理中,我们可以将一个具体的像素点所呈现的颜色分多种方法分析,并提取出其颜色特征分量。比如通过手工标记区域提取一个特定区域(region)的颜色特征,用该区域在一个颜色空间三个分量各自的平均值表示,或者可以建立三个颜色直方图等方法。下面我们介绍一下颜色直方图和颜色矩的概念。 (1)颜色直方图: 颜色直方图用以反映图像颜色的组成分布,即各种颜色出现的概率。Swain和Ballard最先提出了应用颜色直方图进行图像特征提取的方法[40],首先利用颜色空间三个分量的剥离得到颜色直方图,之后通过观察实验数据发现将图像进行旋转变换、缩放变换、模糊变换后图像的颜色直方图改变不大,即图像直方图对图像的物理变换是不敏感的。因此常提取颜色特征并用颜色直方图应用于衡量和比较两幅图像的全局差。另外,如果图像可以分为多个区域,并且前景与背景颜色分布具有明显差异,则颜色直方图呈现双峰形。

SEO人员,为什么要关注新型SEO技术?

谁说我不能喝 提交于 2020-12-21 18:53:07
对于搜索引擎而言,每天都在修正相关的算法,其核心的目的就是,精准的识别优质的能够解决用户搜索需求的内容。 并且,搜索引擎在不断的去SEO技术指标,但这并不代表新型SEO技术,在网站优化的过程中,并不重要,相反,如果你试图能好的完成SEO项目。 我们认为:定期的关注新型SEO技术,显得格外重要。 那么,你为什么要关注新型SEO技术? 简单理解:研究新型SEO技术,有利于掌握搜索引擎原理,辅助SEO人员更好的理解SEO项目,利用较少的资源,提高SEO的工作效率。 根据以往搜索引擎排名的经验,我们认为,值得关注的新型SEO技术主要包括如下内容: 1、结构化数据 为了丰富搜引起的SERP展现形式,更好的提高用户体验,百度在不断尝试利用结构化数据调用搜索结果,比如: ①精选摘要 根据一定的行文逻辑结构,在移动端搜索结果中,快速的展现搜索结果,它通常要求内容原创且高质量,文章段落具有明显的结构,整站权重稍高。 ②搜索结果出图 我们知道搜索结果出图,有利于提高页面的点击率,特别是熊掌ID之前的三图调用,虽然,目前只保留一个图片的展现,但它仍然有利于提高页面的流量。 ③快速问答 百度针对移动端一些优质的垂直机构,提供短视频快速问答的服务,它可以在搜索结果中,快速展现短视频的答案。 2、HTTPS HTTPS早期,被应用于电子商务网站和政府、社会机构、媒体等相关网站

COPOD:用「统计」+「机器学习」检测异常

有些话、适合烂在心里 提交于 2020-12-21 14:52:34
1. 背景知识 异常检测(outlier detection), 从最简单的角度出发就是看看数值偏离均值有多远 。拿最简单的一维数据来说,可以先算一下均值( )和标准方差( ),那么离均值2个或者3个以外的数值就可以简单的被认为是异常。如果假设数据符合正态分布的话,大概就是图中黄色标注的位置。 如果我们能够得知数据的分布(比如CDF的话),那么我们还可以计算出一个样本可能处于分布最左边和最右边的概率 。 但实际情况中,有两个问题使得这个方法并不奏效。 首先真实数据往往不是一维的,而是有很多个维度 ?最简单的假设当然是每个维度互相独立,那么我们可以分别求每个维度上的异常程度,之后求所有维度上的平均异常,或者看是否有几个维度的异常程度比较大。但这个方法有个核心局限: 并不是所有的维度间都是独立的,他们之间往往有一定的关联性 !所以这种假设会忽视掉这种关系,导致建模过分简单。 其次就是单纯看 一个点是否属于离均值很远可能是盲目的 ,因为分布有很多种,并不是每种分布都像正态分布这么优美。更加合理的方法是去估计一个点的尾端概率(tail probabilty),也就是在分布极端位置的可能性。 结合这两个目的: 如果我们能够很好的估计出多维数据上的累计分布(multivariate CDF),那么我们就可以尝试去估算每个点的尾端概率,也就可以对异常情况进行评估。 2. COPOD: COPOD