机器学习

2020 Kaggle年度报告发布:美国公司最容易「人均百万」,90%数据科学家坚持终生学习

风格不统一 提交于 2020-12-17 08:51:53
近日,Kaggle 正式发布了 2020 年度报告,总共调查了 2 万多名开发者,但美国实体清单上的个人 / 实体代表除外。 机器之心报道,作者:蛋酱、魔王。 Kaggle 是重要的数据建模和数据分析竞赛平台。近日,Kaggle 发布了第四次年度报告,试图从中一窥社区趋势。该调查涉及 20036 名 Kaggle 会员,此报告主要聚焦其中当前职位为「数据科学家」的受访者,约占 13%(2675 名)。 值得注意的是,想要成为参与调查并获得所设奖项,必须满足以下条件: 年满 18 岁(或满足你所居住地区的成年年龄); 不是克里米亚、古巴、伊朗、叙利亚、朝鲜或苏丹的居民; 不是受美国出口管控条例制裁的个人 / 实体代表。 因此,这份报告可能会缺少相当一部分来自中国的 Kaggle数据科学家的情况。 在众多回答中,Kaggle 总结了以下要点: 群体画像 数据科学领域仍然存在严重的性别不均衡,大部分从业人员为男性; 大部分数据科学家年龄在 35 岁以下; 过半数据科学家有硕士学位。 教育和雇佣情况 大多数数据科学家在正式教育之外继续学习; 大多数数据科学家码龄不超过十年; 过半数据科学家具备三年以下的机器学习经验; 美国的数据科学家比其他国家的同行挣更多钱。 技术 与 2019 年的调查结果相比,2020 年更多的数据科学家使用云计算; scikit-learn 是 2020

网络安全自学篇导航

老子叫甜甜 提交于 2020-12-17 08:14:47
网络安全自学篇(一)| 入门笔记之看雪Web安全学习及异或解密示例 网络安全自学篇(二)| Chrome浏览器保留密码功能渗透解析及登录加密入门笔记 网络安全自学篇(三)| Burp Suite工具安装配置、Proxy基础用法及暴库示例 网络安全自学篇(四)| 实验吧CTF实战之WEB渗透和隐写术解密 网络安全自学篇(五)| IDA Pro反汇编工具初识及逆向工程解密实战 网络安全自学篇(六)| OllyDbg动态分析工具基础用法及Crakeme逆向破解 网络安全自学篇(七)| 快手视频下载之Chrome浏览器Network分析及Python爬虫探讨 网络安全自学篇(八)| Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具 社会工程学之基础概念、IP获取、IP物理定位、文件属性社会工程学之基础概念、IP获取、IP物理定位、文件属性 网络安全自学篇(十)| 论文之基于机器学习算法的主机恶意代码 网络安全自学篇(十一)| 虚拟机VMware+Kali安装入门及Sqlmap基本用法 网络安全自学篇(十二)| Wireshark安装入门及抓取网站用户名密码(一) 网络安全自学篇(十三)| Wireshark抓包原理(ARP劫持、MAC泛洪)及数据流追踪和图像抓取(二) 还在更新中,收藏导航观看更佳 原作者博客;https: //blog.csdn.net

程序员相亲图鉴

為{幸葍}努か 提交于 2020-12-17 02:07:45
程序员, 已经渐渐成当代相亲市场的一只主力军。 甚至可以说是“ 香饽饽 ”。 越来越多的妹子, 在写择偶要求时, 会说对程序员有好感。 因为他们, 踏实聪明又靠谱, 钱多花花肠子 少。 但关于程序员谈恋爱的“笑点”也不少, 一起来看看吧! · End · 漫画 | 楠同学 策划&文案 | 李二狗 记得点一下在看,帮更多程序猿脱单! 以上内容纯属调侃,如有冒犯…… 反正你也打不着我 有本事用小程序脱单给我看啊! 本文分享自微信公众号 - Kaggle实战机器学习(AIKaggle)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4613074/blog/4514615

吴恩达机器学习学习笔记——Week 2——多元线性回归(Multivariate Linear Regression)

戏子无情 提交于 2020-12-16 15:34:41
一、课件及课堂练习 1. 多个特征值(多变量) 课堂练习: 2. 多元梯度下降 课堂练习: 3. 梯度下降实践1——特征值缩放(均值归一化) 课堂练习: 4. 梯度下降实践2——学习率 课堂练习: 5. 特征数量及多项式回归 课堂练习: 6. 标准方程 课堂练习: 7. 标准方程法可能遇到不可逆问题 二、内容概要 1. 多个特征值 2. 多元梯度下降 3. 梯度下降实践1——特征值缩放 4. 梯度下降实践2——学习率 5. 特征数量及多项式回归 6. 标准方程 7. 标准方程法可能遇到不可逆问题 三、单元测试 答案:-0.47 来源: oschina 链接: https://my.oschina.net/u/4288530/blog/4810192

如何用Python从海量文本抽取主题?

白昼怎懂夜的黑 提交于 2020-12-16 15:29:37
摘自 https://www.jianshu.com/p/fdde9fc03f94 你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢? 淹没 每个现代人,几乎都体会过信息过载的痛苦。文章读不过来,音乐听不过来,视频看不过来。可是现实的压力,使你又不能轻易放弃掉。 假如你是个研究生,教科书和论文就是你不得不读的内容。现在有了各种其他的阅读渠道,微信、微博、得到App、多看阅读、豆瓣阅读、Kindle,还有你在RSS上订阅的一大堆博客……情况就变得更严重了。 因为对数据科学很感兴趣,你订阅了大量的数据科学类微信公众号。虽然你很勤奋,但你知道自己依然遗漏了很多文章。 学习了 Python爬虫课 以后,你决定尝试一下自己的屠龙之术。依仗着爬虫的威力,你打算采集到所有数据科学公众号文章。 你仔细分析了微信公众号文章的检索方式,制定了关键词列表。巧妙利用搜狗搜索引擎的特性,你编写了自己的爬虫,并且成功地于午夜放到了云端运行。 开心啊,激动啊…… 第二天一早,天光刚亮,睡眠不足的你就兴冲冲地爬起来去看爬取结果。居然已经有了1000多条!你欣喜若狂,导出成为csv格式,存储到了本地机器,并且打开浏览。

打卡AWS re:Invent 2020 见证技术重塑未来的力量

▼魔方 西西 提交于 2020-12-16 13:40:12
在AWS看来,只有重塑文化,重塑自己,才能重塑未来。 出品 | 常言道 作者 | 丁常彦 十年前,乃至在更长的时间里,如果我们说到企业IT公司,一定会首先想到微软、IBM、思科、英特尔等;但时至今日,我们再去看市场中屹立的企业IT公司,虽然传统巨头依然强大,但更引人注目的无疑是像亚马逊云服务(AWS)这样的新贵。 按照最新的营收数据统计,如今的AWS已经与微软、戴尔、IBM、思科一起,位列全球前五大企业IT公司,超过了Oracle、SAP等传统巨头;不仅如此,根据亚马逊公布的财报数字,AWS在2020年第三季度达到年化收入460亿美元,同比增长29%,相当于一年增长100亿美元。 这样的收入增长在全球IT市场增长萎缩的今天,非比寻常。就在不久前,来自Gartner的预测数据显示,2020年全球IT支出预计将达到3.6万亿美元,相比2019年下降5.4%;2021年全球IT支出预计将达到3.8万亿美元,相比2020年增长4%。 最近的Gartner调查数据同时表明,疫情导致当前在使用云服务的企业组织中,有近70%的企业组织计划增加云方面的支出。到2021年,全球最终用户在公有云服务上的支出将增长18.4%,达到3049亿美元,高于2020年的2575亿美元。这意味着,在即将到来的2021年,AWS仍将是高歌猛进的一年。 不过,在今年的亚马逊re:Invent全球大会上,关于云计算

【计算机视觉】常用图像数据集

感情迁移 提交于 2020-12-16 12:59:04
图像数据集 模型需要好的数据才能训练出结果,本文总结了机器学习图像方面常用数据集。 MNIST Link 机器学习入门的标准数据集(Hello World!),10个类别,0-9 手写数字。包含了60,000 张 28x28 的二值训练图像,10,000 张 28x28 的二值测试图像。 最早的深度卷积网络 LeNet 便是针对 MNIST 数据集的,MNIST 数据集之所以是机器学习的 “Hello World”,是因为当前主流深度学习框架几乎无一例外将 MNIST 数据集的处理作为介绍及入门第一教程,其中 Tensorflow 关于 MNIST 的教程非常详细。 COCO Link COCO 是一个大规模的对象识别、分割以及 Captioning 数据集。具有以下特点: Object segmentation Recognition in context Superpixel stuff segmentation 330K images (>200K labeled) 1.5 million object instances 80 object categories 91 stuff categories 5 captions per image 250,000 people with keypoints 以 2014 年的数据为例,其包含两种文件类型(训练、验证文件均有)

机器学习和计算机视觉的前20个图像数据集

拈花ヽ惹草 提交于 2020-12-16 12:12:56
计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以完成的任务自动化。 计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。 用于计算机视觉训练的图像数据集 Labelme: 由 MIT 计算机科学和人工智能实验室( CSAIL )创建的大型数据集,包含 187,240 张图像, 62,197 条带注释的图像和 658,992 张带标签的对象。 http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php 乐高积木: 通过文件夹和使用 Blender 渲染的计算机对 16 种不同乐高积木进行分类的大约 12,700 张图像。 https://www.kaggle.com/joosthazelzet/lego-brick-images ImageNet: 用于新算法的实际图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。 http://image-net.org/ LSUN : 场景理解和许多辅助任务(房间布局估计,显着性预测等) http://lsun.cs.princeton.edu/2016/ MS COCO : COCO

每日算法题 | 剑指offer (1) 二维数组的查找

时间秒杀一切 提交于 2020-12-16 10:19:46
题目 二维数组的查找 题目要求 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 解题思路 题目要求中可以发现有两个突破口: 1.从行看,从左往右依次递增 从列看,从上往下依次递增 (1)当我们从第一行第一个元素开始比较的时候,会发现无论是往右还是往下都是递增,比较没有意义 (2)故从第一行最后一个元素进行比较时候我们发现,小于时往左走,大于时候往下走。 图例(4*4的二维数组): 代码实现 Python实现 def Find(target, array): # write code here if array==[]: return False LieShu=len(array[0]) HangShu=len(array) i=0 j=LieShu - 1 while i < HangShu and j >= 0: if target < array[i][j]: j-=1 elif target > array[i][j]: i+=1 else: return True return Fals C++ class Solution { public: bool Find(int target, vector<vector<int> >

星空联盟全面采用AWS以开创航空旅行新时代

一个人想着一个人 提交于 2020-12-16 09:15:22
世界最大航空公司联盟选择AWS来建立弹性、改善运营效率和提升旅客体验 西雅图--(美国商业资讯)--亚马逊公司(Amazon.com, Inc., NASDAQ: AMZN)旗下的亚马逊网络服务(AWS)今天宣布,全球最大的航空公司联盟星空联盟(Star Alliance)将全面采用AWS,将其所有IT基础设施迁移至这个全球领先的云服务平台,以便降低成本,提升性能,成为一家更为敏捷的云端公司。星空联盟将与AWS合作伙伴网络的首选咨询合作伙伴Tata Consultancy Services (TCS)携手,将其所有数据、平台和业务关键型应用迁移至AWS,并关闭其数据中心,这将令其基础设施总拥有成本降低25%。这个航空公司联盟将借助AWS无与伦比的能力,包括分析能力、安全性、托管数据库、存储性能和机器学习能力,为其26家成员航空公司提供实时洞察,这将有助于为旅客改善全球旅行体验,即便是新冠疫情带来了种种不确定性。 通过迁移至AWS,星空联盟能够灵活地立即优化其现有基础设施的使用和成本,以满足全球航空旅行市场不断变化的需求,尤其是应对新冠疫情方面的需求。当执行隔离令和旅行限制时,该公司将其基础设施的范围和开支即时缩减了30%,减少其对AWS的使用,而不是为过剩的本地处理能力支付高昂的代价。通过在AWS上运行,星空联盟为未来全球旅行限制逐步放松、旅客开始恢复定期飞行做好了准备