机器学习

深入理解 Java 内存模型

三世轮回 提交于 2021-01-05 23:42:12
Java内存模型(Java Memory Model,JMM)是java虚拟机规范定义的,用来屏蔽掉java程序在各种不同的硬件和操作系统对内存的访问的差异,这样就可以实现java程序在各种不同的平台上都能达到内存访问的一致性。可以避免像c++等直接使用物理硬件和操作系统的内存模型在不同操作系统和硬件平台下表现不同,比如有些c/c++程序可能在windows平台运行正常,而在linux平台却运行有问题。 物理硬件和内存 首先,在单核电脑中,处理问题要简单的多。对内存和硬件的要求,各种方面的考虑没有在多核的情况下复杂。电脑中,CPU的运行计算速度是非常快的,而其他硬件比如IO,网络、内存读取等等,跟cpu的速度比起来是差几个数量级的。而不管任何操作,几乎是不可能都在cpu中完成而不借助于任何其他硬件操作。所以协调cpu和各个硬件之间的速度差异是非常重要的,要不然cpu就一直在等待,浪费资源。而在多核中,不仅面临如上问题,还有如果多个核用到了同一个数据,如何保证数据的一致性、正确性等问题,也是必须要解决的。 目前基于高速缓存的存储交互很好的解决了cpu和内存等其他硬件之间的速度矛盾,多核情况下各个处理器(核)都要遵循一定的诸如MSI、MESI等协议来保证内存的各个处理器高速缓存和主内存的数据的一致性。 除了增加高速缓存,为了使处理器内部运算单元尽可能被充分利用

ResNet、Faster RCNN、Mask RCNN 是专利算法吗?盘点何恺明参与发明的专利

大憨熊 提交于 2021-01-05 18:01:24
点击上方“ 迈微AI研习社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:我爱计算机视觉,52CV君 AI博士笔记系列推荐 周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称 "专利制度是给天才之火浇上利益之油" ,专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet

卧槽,又一款Python神器

若如初见. 提交于 2021-01-05 14:02:32
今日推文说明 二条: 高级的数据分析,长啥样? 三条: 清洗数据,我惯用这 7 步! 四条:一款高颜值的词云包让我拍案叫绝 ↑ 关注 + 星标 , 后台回复【 大礼包 】送你Python自学大礼 写Python代码最头疼的两件事是什么?我总结了两点 1、Windows 平台安装第三方包经常失败的问题,还记得第一次安装mysql依赖包时的那个场景吗?怎么都装不上。 2、虚拟环境切换的问题,如果我们同时在一台电脑上开发多个项目,每个项目独立一个虚拟环境是非常必要的,但是在不同项目之间切来切去也是个麻烦。 这两个问题Anoconda可以救你。 Anaconda 是什么? Anaconda 是一个可用于科学计算的 Python 发行版,支持 Linux、Mac、Windows系统,内置了常用的科学计算包。它解决了官方 Python 的两大痛点。 一句话总结就是它是一个比Python官方更牛逼的安装包 第一: 提供了包管理功能,Windows 平台安装第三方包经常失败的场景得以解决, 第二: 提供环境管理的功能,功能类似 Virtualenv,解决了多版本Python并存、切换的问题。 下载 Anaconda 直接在官网下载安装包, 选择 Python3.8 的安装包进行下载,下载完成后直接安装,安装过程选择默认配置即可,大约需要1.8G的磁盘空间。 conda 是 Anaconda

ML.NET生成器带来了许多错误修复和增强功能以及新功能

落花浮王杯 提交于 2021-01-05 13:51:11
ML.NET是一个开源的跨平台机器学习框架,适合 .NET 开发人员。它允许将机器学习集成到 .NET 应用中,而无需离开 .NET 生态系统,甚至拥有 ML 或数据科学背景。ML.NET工具(Visual Studio 中的 UI 模型生成器和跨平台 ML.NET CLI),可根据您的场景和数据自动训练自定义机器学习模型。 此版本ML.NET生成器带来了许多错误修复和增强功能以及新功能,包括高级数据加载选项和来自 SQL Server的流训练数据。 高级数据加载选项 以前,模型生成器不提供任何数据加载选项,它依赖于 AutoML 来检测列、标头和分隔符以及十进制分隔符样式。 让我们看一下模型生成器中使用出租车费数据集中新的高级数据加载选项。这是一个回归问题,您可以根据旅行距离、付款类型和乘客人数等几个因素预测出租车票价金额。 在模型生成器中,选择值预测方案和本地训练环境后,您将最终进入 "数据" 步骤。选择"文件" 作为数据源类型 ,浏览出租车票价数据集,选择数据集后,将 "列"更改为"预测" fare_amount。 选择"高级数据"选项以打开高级数据加载选项对话框。 在此对话框中,有两个部分 - 列设置 和数据格式 。 列设置 在" 列设置 "部分中,您可以将每个要素列(用于预测标签的列)的列更改为分类、文本、数字或忽略: 分类列包含在标记组离散数量中的数据。例如

上百G文本数据集等你来认领|免费领取

你离开我真会死。 提交于 2021-01-05 13:40:32
玩机器学习的童鞋都知道数据集的重要性,没有数据粮食喂养,好的模型是长不出来的,形象的比喻就是“巧妇难为无米之炊”。 这一年多来一直在摸索文本分析领域,文科生一枚摸着石头过河,很可惜一直没有出什么东西。不过却也在这过程中积累了一些在线评论数据集。大多是在百度网盘、谷歌遇到我觉得有用的数据我一般会下载下来。大邓都整理到csv中,方便大家使用pandas进行数据分析。今天我整理了一下,分享给大家。 中文在线评论数据 中文的数据主要电商平台在线评论数据,且均标注正负情感标签的,领域包括: 计算机 热水器 服装 手机 书籍 洗发水 外卖 通过这些标注的各个领域评论数据,我们可以训练各自领域的情感分析模型。有余力的童鞋也可以构建相关领域属性词典,想想就很激动。大邓这里打开其中一个文件,样子大概是这样的。 此外还有微博评论数据,有人将其标注为4种情绪,数据量10万条。再次感谢他们的辛勤劳动。 亚马逊评论数据集 该数据集的发现要感谢山东烟台的一位网友,向我咨询问题的时候给我留下了 加州大学圣地哥分校Julian McAuley教授的Amazon product ata数据集页面。 数据集简介: 该数据集包含来自亚马逊的产品评论和元数据,其中包括1996年5月至2014年7月的1.4亿条评论。 该数据集包括评论(评分,文字,乐于投票),产品数据(产品描述,类别信息,价格,品牌和图像特征)以及产品链接

吴恩达的机器学习教程真的很赞

本秂侑毒 提交于 2021-01-05 13:02:44
这几天公众号都没更新,因为最近长沙一直在降雪,天冷了人也会变的懒的。好久没有玩自己的大疆,今天给大家看看雪后中南大学的雪景,这是大邓拍摄,我师兄kimmko剪的。 https://v.qq.com/x/page/g0540rpp9pz.html 前天在哔哩哔哩上看到有全套的吴恩达的机器学习教程,没看几集就被吴恩达博士渊博的知识所吸引。虽然大邓一直在学python,但都是低水平重复学习,理论要跟实际结合。学python还是为了要去应用,个人觉得机器学习是一个有用且有趣的应用场景。 学python不只是为了爬数据,更是想从数据中洞察一些知识和规律。之前大邓也买了一些机器学习、人工智能的书,学习的时间不够集中,碎片化导致大邓没坚持下来。当然内容不够浅显易懂是一个很重要的因素,没有将机器学习的脉络理清楚,概念之间关系不够清晰,感觉机器学习是一门炼金术式的玄学。 最近我时间比较闲,今天心血来潮就看了看吴恩达的机器学习教程,突然发现吴恩达教程不同于现在市面上的教程。吴恩达讲解的内容通俗易懂,连贯而又系统。比如市面上教程中总会出现的损失函数、梯度下降、线性回归,几个概念单独拎出来讲解的都没问题,但是学完了,对于这几个概念之间是怎么衔接还是有点模糊。个人觉得如果想从0开始接触机器学习,还是先跟着吴恩达的教程开始入门。 教程资源可以直接在哔哩哔哩直接搜索吴恩达机器学习 来源: oschina 链接:

突破2.4kstar!一个Seq2seq模型的Pytorch实现库

做~自己de王妃 提交于 2021-01-05 08:00:56
注:文末附【深度学习与自然语言处理】交流群 介绍一个Seq2seq模型的实现tutorial,使用pytorch和torchtext实现。目前已经有2400个start,质量应该不错。有代码参考比没有代码参考可好太多了,尤其对于新手! 还给出了一些其他Seq2seq的实现仓库: 机器学习算法-自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 推荐阅读 156个参考文献!Visual Transformer 调研survey NLP生成任务痛点!58页generation评价综述 机器学习画图模板ML Visuals更新 谷歌最新28页高效 Transformer 模型综述 Papers with Code 2020 全年回顾 最新14页《图神经网络可解释性》综述论文 陶大程等人编写!最新41页深度学习理论综述 使用PyTorch时,最常见的4个错误 加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生 【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架 一文搞懂 PyTorch 内部机制 AAAI 2021论文接收列表放出!!

Gartner 2016-2020技术趋势预测分析报告

喜你入骨 提交于 2021-01-05 00:26:09
多年以来,Gartner的研究数据与咨询服务被认为是客观技术思想领导的权威来源。作为全球IT市场预测与咨询的龙头,Gartner每年对外输出数十份市场研究报告,成为全球众多企业在市场分析、技术选择、项目论证、投资决策上的重要参考,所以Gartner每年预测的东西到底准不准?实现率有多少? 基于多年对IT及前沿技术的关注和积累,腾讯安全联合腾讯TEG安全平台部天幕团队对Gartner 2016年-2020年的年度 战略技术趋势报告和安全项目报告 进行回顾与应用情况评估。 一、报告概述 报告回顾了 2016年-2020年Gartner的年度战略技术趋势报告和安全项目报告 ,这是具有代表性的两份报告。报告将按年份依次回顾每年的技术预测,并根据当前的应用情况评判是否准确,同时列出该技术领域的现有代表厂商。 主要回顾报告包括: Ÿ 《Gartner 年度十大战略技术趋势》(2016-2020) Ÿ 《Gartner 年度十大安全项目》(2016-2020) 二、主要发现 总体来看,除了2016年在十大信息安全技术上的预测有些偏差,其他年份报告的趋势预测准确率均在 90% 的水平,所以Gartner被誉为全球TOP 1的咨询公司当之无愧。 而根据近5年来预测和真实情况对比,以下技术和项目值得继续关注: 前沿技术: AI与机器学习技术、AR与VR技术、自主物件、智能空间技术、云计算与边缘计算、

知乎高赞:2021 年了,算法岗位应该怎样准备面试?

南笙酒味 提交于 2021-01-04 15:36:36
点击上方“ 五分钟学算法 ”,选择“星标”公众号 重磅干货,第一时间送达 最近有一些小伙伴在知乎上问我,已经快要2021年了,自己想要做算法岗,但是担心竞争非常激烈,非常迷茫,不知道该怎么办,想让我给点建议。 我仔细一想,这是一个好问题,2021年将近,该怎么准备算法岗位的面试呢? 就这个问题,简单聊聊我自己的想法。 从迷茫到清晰 说到算法岗位,现在网上的第一反应可能就是内卷,算法岗位也号称是内卷最严重的岗位。针对这个问题,其实之前我也有写过相关的文章。这个岗位竞争激烈不假,但我个人觉得称作内卷有些过了。就我个人的感觉,这几年的一个大趋势是 从迷茫走向清晰 。 早在2015年我在阿里妈妈实习的时候,那个时候我觉得其实对于算法工程师这个岗位的招聘要求甚至包括工作内容其实业内是没有一个统一的标准的。可以认为包括各大公司其实对这个岗位具体的工作内容以及需要的候选人的能力要求都不太一致,不同的面试官有不同的风格,也有不同的标准。 我举几个例子,第一个例子是我当初实习面试的时候,因为是本科生,的确对机器学习这个领域了解非常非常少,可以说是几乎没有。但是我依然通过了,通过的原因也很简单,因为有acm的获奖背景,面试的过程当中主要也都是一些算法题,都还算是答得不错。但是在交叉面试的时候,一位另一个部门的总监就问我有没有这块的经验?我很明确地说了,没有,但是我愿意学。接着他告诉我

伯乐是怎样炼成的,BAT算法面试官心得体会

自古美人都是妖i 提交于 2021-01-04 14:46:44
【面试相关原创文章合集】 Luke:【纯干货】程序员(算法&开发&测试)大厂(BAT)社招/校招面试准备(简历+刷题+话术)指南 Luke:伯乐是怎样炼成的,BAT算法面试官心得体会 前言 最近帮leader面试了不少应届生,也有了一些自己做面试官的心得。博主之前跳槽的时候写过一篇从候选人的角度如何准备面试的文章,刚好这次可以转换一下位置,从面试官的角度出发聊聊如何高效地从海量的简历中快速相中心怡的候选人,也希望能够帮助还在找工作的朋友更好的了解面试官的心路历程, 知己知彼,百战不殆 。 目录 基本原则 候选者自我介绍 工作(实习)经历/论文/竞赛/项目考察 基础知识考察 方案设计 Coding测试 候选者提问 时间分配 1. 基本原则 [1] 想做一个好面试官,遵守以下几点原则是基本: 尊重 。简历不匹配的候选人就不必邀请了,节省双方的时间。 不要好奇应试者的私人生活 。种族背景、家庭背景、是否单身、生育计划等都不是面试官应该了解的事情。 做好准备。 互联网时代,千里马不常有而伯乐常有。自己中意的候选人往往手里有多个offer,如何从所有友商中脱颖而出,打动候选人,需要每个面试官仔细思考。 2. 候选者自我介绍 所有面试正式开始的第一步都是让候选者做自我介绍 ,这个环节必不可少。原因不外乎3个 [2] : 让候选人有个缓冲时间,避免过度紧张 面试官可能还没仔细看过候选人的简历