机器学习

Spark-01 spark简介

南楼画角 提交于 2021-01-26 08:08:21
前言:大牛说由spark入手比较合适 1.spark简介 spark是个计算框架,不存东西。MapReduce是Hadoop里面做计算的,也不存东西,出现比spark早,自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。   spark起源于2009年加州大学伯克利分校的实验室,20年成为开源项目,2014年就变成了apache的顶级项目。这里用spark2.3. 2,spark与MapReduce(mc)的比较 2-1 优缺点比较   yarn、Mapreduce、hdfs是hadoop的三大组件,mapreduce计算框架有如下缺点:   a.可编程性差。有很多模板代码,每写一次都要重复模板代码。 b.缺乏通用的计算引擎。例如:现在设计一个大数据平台,需要它可以离线计算、流处理,机器学习。方案一:用hadoop做离线计算、storm流处理、tensorflow做机器学习;方案二:只用spark,因为spark这三种都有。那么我们很容易选择方案二。当然了,大公司可能都用,但是那是因为历史原因,以前只有mc,现在也暂时换不了全部的spark。 c.计算速度慢。一个问题,是基于磁盘计算快还是内存快?当然是内存,内存比磁盘快几十倍。mc计算过程会存磁盘,spark会优先使用内存进行计算,内存不足的情况下才会选用磁盘。 总之

【2020年度合辑】人工智能量化实验室原创推送合辑

ⅰ亾dé卋堺 提交于 2021-01-26 07:18:19
关于人工智能量化实验室 公众号《人工智能量化实验室》主要关注于人工智能知识在量化领域的成果与实践,同时也会分享一些python量化金融项目介绍与实战,以及该领域相关的论文与金工研报的解读。除此之外,公众号不定期还会有学习资料、书籍等赠送活动。以下是公众号主要推送的内容: 1、机器学习、深度学习等人工智能领域知识。 2、前沿人工智能量化的论文与研报等理论与实践成果介绍。 3、传统量化策略以及智能量化策略分析。 4、python量化金融的实践与应用。 5、金融时间序列分析知识。 6、python编程技巧以及实战项目。 历史推送文章 不知不觉中,《人工智能量化实验室》公众号已经迈入了第二个年头,感谢这段时间所有关注公众号的朋友,尤其是当看到后台不断增加的关注数,才激励我继续进行原创文章创作。下面整理了历史推送过的原创文章,感兴趣的读者可以收藏这篇文章以便进行阅读。在接下来的时间中,我也会继续推送更多高质量的文章,希望大家可以继续支持和关注。 点击下方文章标题进入相关文章。 人工智能与量化金融 1. 人工智能在量化领域应用相关论文整理 2. 解读:时间卷积神经网络用于时间序列的异常检测 3. 解读:时空同步图卷积网络:一种时空网络数据预测的新框架(附项目源码) 4. 解读:一种基于扩张卷积和区域转移注意力机制的深度时空网络模型 5. 解读:一种基于时间卷积网络的知识驱动股票趋势预测方法 6

最全的免费SPSS视频教程

萝らか妹 提交于 2021-01-26 07:17:31
向AI转型的程序员都关注了这个号 👇👇👇 人工智能大数据与深度学习 公众号:datayx 自学SPSS,有哪些教学视频或书籍推荐? 因为项目的需要,想自学spss软件,请问有哪些比较好的教学视频或自学书籍可以借鉴? SPSS主要有两个产品:统计分析的Statistics,以及数据挖掘的Modeler 一、楼主想学Statistics,研究统计分析的话,我会推荐张文彤如下的系列: 1.SPSS统计分析基础教程 (豆瓣) 豆瓣评分8.4 以真实案例贯穿全书,从统计分析实战的角度出发详细介绍SPSS的界面操作、数据管理、统计图表制作、统计描述和常用单因素统计分析方法的原理与实际操作,并结合SPSS的强大功能进行很好地扩展。书中还提供医疗、经济、市场研究等各行业的综合案例,完全从实际案例出发讲解各类方法的综合运用,以更好地协助读者提高实战能力。 2.高等学校教材 (豆瓣)(SPSS统计分析高级教程)豆瓣评分7.7 《高等学校教材:SPSS统计分析高级教程(第2版)》以IBMSPSSStatistics20中文版为基础,全面、系统地介绍了各种多变量统计模型、多元统计分析模型、智能统计分析方法的原理和软件实现。在书中作者结合自身多年的统计分析实战和SPss行业应用经验,侧重于对统计新方法、新观点的讲解。在保证统计理论严谨的同时,又充分注重了文字的浅显易懂,使《高等学校教材

如何学习Ubuntu用法?linux需要学习什么

▼魔方 西西 提交于 2021-01-25 17:40:50
  Ubuntu适用于笔记本电脑、台式电脑和服务器,尤其适合桌面用户。随着CentOS系统版本的变化,越来越多的人关注Ubuntu。渐渐地,很多人开始学习Ubuntu版本。Ubuntu Linux和CentOS Linux一样,都是开源的、自由系统软件。Ubuntu的目标是让每个人都得到一个易于使用的Linux系统版本。那么如何学习Ubuntu用法?Linux发展前景如何?   如何学习Ubuntu用法?   (1)如果有其他Linux经验,可以快速上手。   (2)如果没有接触过Linux,建议系统学习Linux运维知识。   (3)学习官网的文档,但是对于初学者来说,官网的文档比较晦涩难懂。   Linux发展前景如何?   (1)从互联网到开发阶段,门户、 BAT从2000年发展到2010年。这个时候网络主要是PC。   (2)从互联网到移动互联网10年,从2010年到2020年,出现了很多移动软件应用。这时候除了PC,网络端还有更多手机、平板。   (3)而现下是物联网+人工智能的时代。人工智能的基础是大数据和机器学习、深度学习,Linux的应用也在不断发展。上网的人越来越多,市场对服务器稳定性和个性化的要求也越来越高。所以Linux作为承载数据的后端服务器非常重要,Linux运维人员的需求也在逐渐增加。   (4)目前各大企业都在从windows切换到Linux

我又一次被 Google Developer Day 给丑拒了!

余生颓废 提交于 2021-01-25 13:17:48
2018 Google开发者大会为期两天,将于9月20日和 21日在上海举办,主题将涵盖机器学习、ARCore、Android、Play、WearOS、无障碍、移动网络、Firebase、Assistant、物联网、云服务、Flutter、设计、广告和商业应用等等。 2018谷歌开发者大会的今天报名结果已经揭晓了,官方已经把 所有报名结果均已发送至报名邮箱 ,请查收确认。若未在收件箱收到邮件,请查看垃圾邮件箱或其他邮件组。 报名成功的小伙伴,请根据邮件信息准时参与活动 ,聆听最新技术演讲分享,参与好玩的现场体验,收获定制惊喜礼物,亲身享受这场热闹非凡的谷歌技术盛宴! (其实说白了就是去白吃白喝的)。 参加会议的朋友们除了想了解下Google最前沿的技术外,有一部分观众,除了抱着面基的想法,甚至来上海玩玩的打算,但是结果几家欢喜几家愁啊。 很多人被丑拒了: 当然我是不可能被丑拒的: 不过我是通过公司名额去的,也不会被扣工资。 其实早在 8月14号晚上就收到了参加报名的链接就可以报名了,官方是15号才公开报名渠道的。 审核通过的9月3号开始已经发了邮件。 我总结了一些通过率高的人回答,总结下面几点,能提高通过的概率。 1 不要写自己是Android, 要写iOS,或者其他语言行业。 2 用Google邮箱 3 学校填写名校,名企。 4 提前注册开发者账号。 5 对Google

Python——sklearn 中 Logistics Regression 的 coef_ 和 intercept_ 的具体意义

泄露秘密 提交于 2021-01-25 03:56:35
sklearn 中 Logistics Regression 的 coef_ 和 intercept_ 的具体意义 ​ 使用 sklearn 库可以很方便的实现各种基本的机器学习算法,例如今天说的逻辑斯谛回归(Logistic Regression),我在实现完之后,可能陷入代码太久,忘记基本的算法原理了,突然想不到**coef_ 和 intercept_**具体是代表什么意思了,就是具体到公式中的哪个字母,虽然总体知道代表的是模型参数。 正文 我们使用 sklearn 官方的一个例子来作为说明,源码可以从 这里 下载,下面我截取其中一小段并做了一些修改: import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from sklearn.linear_model import LogisticRegression # 构造一些数据点 centers = [[-5, 0], [0, 1.5], [5, -1]] X, y = make_blobs(n_samples=1000, centers=centers, random_state=40) transformation = [[0.4, 0.2], [-0.4, 1.2]] X = np.dot(X,

OCR文字识别:水平和垂直图像训练crnn模型

拟墨画扇 提交于 2021-01-24 14:40:12
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号:datayx crnn.pytorch 本工程使用随机生成的水平和垂直图像训练crnn模型做文字识别;一共使用10多种不同字体;共包括数字、字符、简体和繁体中文字30656个,详见all_words.txt。 预测 1.1 直接预测 1.2 使用restful服务预测 模型效果 2.1 水平方向 2.2 垂直方向 评估 训练 代码 以及运行教程 获取: 关注微信公众号 datayx 然后回复 OCR 即可获取。 AI项目体验地址 https://loveai.tech 预测 直接预测 a) 执行如下命令预测单个图像 使用restful服务预测 a) 启动restful服务 模型效果 以下图像均来为生成器随机生成的,也可以试用自己的图像测试 水平方向 垂直方向 从左到右识别结果 评估 a) 水平方向 训练 a) 单机多卡 阅读过本文的人还看了以下文章: TensorFlow 2.0深度学习案例实战 基于40万表格数据集TableBank,用MaskRCNN做表格检测 《基于深度学习的自然语言处理》中/英PDF Deep Learning 中文版初版-周志华团队 【全套视频课】最全的目标检测算法系列讲解,通俗易懂! 《美团机器学习实践》_美团算法团队.pdf 《深度学习入门:基于Python的理论与实现

日本「AI 鱼脸识别」项目,每分钟识别 100 条

放肆的年华 提交于 2021-01-24 13:58:03
来源 | HyperAI超神经 头图 | 视觉中国 近日,日本的一个 AI 分拣鱼类项目进入实验阶段。这将有望改善日本渔业劳动力老龄化及短缺的社会现状。 日本作为岛国,其独特的地理位置,让国民自古以来就跟鱼结下了不解之缘,甚至形成了其独特的「鱼文化」。因此,日本无论是在养鱼、捕鱼还是吃鱼方面,都堪称国际代表。 但是近年来,日本渔业却面临劳动力老龄化与短缺的压力,为此,相关部门正在推动渔业的自动化作业,以及时弥补人力空缺。 AI 看图识鱼,每分钟分装 100 条 餐桌上每一道鲜美的海鱼背后,都离不开渔民的辛苦工作。每一次的出海,渔民们不仅负责将海鲜打捞上船,为了保证渔获的新鲜,他们还要在最短的时间里将其分拣、冲洗、冷藏。 时间的紧迫,往往让他们顾不得天气状况,于是顶着烈日或冒雨作业都是家常便饭。 打渔这份艰辛的工作,越来越难以吸引年轻人。人口老龄化、劳动力短缺,成为制约日本渔业发展的一大因素。 近日,日本青森县八户市则开启了一项前所未有的实验——使用配备有 AI 系统与摄像头的设备,代替渔民,对捕捞上来的活鱼进行自动分类。 在短短 35 分钟的时间里,这台设备就分拣了约 1 吨的鲑鱼、鳕鱼、青花鱼和鲱鱼。 这一项目从 2018 年就已启动,日本农业、林业和渔业部出资 1.3 亿日元(约合人民币 812.7 万元),共同委托青森县产业技术中心食品研究所

岗位内推 | 快手招聘内容理解算法工程师、实习生

喜你入骨 提交于 2021-01-24 13:15:41
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 快手是北京快手科技有限公司旗下的产品。 快手的前身,叫“GIF 快手”,诞生于 2011 年 3月,最初是一款用来制作、分享 GIF 图片 的手机应用。2012 年 11 月,快手从纯粹的工具应用转型为短视频社区。2018 年 6 月,快手全资收购 A 站。2019 年底,快手宣布 DAU 达到 3 亿。2020 年《春节联欢晚会》,快手成为独家互动合作伙伴,并在除夕当晚发放 10 亿元现金红包。 内容理解算法工程师 招聘性质: 实习生、社招为主,方向匹配的校招生也可以考虑。 工作地点: 北京 岗位描述: 1. 负责视频内容理解、多标签等相关算法的研发和落地; 2. 负责快手短视频、直播、商业化等场景的多模态内容理解工作,应用计算机视觉、NLP 等技术,提升短视频、直播及商业化的推荐、搜索的效果和体验; 3. 负责视频相关的语义理解、标签识别等工作,基于视频内容和用户行为构建 embedding 特征,持续优化并时刻保持技术先进性,将业界 SOTA 模型落地并改进以获取业务线上收益,并保持独立创新; 4. 负责相关的文本理解、视觉检索、视频生成等工作。 岗位要求: 1. 社招:2-5 年工作经验

ACL-2021交流群

时光毁灭记忆、已成空白 提交于 2021-01-24 09:43:18
ACL2021目前距离投稿还有10天左右时间。之前建立了交流群,方便大家交流。 有投稿的同学可以加群交流,进群的各位同学请将备注改为 姓名+学校+方向 ,便于交流,大家交流的时候不要透露投稿id,不要透露任何违背双盲原则的信息,感谢大家配合。 想要入群的同学,可以添加yizhen-nlp ,备注 ACL-学校-姓名-方向(由于是我个人的微信号,不加备注不会接受同意,望谅解),一定要有投稿需求的同学,谢谢 。 推荐阅读 NAACL2021-交流群 【招人】腾讯广告业务线 赛尔笔记 | 篇章级机器翻译简介 清华CoAI课题组新书《现代自然语言生成》正式发布! GPT“高仿”系列开源了!最大可达GPT-3大小,还能自主训练 ACL 2021投稿避坑指南 我,大学没毕业,在OpenAI搞AI,想教教你如何提升“研究品味” 推荐几本经典AI书籍! 赛尔原创@AAAI 2021 | 纠结于联合学习中的建模方法?快来看看图网络显式建模! 如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种 斯坦福CS224W《图机器学习》2021开课!Jure Leskovec大牛主讲,附课程PPT下载 ICLR2021放榜!录取860篇,接受率为28.7%! 计算机视觉中的Transformer 第二十届中国计算语言学大会(CCL 2021)技术评测任务征集 完全图解GPT-2