机器学习

实时数仓与离线数仓总结(一)

本小妞迷上赌 提交于 2021-01-22 18:48:45
今 天主要聊聊数仓的基础知识,分为两篇文章介绍,这是第一篇。 主要内容: 数仓基本概念 数仓架构演变 实时数仓和离线数仓的区别 数仓基本概念 首先说一下数据仓库的概念,以下简称数仓。 数仓是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 主题 是公司从宏观出发,为了分析数据,分了用户主题、商品主题、设备主题等有助于决策的数据模型。 随着互联网的发展,数据源头越来越多且是分散的,除了业务库,APP埋点,web网站log,LOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要进行统一(字段定义、主题归属、项目划分等),数据 集成 在一起。 数仓中的数据是不可修改的,主要用于数据查询,是相对 稳定 的。 数仓的数据一般都带有时间特征,数据是随着时间的变化而变化的。 数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合, 反应历史变化 。 数仓从模型层面分为三层: ODS,操作数据层,保存原始数据; DWD,数据仓库明细层,根据主题定义好事实与维度表,保存最细粒度的事实数据; DM,数据集市/轻度汇总层,在DWD层的基础之上根据不同的业务需求做轻度汇总; 很多面试的时候

一图搞定Matplotlib!

旧巷老猫 提交于 2021-01-22 18:48:26
今天给大家分享一位GitHub大神制作的 Matplotlib cheat sheet, 直接看图 ⬇️ 那么我们来看看,这张图里到底藏了哪些宝贝。 01 图形类型 02 图例配置 03 颜色选项 04 线条相关 05 标记项配置 06 坐标轴相关配置 07 更多的图形 08 其他配置 使用方法我想也不用多说,下载设为壁纸或者打印贴在电脑旁还是做成鼠标垫?总之哪里有Matplotlib哪里就有它! 原版高清大图,后台 回复 绘图 获取。 加入机器学习 微信群 请后台回复 【入群】 推荐阅读: Python处理大数据,推荐4款加速神器 欢迎挑战!14个数据分析和机器学习项目!附数据集 复旦大学机器学习、深度学习视频公开课,附PDF课件下载 喜欢文章,点个 在看 本文分享自微信公众号 - 机器学习算法与Python实战(tjxj666)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/2324223/blog/4424711

什么是物联网?

蓝咒 提交于 2021-01-22 17:50:04
什么是物联网? 物联网指的是全球数十亿的物理设备都连接到了互联网上,都可以进行数据的收集与共享。物联网的终极目标,就是让万物都成为网络的一部分。 将所有这些不同的物体连接起来,并给它们添加传感器,使原本笨笨的设备增加了一个数字智能的层次,使它们能够在不涉及人类的情况下进行实时数据通信。物联网正在让我们周围的世界结构变得更加智能,反应更加灵敏,将数字世界和物理世界融合在一起。 举个物联网的例子 几乎任何物理物体都可以转化为物联网设备,只要把它们连接到互联网上进行控制或通信信息。 一个可以使用智能手机应用程序打开的灯泡就是物联网设备,一个运动传感器或办公室里的智能恒温器也是物联网设备。物联网设备可能像儿童玩具一样毛茸茸,也可能像无人驾驶卡车一样硬核。 一些较大的物体本身可能充满了许多较小的物联网组件,比如现在的喷气式发动机,里面装满了成千上万的传感器,收集并传输数据,以确保其高效运行。在更大的范围内,智慧城市项目正在用传感器填充整个区域,帮助我们理解和控制环境。 物联网这个词主要是指那些通常并不会有互联网连接的设备,而且可以不受人类行动的影响而与网络通信。出于这个原因,电脑一般不被认为是物联网设备,智能手机也不属于物联网设备,尽管后者装满了传感器。不过,智能手表或健身环或其他可穿戴设备可能会被算作物联网设备。 物联网的历史 在 20 世纪 80 年代和 90 年代

如何成为一名合格的推荐系统工程师?

ぃ、小莉子 提交于 2021-01-22 15:10:57
由于近些年深度学习技术的飞速发展,大力加速推动了AI在互联网以及传统各个行业的商业化落地,其中, 推荐系统 、计算广告等领域彰显的尤为明显。由于推荐系统与提升用户量以及商业化变现有着密不可分的联系,各大公司都放出了众多推荐系统相关职位,且薪水不菲,目前发展势头很猛。 但是,这里存在几个问题,很多欲从事推荐系统的同学大多数学习的方式是自学,1、往往是学了很多的推荐算法模型,了解些推荐里常用的算法,如:协同过滤、FM、deepFM等, 但是却不清楚这些模型在工业界推荐系统中是如何串联、如何配合、有哪些坑,哪些trick的,导致无论面试还是真正去业界做推荐系统,都会被推荐领域的”老枪老炮“们一眼识别出小白属性 。2、对于算法原理理解不深刻,这就会导致实际应用时不能很好地将模型的性能发挥出来,另外面试时对于大厂面试官的刨根问底,只能是眼睁睁的丢掉offer。 CF、FM、DSSM、DeepFM等这些推荐业界明星模型,你真的清楚他们的内部运行原理以及使用场景吗?真的了解FM模型与SVM有什么相似之处吗?FM固然可以用作为打分模型,但它可以用来做matching吗,如果可以,如何做?item2Vec模型在业界是如何缓解冷启动的问题的?双塔模型优势在哪?深度模型到底是如何做matching的,是离线计算好结果还是实时的对网络进行前向计算?DeepFM具体实现时

国内高校硕博补贴大公开!(某校博士在读已经年薪 25w 了)

旧巷老猫 提交于 2021-01-22 14:27:13
红色石头的个人网站: 红色石头的个人博客-机器学习、深度学习之路 ​ www.redstonewill.com 转自 | 中国农业大学论坛,论文项目硕博招聘 之前有消息称, 中科大 为吸引优质的博士生源放出大招,来读基础数学的博士生, 每人每年保底收入10万元人民币(助研费+助教费+奖学金)。 掐指一算,除去1万的学费奖学金, 月收入在7500左右 ,这待遇,在新一线城市合肥也算是可观的! 二三线以后的城市,工作十年到手年薪过10万有多少呢? 博士硕士补贴直接与全国200万研究生生活质量息息相关。早些年,国家没有重视硕博生补贴,导师开薪水又全凭心情,所以底层"科研民工"入不敷出,几经发酵引起官方重视,最后增加了补助措施虽然这覆盖率只到了博士。 2010年,博士生工资从800涨到1300,从贫困走向温饱。 2017年,国家明确提出要提高博士生待遇,然而落实到实处,每月250元的涨幅让万千博士呵呵一笑。 根据部分高校和科研单位数十位研究生的反馈数据,了解不同学校读博士的待遇。 清华大学 理工科博士 某理工院系,扣除学费,算助教,直博研一净工资6600一个月(周围人差不多都这个价)。 据说有收入有个底线,每年五万元。 北京大学 计算机博士 最后两年通过校奖能拿到4000/月,据说以前有校奖的话,实验室就不发钱了,但是从我那时候开始就禁止这种行为了,所以我毕业的时候(2017年夏天

手把手教你用 TensorFlow 实战线性回归问题

匆匆过客 提交于 2021-01-22 13:17:45
TensorFlow 实战线性回归问题 线性回归 (Linear Regression) 是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析,用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归问题也是机器学习的入门级知识,下面就和小编一起来学习一下用 Python + TensorFlow 如何实现线性回归吧! 1、线性回归方程 单变量的线性回归方程可以表示为: y=w*x+b 本例我们将通过代码来生成一个人工数据集。随机生成一个近似采样随机分布,使得w=2.0,b=1,并加入一个噪声,噪声的最大振幅为0.4。即方程表示为: y=2.0*x+1 2、人工数据集生成 %matplotlib inline import matplotlib.pyplot as plt import numpy as np import tensorflow as tf # 设置随机数种子 np.random.seed(5) #采用np生成等差数列,生成100个点,每个点取值在-1到1之间 x_data = np.linspace(-1,1,100) # y=2x+1,其中,噪声的维度与x_data一致 y_data = 2*x_data + 1.0 + np.random.randn(*x_data.shape)*0.4

抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场

淺唱寂寞╮ 提交于 2021-01-22 10:21:36
「作为数据科学家,我还有机会吗?」不,你更应该成为数据工程师。 选自Medium,作者:Mihail Eric,机器之心编译,编辑:小舟。 数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据科学已经吸引了越来越多的新人投身于此。 但如今数据科学的招聘状况如何?亚马逊 Alxea 团队的机器学习科学家 Mihail Eric 收集了多家公司的招聘信息后,在个人博客中撰写了一篇分析文章,阐述自己的思考。 数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据领域职位进行了分析,研究问题包括: 在数据领域,公司最常招聘的职位是什么? 人们常讨论的数据科学家的需求究竟有多大? 公司看重的这些技能是引发当今数据革命的技能吗? 以下是博客文章的主要内容: 方法 我选择对 YC 风投公司进行分析,这些公司声称将某种数据作为其价值主张的一部分。 主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多领域的公司提供投资长达十年之久,我觉得他们为本次分析研究提供了一个具有代表性的市场样本。但请注意,我没有分析超大型科技公司。 我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。 为什么是从 2012 年开始呢? 2012 年,AlexNet 在

图像语义分割 —利用Deeplab v3+训练VOC2012数据集

孤人 提交于 2021-01-22 02:45:23
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号:datayx 前言: 配置:windows10 + Tensorflow1.6.0 + Python3.6.4(笔记本无GPU) 源码: https://github.com/tensorflow/models/tree/master/research/deeplab 权重下载地址: https://github.com/tensorflow/models/blob/master/research/deeplab/g3doc/model_zoo.md 1. 运行model_test.py 测试安装环境,如果正常,提示: Ran 5 tests in 10.758s 2. 运行build_voc2012_data.py 生成 .tfrecord数据 在VOC2012数据集中,文件夹JPEGImages存放着原始的[n*m*3] .jpg格式图片,文件夹SegmentationClass中存放Label数据,为[n*m*3]的 .png图片,首先应将这些label数据转换为[n*m*1]的单通道图片。 具体转换方法见: https://blog.csdn.net/weixin_41713230/article/details/81076292 运行成功后,会提示如下信息: 3. 运行train.py训练模型

逻辑回归(Logistic Regression)

江枫思渺然 提交于 2021-01-21 22:22:57
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。  注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。 逻辑回归假设因变量 y 服从伯努利分布 (0-1分布); 而线性回归假设因变量 y 服从 正太分布(高斯分布)。 一个机器学习的模型,实际上是把 决策函数 限定在某一组条件下,这组 限定条件 就决定了 模型的假设空间 。当然,我们还希望这组限定条件简单而合理。 逻辑回归模型所做的假设是:      这里的 g(h) 是上边提到的 sigmoid 函数,相应的 决策函数 为:   决策边界(Decision Boundary)   决策边界,也称为决策面,是用于在N维空间,将不同类别样本分开的平面或曲面。  首先看Andrew Ng老师课程上的两张图:  线性决策边界:   在逻辑回归中, 假设函数(h=g(z))用于计算样本属于某类别的可能性; 决策函数(h=1(g(z)>0.5))用于计算(给出)样本的类别; 决策边界(θ^Tx=0)是一个方程,用于标识出分类函数(模型)的分类边界。

【51学工坊整理】甲骨文Oracle数据库 21c来了,来看看有哪些创新技术

萝らか妹 提交于 2021-01-21 21:03:52
甲骨文公司宣布在 Oracle 云中推出新版本的全球领先融合 数据库 Oracle 数据库 21c 。 Oracle 数据库 21c 不仅包含 200 多项全新创新,包括不可变区块链表、数据库内 JavaScript 、原生 JSON 二进制数据类型、数据库内机器学习的 AutoML 、持久性内存存储,同时增强了内存、图形处理性能、数据库分片、多租户和安全性功能等。不同于云端或本地部署环境中的其他同类数据库, Oracle 数据库 21c 可基于统一的现代融合数据库引擎,满足多模型、多负载和多租户需求。 Oracle 数据库 21c 的创新技术 Oracle 数据库 21c 可作为数据库引擎,为云端和本地部署 Oracle 数据库服务提供支持,包括 Oracle 自治数据库 (Oracle Autonomous Database) 、 Oracle Exadata 数据库服务 (Oracle Exadata Database Service) 、 Oracle Exadata 专有云数据库一体机 (Oracle Exadata Database Cloud@Customer) 和 Oracle Exadata 数据库云平台 (Oracle Exadata Database Machine) 。最新版本包含 200 多项创新,不仅将数据库融合扩展至多个新使用场景,还实现了性能优化