机器学习

Hive数据仓库实战

霸气de小男生 提交于 2020-12-07 11:34:13
文章目录 前言 一、Hive原理和功能介绍 二、Hive安装部署 三、Hive SQL操作 UDF函数 Hive 数据仓库模型设计 总结 前言 Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库,分布式机器学习的训练数据和数据处理也经常用它来处理,下面介绍下它的常用功能。 一、Hive原理和功能介绍 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能, Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。 Hive可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,这个Hive也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和reducer无法完成的复杂的分析工作。比如UDF函数。 简单来讲,Hive从表面看来

Data + AI Summit 欧洲2020全部超清 PPT 下载

爷,独闯天下 提交于 2020-12-07 08:19:28
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和 六月份举办的会议 一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark ™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来解决棘手的数据问题。会议的全部日程请参见: https://databricks.com/dataaisummit/europe-2020/agenda 。 和今年六月份会议不一样,这次会议的 KeyNote 没什么劲爆的消息,不过会议的第二天和第三天还是有些干货大家可以看下的。在接下来的几天,本公众号也会对一些比较有意思的议题进行介绍,敬请关注本公众号。 本次会议的议题范围具体如下: 人工智能用户案例以及新的机会; Apache Spark™, Delta Lake, MLflow 等最佳实践和用户案例; 数据工程,包括流架构 使用数据仓库(data warehouse)和数据湖(data lakes)进行 SQL 分析和 BI; 数据科学,包括 Python 生态系统; 机器学习和深度学习应用 生产机器学习(MLOps)

Linux陈年漏洞,可造成系统宕机和遭黑客掌控

自古美人都是妖i 提交于 2020-12-06 18:53:51
点击上方 “ 民工哥技术之路 ” 选择“星标” 每天 10点 为你 分享 不一样的干货 读者福利!多达 2048G 各种资源免费赠送 GitHub的首席安全工程师 Nico Waisman 上周揭露了存在于 Linux 核心( Linux kernel )的安全漏洞,且该漏洞从 2013 年的 Linux kernel 3.10.1 便已存在,一旦被开采就有可能造成系统宕机或是遭到黑客掌控。 此一漏洞编号为 CVE-2019-17666 , 它存在于 Linux 核心中的 RTLWIFI 驱动程序,这个驱动程序是用来 支持Realtek 的 Wi-Fi 芯片,因此,采用 Realtek Wi-Fi 芯片的 Linux 设备 位在恶意装置的无线通讯范围内时,该漏洞就能被触发,形成缓冲区溢位,而让 Linux 系统宕掉,或是允许黑客取得系统权限。 此一漏洞仅冲击那些开启 Wi-Fi 并使用 Realtek 芯片的 Linux 设备 ,但从漏洞的属性来看,采用 Realtek Wi-Fi 芯片的 Android 装置也可能受到波及。 Waisman 向 Ars Technica 透露,这是个严重的 漏洞 ,代表 Linux 装置只要使用了 RTLWIFI ,就可被 远程 黑客由 Wi-Fi 造成系统的缓冲区溢位。 Linux开发人员已提交了 CVE-2019-17666 的修补程序

综述 | 知识图谱技术综述(上)

百般思念 提交于 2020-12-06 18:32:47
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 0.导读 人类先后经历了以文档互联为主要特征的“ Web 1.0 ”时代与数据互联为特征的“ Web 2.0 ”时代,正在迈向基于知识互联的崭新“ Web 3.0 ”时代 [1] 。 知识图谱 (knowledge graph)

2019最后的倔强!一览12月份的GANs(论文标题)

淺唱寂寞╮ 提交于 2020-12-06 18:16:15
欢迎点击上方蓝字,关注啦~ 相关阅读: 容颜渐失!GAN来预测? GAN整整6年了!是时候要来捋捋了! 弱水三千,只取你标!AL(主动学习)结合GAN如何? 异常检测,GAN如何gan ? 虚拟换衣!速览这几篇最新论文咋做的! 脸部妆容迁移!速览几篇用GAN来做的论文 【1】GAN在医学图像上的生成,今如何? 01-GAN公式简明原理之铁甲小宝篇 001 (2019-12-18) Unsupervised Adversarial Image Inpainting https://arxiv.xilesou.top/pdf/1912.12164.pdf 002 (2019-12-10) Bias Remediation in Driver Drowsiness Detection systems using Generative Adversarial Networks https://arxiv.xilesou.top/pdf/1912.12123.pdf 003 (2019-12-27) Graduate Employment Prediction with Bias https://arxiv.xilesou.top/pdf/1912.12012.pdf 004 (2019-12-26) Towards Better Understanding of Adaptive

对比四大隐私增强技术

泄露秘密 提交于 2020-12-06 15:57:57
在今天这个高度数字化的社会,隐私数据面临空前的威胁,无论是个人社交媒体信息、医疗健康信息、财务信息、位置信息、生物特征信息、消费者画像信息等等都存在过度分享和滥用问题,且采集处理这些信息的企业或机构往往缺乏足够的隐私加密和保护能力。与此同时,随着全球对数据价值的认识与日俱增,数据隐私和安全已经成为企业业务运营的重要基石,重要性无论如何强调都不为过。 如今,越来越多的消费者更加担心个人数据和隐私的安全问题,皮尤研究中心(Pew Research Center)去年进行的一项调查发现,有79%的成年人担心公司如何使用收集到的有关他们的数据,52%的成年人表示他们因为担心个人信息被采集而选择不使用产品或服务。 隐私增强技术PET 企业不仅在直接面向消费者的2C市场,在B2B环境中也在寻求减轻隐私风险和担忧的方法,这刺激隐私增强技术(PET)领域的快速进步和商业化。PET是一种强大的技术类别,可在整个生命周期中启用、增强和保护数据隐私。通过采用以数据为中心的隐私和安全性方法,这些技术有助于确保敏感数据在处理过程中得到有效保护。 PET是一个笼统的术语,包括在隐私信息采集、存储、以及在执行搜索或分析过程中对于保护和增强隐私安全性的数据安全技术,例如同态加密、安全多方计算、差分隐私和受信任的执行环境等,其中许多技术存在交集,或者可以结合使用。 四大隐私增强技术的安全性排序:同态加密

基于增强现实的室内导航系统如何设计架构

百般思念 提交于 2020-12-06 15:41:49
关于更多机器学习、人工智能、增强现实、Unity、Unreal资源和技术干货,可以关注公众号:AIRX社区,共同学习,一起进步! 随着技术的不断发展,在未来几年中,基于AR的室内导航应用在不同消费领域会出现大规模的增长。 室内导航与室外导航在复杂程度上有很大不同。对于户外导航,数百万人目前使用这项技术,因为它对性能要求不高;现代智能手机甚至智能手表都内置了GPS和地图。而AR室内导航技术相当复杂,它包含3个必须考虑的模块:定位,映射和渲染。 映射是唯一简单的模块(Mapping)。有了地图和坐标,就很容易制作路线。该模块易于根据给定的业务用例/需求进行升级和定制。 渲染模块管理AR内容的设计,其工作直接取决于定位的精度。我们可以轻松地以3D绘制路线,但是在将虚拟对象与现实世界进行匹配时面临一些挑战。渲染的质量和精度将取决于AR SDK等(例如ARKit、ARCore等)。 在定位方面,情况变得有些艰巨。没有准确的方法来确定用户在室内的确切位置,包括确切的楼层。确定正确的精度水平也是一个挑战。例如,十米够吗?5米呢?还是1米? 室内定位的可用技术 用于室内定位系统的GPS:GPS是导航领域中的现有技术之一,但是,它不能提供建筑物内部的准确定位。在大型和低层建筑(例如机场)中,它相对准确;但它无法确定更详细的信息,例如楼层号,而实现此目的的唯一方法是手动进行操作

机器学习 | 一个基于机器学习的简单小实践:波斯顿房价预测分析

我的未来我决定 提交于 2020-12-06 12:24:24
本 文采用Kaggle上面的Boston HousePrice数据集展示了如何建立机器学习模型的通常过程 ,包括以下几个阶段: 数据获取 数据清洗 探索性数据分析 特征工程 模型建立 模型集成 标签变量(房价) 采取了对数转换,使其符合正太分布,最后从12个备选模型中选出预测效果最好的6个模型Lasso,Ridge,SVR,KernelRidge,ElasticNet,BayesianRidge分别进行加权平均集成和Stacking集成,最后发现Stacking集成效果更好,创新之处在于将Stacking集成后的数据加入原训练集中再次训练Stacking集成模型,使得模型性能再次得到改善,作为最后的预测模型,预测结果提交kaggle上后表现不错。另外受限于训练时间,超参数搜索空间小,有待改善。 数据获取 Kaggle官网提供了大量的机器学习数据集,本文从其中选择了Boston HousePrice数据集,下载地址为https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data,下载后的数据集包括train.csv,test.csv,data_description.txt,sample_submission.csv四个文件,顾名思义train.csv为训练数据集,用于训练模型,test

综述 | 知识图谱技术综述(下)

孤街浪徒 提交于 2020-12-06 05:59:05
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 3.知识图谱的关键技术 前文回顾 3.1 知识抽取 3.1.1 实体抽取 1) 基于规则与词典的实体抽取方法 2) 基于统计机器学习的实体抽取方法 3) 面向开放域的实体抽取方法 3.1.2 关系抽取 1) 开放式实体关系抽取 2

深度学习“四大名著”发布!Python、TensorFlow、机器学习、深度学习四件套(附免费下载)

情到浓时终转凉″ 提交于 2020-12-06 05:46:20
Python 程序员深度学习的“四大名著”: 这四本书着实很不错!我们都知道现在机器学习、深度学习的资料太多了,面对海量资源,往往陷入到“无从下手”的困惑出境。而且并非所有的书籍都是优质资源,浪费大量的时间是得不偿失的。给大家推荐这几本好书并做简单介绍。 获得方式: 1.扫码关注 “涛哥聊python” 公众号 2.后台回复关键词: 4books 注: 此处建议复制,不然容易打错 ▲长按扫描关注,回复 4books 即可获取 1. 《Deep Learning with Python》 推荐指数:★★★★☆ 本书自出版以来收到众多好评,因为是 Keras 作者写的书,所以全书基本围绕着 Keras 讲深度学习的各种实现,从 CNN,RNN 到 GAN 等,偏入门,但也承载着很多作者对深度学习整体性的思考。这是一本偏实战的书,教你使用 Keras 快速实现深度学习经典项目。看完这本书,基本能对 Keras 和深度学习实战有比较初步的掌握了。 本书源码 GitHub 地址: https://github.com/fchollet/deep-learning-with-python-notebooks 2. 《Python Machine Learning》 推荐指数:★★★☆☆ 本书使用了 Scikit-Learn 和 TensorFlow,分别讲解机器学习和深度学习