大数据

用机器学习构建模型,进行信用卡反欺诈预测

╄→гoц情女王★ 提交于 2021-02-09 20:04:35
本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz/creditcardfraud/data 数据集是2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷。数据集非常不平衡,被盗刷占所有交易的0.172%。不幸的是,由于保密问题,我们无法提供原始数据。特征V1,V2,... V28是使用PCA获得的主要组件。特征Class是响应变量,如果发生被盗刷,则取值1,否则为0。 数据包含了Time,V1,V2,..V28,Amount,Class一共31列,其中Class是标签列,其中0代表没有被盗刷,1表示被盗刷。 2. 分析工具介绍 我们使用的工具是FEA-spk技术,它的底层基于最流行的大数据开发框架spark,对各种算子的操作都是基于DataFrame的,使用FEA-spk来做交互分析,不但非常简单易懂而且几乎和spark的功能一样强大,更重要的一点,它可以实现可视化,处理的数据规模更大,可以进行分布式的机器学习等 3. 案例的具体实现步骤如下 1. 数据预处理(Pre-processing Data) (1) 加载数据 查看一下数据的大小

亿级数据,秒级响应,Smartbi究竟如何做到?

ぃ、小莉子 提交于 2021-02-09 11:57:34
关于 Smartbi,似乎有很多标签:真Excel、复杂报表、性能、自助分析、数据挖掘、NLP….其中,一个“性能”标签,江湖上就有很多的传说,例如应用于火星探测器飞行数据的分析,应用于某省的经济普查,应用于某银行的大规模数据挖掘等等。 数据处理的性能,对于一款 BI软件 来说,是最基本的要求。然而,恰恰最基本的要求,却最能体现产品的品质,使其在众多竞品中脱颖而出。 那么, Smartbi又是如何做到数据处理性能如此强悍呢? 一、 支持列式数据库 传统行式数据库的存储格式按照 ‘行’的方式把一行各个字段的数据存储在一起,一行行连续存储。对于把一行的数据写到数据库中,或者对一行数据中的某些字段进行修改,或者删除整行数据这些事务型的数据库操作来说,既直观也高效。 但是,在行式数据库上做 统计分析 的时候,这种存储格式效率并不高。例如:统计各地区的销售额和利润同比变化、统计各部门的业绩完成情况等等,都是在其中某些字段上的操作,但行式数据库却需要读取每一行的所有字段。在只分析销售额和利润的时候,把其它字段的数据如客户名称,签约时间,客户经理等等也统统都读了进来,浪费了大量资源。虽然通过 “索引”有一定的改善,但大量的索引所带来的存储空间浪费以及为维护这些索引所带来的时间浪费都会以指数级别增长。 图源:网络 列式数据库将同一个数据 “列”的各个值存放在一起,插入某一行数据时

Python中也可以写Excel中的“Vlookup”函数?太牛逼了吧!

爱⌒轻易说出口 提交于 2021-02-09 11:05:48
Vlookup函数 ,可以算是一个数据专员必须要会使用的基本函数了,确实很好用。但是你可能会注意到,Excel一旦数据量过大,打开都费劲了,何况打开后,你还要输入公式计算,就更费劲了,此时你有没有想到过 被称作“万金油”的Python ,他好像啥都可以做,是不是很牛逼?对于Excel来说的大数据量,但是对于Python来说,应该是小菜一碟。 今天我就带着大家对比学习一下,怎么分别在Excel和Python中使用Vlookup函数。 数据源介绍 如图所示,有一个“vlookup.xlsx”文件,“A1:F11”是我们的数据源区域,“K1:L5”是我们的查找源区域。我们的目的就是要在数据源区域的G列加一列数据,查找出不同类型下名称表示。 Vlookup函数介绍 这个函数我想大家应该都会,大家应该也不需要我介绍的太详细,因此我就简单的为大家介绍一下vlookup函数的语法。 参数说明:vlookup(待查找目标, 查找区域, 匹配值所在的列, 精确匹配OR模糊查找); 用一句通俗的话来说明vlookup函数的用法:针对每一个待查找目标,它就能从指定的查找区域中,查找返回想要查找到的值。 Excel中使用Vlookup函数 针对上述提到的数据源,了解Vlookup函数的语法后,下面来看看如何在Excel中使用Vlookup函数。 观察上图:首先,我们在G1单元格 新增了一个“名称”列

《Kubernetes权威指南(第2版)》pdf

牧云@^-^@ 提交于 2021-02-09 09:45:01
下载地址: 网盘下载 Kubernetes是由谷歌开源的Docker容器集群管理系统,为容器化的应用提供了资源调度、部署运行、服务发现、扩容、缩容等一整套功能。《Kubernetes权威指南——从Docker到Kubernetes实践全接触》从一个开发者的角度去理解、分析和解决问题,囊括了Kubernetes入门、核心原理、实战开发、运维、高级案例及源码分析等方面的内容,图文并茂、内容丰富、由浅入深、讲解全面;并围绕着生产环境中可能出现的问题,给出了大量的典型案例,比如安全问题、网络方案的选择、高可用性方案及Trouble Shooting技巧等,有很好的可借鉴性。 无论对于软件工程师、测试工程师、运维工程师、软件架构师、技术经理还是资深IT人士来说,《Kubernetes权威指南——从Docker到Kubernetes实践全接触》都极具参考价值。 龚正 / 惠普公司高级顾问 拥有超过10年的IT行业从业经历,以及丰富的云计算、大数据分析和大型企业级应用架构设计、实施经验,是电信、金融、互联网等领域的资深行业专家。 吴治辉 / 惠普公司系统架构师 拥有超过15年的软件研发经验,专注于电信软件和云计算方面的软件研发,拥有丰富的大型项目架构设计经验,是业界少有的具备很强Coding能力的S级资深架构师,也是《ZeroC Ice权威指南》的作者。 叶伙荣 / 惠普公司资深系统架构师

推荐几个优质技术公众号

南笙酒味 提交于 2021-02-09 08:45:18
各位读者大家好,今天给大家推荐几位在技术领域(算法、开发、金融量化都有)的大佬,他们的文章都有比较多的干货,人也很奈斯,扫码关注他们吧,一起进步! 校招巴士 一个专注于校招内推的自媒体平台!为大家提供最新的校招动态、名企内推、面经笔经、互联网大厂薪资爆料等,助力大家早日拿到理想的offer! 公众号的创始团队均是来自国内一线互联网大厂的师兄师姐,秋招期间就为累计上万名同学提供了无偿的内推渠道,包含阿里、腾讯、百度、京东、字节、美团、滴滴、小米、华为等在内的上百家名企的内推。后期还可以帮大家查询简历进度、指导简历等,为同学们提供最贴心的校招求职服务~ 扫码关注他 大数据肌肉猿 号主峰哥现任职于某知名外企的大数据开发工程师,从机械自学Java后转大数据,也斩获腾讯,头条,京东等数十家大厂offer。持续在公众号输出大小厂面试经验,大数据学习路线、大数据转型案例、资料分享等等。 他也是独自穷游14个国家的背包客,前健美运动员,现健身教练,志为程序员打造最强肌肉。 峰哥为人亲和热心,欢迎大家加他微信与他私聊交流。 扫码关注他 i小码哥 “Python 之父” 推荐的国内唯一 Python 入门书《零基础轻松学 Python》作者。每天分享 Python 干货,从数据分析、人工智能等技术文章、到 Python 工具资源、热点资讯、学习资料等,还有小白原创系列文章。扫描关注后回复

Kafka

倖福魔咒の 提交于 2021-02-09 06:42:04
Kafka 入门 什么是 Kafka kafka最初是 LinkedIn 的一个内部基础设施系统。最初开发的起因是, LinkedIn虽然有了数据库和其他系统可以用来存储数据,但是缺乏一个可以帮助处理持续数据流的组件。所以在设计理念上,开发者不想只是开发一个能够存储数据的系统,如关系数据库、Nosql 数据库、搜索引擎等等,更希望把数据看成一个持续变化和不断增长的流,并基于这样的想法构建出一个数据系统,一个数据架构。 Kafka外在表现很像消息系统,允许发布和订阅消息流,但是它和传统的消息系统有很大的差异, 首先,Kafka 是个现代分布式系统,以集群的方式运行,可以自由伸缩。 其次,Kafka 可以按照要求存储数据,保存多久都可以, 第三,流式处理将数据处理的层次提示到了新高度,消息系统只会传递数据,Kafka 的流式处理能力可以让我们用很少的代码就能动态地处理派生流和数据集。所以 Kafka 不仅仅是个消息中间件。 Kafka不仅仅是一个消息中间件,同时它是一个流平台,这个平台上可以发布和订阅数据流(Kafka 的流,有一个单独的包 Stream 的处理),并把他们保存起来,进行处理,这个是 Kafka作者的设计理念。 大数据领域,Kafka 还可以看成实时版的 Hadoop,但是还是有些区别,Hadoop 可以存储和定期处理大量的数据文件,往往以 TB 计数,而

10亿+文件数压测,阿里云JindoFS轻松应对

若如初见. 提交于 2021-02-08 11:54:09
简介: Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10亿文件数规模下做了压测,验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。 主要介绍 Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。在设计上避免了 NameNode 上的内存限制,与HDFS不同的一点是,JindoFS元数据服务采用RocksDB作为底层元数据存储,RocksDB可以存储在大容量本地高速磁盘,解决了内存容量瓶颈问题。借助于内存缓存,将10%~40%的热文件元数据存放于内存缓存,从而保持稳定的优秀的读写性能。借助于Raft机制

高项真题及解析:信息系统项目管理师2020年11月上午真题及答案解析

落花浮王杯 提交于 2021-02-08 11:24:14
点击领取>>>软考 16本 电子版官方教材 & 36本 辅导教材 + 27套 官方真题冲刺卷 + 21套 必考知识点6G资料包 2020 下半年信息系统项目管理师上午真题及答案 1 、( )使系统的描述及信息模型的表示与客观实体相对应,符合人们的思维习惯,有利于系统开发过程中用户与开发人员的交流和沟通。 A .原型化方法 B .面向对象方法 C .结构化方法 D .面向服务的方法 答案: B 解析: 面向对象方法使系统的描述及信息模型的表示与客观实体相对应,符合人们的思维习惯,有利于系统开发过程中用户与开发人员的交流和沟通。 2 、 TCP/IP 模型中,( )协议属于网络层的协议。 A . ARP B . SNMP C . TCP D . FTP 答案: A 解析: TCP/IP 模型中,网络层中的协议主要有 IP (互联网协议)、 ICMP (网际控制报文协议)、 IGMP 、 ARP (地址解析协议)和 RARP (反向地址解析协议)等。 3 、( )不属于关系型数据库。 A . Oracle B . MySQL C . SQL Server D . MongoDB 答案: D 解析: 常见的数据库管理系统主要有 Oracle 、 MySQL 、 SQLServer 、 MongoDB 等,这些数据库中,前三种均为关系型数据库,而 MongoDB 是非关系型的数据库。 4

读论文:ISIA Food-500 一个大型食品识别数据集通过堆叠的全球本地网络

陌路散爱 提交于 2021-02-08 08:50:34
更新日期:2021-2-7 美团参与编写的论文 一个大规模的食品图像本地识别的算法,以及为算法提供基准的数据集。 数据集:ISIA Food-500 其中 500 个类别来自维基百科 论文中出现的网址不可访问:http://123.57.42.89/FoodComputimg-Dataset/ISIA-Food500.html 美团研究食品识别是对口的,但不知道是原生的食材还是做好的熟食? 答:从文中图像可知是熟食。 挑战 缺乏数据集 在食物图像的整体外观、形状和其他配置方面存在较大的类内变化。 食物图像中有微妙的鉴别细节,很难捕捉到。 数据集构建 构建食品类别列表 收集食物图像 清洗和预处理食品图像。 自动清洗,删除 RGB 通道不完整的图,删除小于 100 象素的图 西方菜肴,东方菜肴 放大数据集。 读完这篇论文,第一感觉是非常水呢? 可能是我不会做这个实验?不知道 来源: oschina 链接: https://my.oschina.net/u/4352597/blog/4949964

如何从小白成长为数据科学家

为君一笑 提交于 2021-02-08 06:38:37
本文是作者在赤兔 APP“数据挖掘”小组内在线分享的记录的第【 2 】部分。 本次分享第【1】部分: 什么是数据科学 。 分享 主题 :Data Science学习分享会 分享 时间 : 2016 年 4 月 18 日 晚 8 : 00-10 : 00 分享 地点 :赤兔“数据挖掘”小组,线上 分享 嘉宾 :黄逸洲, 来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。 为什么我们要成为一名数据科学家? 哈佛商业评论曾今说过,数据科学家是 21 世纪最性感的职业。 习大大也说过,现在国家要进入大数据 + 。 数据分析有更多地机会和领导层接触,为他们提供决策支持,所以也有很好地晋升机会。 这么多好处摆在那里,这个问题就不用问了吧。 数据科学的岗位有很多种,其中数据科学家,数据分析师,数据架构师,数据工程师最为常见。他们的职能各有不同 : 数据分析师擅长处理和进行统计分析; 数据工程师偏向大数据系统的维护和开发; 数据科学家更多地要进行大数据的机器学习和理论分析。 麦肯锡的报告显示,未来对于数据科学相关人才的需求会有很大的缺口,所以从事数据科学也是一个很有潜力的工作 。 所以什么是数据科学家? 数据科学家的目标是将数据转化为价值。 Airbnb 的首席数据科学家 Riley Newman 在一篇博文里面这样定义数据科学家:数据不是冰冷的数字,而是顾客的声音