数据分析

数据分析之信用风险评分卡建立

匿名 (未验证) 提交于 2019-12-03 00:34:01
项目需求:现某金融公司想要通过建立信用风险评分卡对客户进行判断,是否发放贷款 项目描述:数据来源 kaggle 数据量 4 万条,原始字段数 33 个 项目目的: 使用机器学习构建信用卡评分模型,对新样本做出预测 环境和工具: Rstudio, prettyR, smbinning 流程: 1.数据探索:完全缺失字段,以及二分类变量正类缺失的字段进行删除,对异常值采取盖帽 法进行替换 2 对变量进行分箱操作。使用 smbinning 包中的函数,通过决策树进行最优分箱,得到每 个变量的分箱结果,以及对应的 IV 值和 WOE 值。 3 通过 IV 值大于 0.02 的部分,筛选变量(性别,年龄,婚姻,区编号,是否有家庭电话, 工作年限,收入共 7 个变量),并通过 smbinning.gen 和 smbinning.factor.gen 函数生成 新的变量并生成新的数据表。变量值为分箱后对应的 WOE 值,数据模型进行建模 4 采用 Logistic(逻辑回归)进行学习建模,对输出结果通过 smbinning.scaling 进行打分, 生成评分卡 5.通过评分卡对原数据客户进行打分, 基本判断,好坏客户的分数取值分布情况。其次通 过 smbinning.metrics()输出结果, 得到评分卡的分数最优阈值为 546, AUC 值为 0.66, 并不是很好,准确率

数据分析读取数据pandas

匿名 (未验证) 提交于 2019-12-03 00:33:02
首先安装完numpy之后就可以安装pandas了 pip insert pandas 下面是简单的用法可读取任何文件数据包括数据库 import pandas as pd #通常用pd作为pandas的别名 s=pd.Series([1,2,3],index=[‘a‘,‘b‘,‘c‘])#创建一个序列s d=pd.DataFrame([[1,2,3],[4,5,6]],columns=[‘a‘,‘b‘,‘c‘])#创建一个表 d2=pd.DataFrame(s)#也可以用已有的序列来创建表格 d.head()#预览前5行数据 d.describe()#数据基本统计量 #读取文件,注意文件的存储路径不能带有中文,否则读取数据可能出错 du=pd.read_excel(‘D:/abc.xls‘)#读取Excel文件,创建DataFrame du1=pd.read_csv(‘D:/hexun.csv‘,encoding=‘utf-8‘)#读取文本格式的数据,一般用encoding指定编码 print(du) print(du1) 原文:https://www.cnblogs.com/chunqing/p/9217422.html

Delphi XE7 FirDac 三层模式下开发数据分析图表 Dcube

匿名 (未验证) 提交于 2019-12-03 00:27:02
基于FirDac+EXE+DLL模式下,通过Dev控件,可以开发多维数据分析表格功能,可以替代服装行业的Dcube控件。 主要Dev控件:TcxDBPivotGrid 和TcxGrid 通过云露中间件提供的TSelectFDData类,就可以很简单的得到结果。 部分代码: var FselectFDdata: TSelectFDData; i: integer; begin Result := False; FselectFDdata := TSelectFDData.Create; try FselectFDdata.DataBaseName := sDBName; FselectFDdata.Url := FSYSINFO.sURL; FselectFDdata.SqlText := sSQLText; FselectFDdata.Param := sParam; if FselectFDdata.Open <> 0 then begin ErrorBox(FselectFDdata.GetErrorInfo); exit; end; FselectFDdata.SetData(Query); Result := True; finally FselectFDdata.Free; end; 得到的效果如下: 系统基类也提供了表格的显示或长度列的动态设置. 如下图: 文章来源:

python股票分析

与世无争的帅哥 提交于 2019-12-03 00:22:16
升级mac后后遗症不断,因为其sip保护机制,装各种库都装不上。terminal中查询了一下 in:csrutil status print:System Integrity Protection status: enabled. 只有重启电脑开始解锁了,操作步骤: 1、重启电脑,安住command+R。 2、进入terminal使用命令:csrutil disable 3、重启电脑,开始安装python依赖库。 pip3 install requests(安装tushare 需要bokeh) pip3 install astropy(安装tushare 需要) pip3 install lxml(安装tushare 需要) pip3 install tushare(国内股票数据) pip3 install jupyter(编译器及一些库) 本身电脑中安装了numpy、pandas、matplotlib 如果安装lxml时出现如下错误 error: command '/usr/bin/clang' failed with exit status 1 可以执行如下语句xcode-select --install 启动jupyter,在terminal中使用jupyter notebook或者ipython notebook import tushare as ts import

拉勾网招聘数据分析

匿名 (未验证) 提交于 2019-12-03 00:22:01
关于如何爬取拉勾网上的招聘信息,网上教程很多,而且很详细,我自己不再重复提供了。 每个人遇到的大部分问题,我估计70%,在网上都可以找到答案。善于利用搜索引擎,自己多动手,就能够解决其中的大部分问题。 我感兴趣的是,如何处理爬下来的数据,这些数据能够描述什么样的现状。当然了,仅仅展示这些数据,对于数据分析来说是远远不够的。展示是第一步,是基础。如何从这些展示的数据中发现问题,并提出解决方法,甚至能够说服领导或者业务人员,按照你的方法去改进,才是对数据分析人员的挑战。 爬取下来的原始数据,格式如下: 分析工具:jupyter notebook,比较直观,界面友好。用到的库主要是pandas、matplotlib、jieba、wordcloud 一、学历的要求 本科学历以绝对优势遥遥领先。有点意外的是,大专学历比例也不低。硕士需求就比较少。 我个人理解,python最近几年火起来,主要得益于大数据分析和挖掘。而数据挖掘对个人能力要求高,比较厉害的人才基本被头部公司抢走。剩下的大部分公司,主要招的是web开发,python web开发的需求量很大。 能力强一点的硕士,基本不会跑到小公司去做web开发,差一点的硕士,薪资要求也会比本科生高,而且不一定愿意加班。而本科学历的人,相比较而言,年轻一些,也知道自己的起点不是很高,愿意加班。刚开始工作的时候,加加班,迅速掌握一些技术,对于他们来说

《数据分析实战》--用R做多元回归分析

匿名 (未验证) 提交于 2019-12-03 00:22:01
本文参考的是 《数据分析实战》 的第六章。 背景: 针对某公司对产品的不同广告平台投放,基于过去的新增用户数据和投放数据,希望获得更好的广告投放方式,以此建立数据模型。 现状: 不同的广告平台投放,广告效果不同。 预期: 对不同的广告平台加以比例,达到最佳效果。 明确问题: 通过过去的投放数据和新增用户数据,用多元回归方程来确定不同平台的投放广告比例。 在商业领域,通常的做法是在 充分考虑成本的前提下预估一个结果,再采取相应的对策。 也就是说,通常我们会先确定结果,再反过来考虑相应对策的成本。放在本次案例中,我们需要先构筑一个可以预估各广告媒体能带来的用户量的模型,再决定广告的投放方式。 线性回归方程思想很简单:我们将数据描绘在图上,每个点表示一个数据,其中横坐标表示的变量称为自变量,纵坐标表示的变量称为因变量。然后我们在图上画出一条与这些数据点最为拟合的直线,根据这条直线上任何一点的横坐标(自变量)的值就可以得到纵坐标(因变量)的值,这就是线性回归分析。 用R来读取相关数据: > ad_data <- read.csv( 'ad_result.csv' ,header = T ,stringsAsFactors = F ) > ad_data month tvcm magazine install 1 2013 - 01 6358 5955 53948 2 2013 - 02

分析共享单车骑行数据

匿名 (未验证) 提交于 2019-12-03 00:22:01
本认证系统讲解了共享单车的相关知识、大数据应用场景,常用数据分析方法、算法、以及数据可视化, 最后通过一个实验带领学员使用数据分析方法,解决了共享单车调度场景及企业关注的核心指标的分析需求。 1:共享单车现状 2:数据分析方法 3:数据分析工具 4:阿里云相关产品操作演示 5:案例场景分析 6:共享单车骑行分析 阅读原文开始学习 文章来源: 分析共享单车骑行数据

漏斗模型和路径分析

匿名 (未验证) 提交于 2019-12-03 00:22:01
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用 漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东西提交到订单,直到订单完成在线支付,上面的三个步骤走下来,买家人数越来越少,这个过程就是漏斗模型,漏斗模型的主要分析目的是针对网站运营过程中的各个关键环节进行分析,然后针对转换率低的环节进行纠正 路径分析通常是指对用户的每一个网络行为进行精细跟踪和记录,并在此基础上通过分析、挖掘得到用户的详细网络行为路径特点、每一步的转化特点、每一步的来源和去向,从而帮助互联网企业分析用户的网络行为等 C: 产品优化 D: 网站运营和产品运营的过程监控关于管理 最朴素的遍历方法,因为最直观、最直接、最容易让人理解,把某个页面的所有来源以及相应的流量大小整理出来,同时把浏览该页面的下一个页面的所有去向和相应的流量整理出来 文章来源: 漏斗模型和路径分析

用pandas进行数据分析:结合JData ”用户购买时间预测“数据分析实例(三)

匿名 (未验证) 提交于 2019-12-03 00:19:01
表3 :用户行为表(jdata_user_action) 2. 获取部分特征的频率统计和最大/最小值 3. 获取行为次数的统计 文章来源: 用pandas进行数据分析:结合JData ”用户购买时间预测“数据分析实例(三)