风险模型

python大战机器学习——模型评估、选择与验证

删除回忆录丶 提交于 2020-03-22 02:05:32
python大战机器学习——模型评估、选择与验证 1、损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数 绝对损失函数 平方损失函数 对数损失函数 (2)风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失   根据大数定律,当N趋向于∞时,经验风险趋向于风险函数 2、模型评估方法 (1)训练误差与测试误差   训练误差:关于训练集的平均损失   测试误差:定义模型关于测试集的平均损失。其反映了学习方法对未知测试数据集的预测能力 (2)泛化误差:学到的模型对未知数据的预测能力。其越小,该模型越有效。泛化误差定义为所学习模型的期望风险 (3)过拟合:对已知数据预测得很好,对未知数据预测得很差的现象。原因是将训练样本本身的一些特点当做了所有潜在样本都具有的一般性质,这会造成泛化能力的下降。常用的防止过拟合的办法为正则化。正则化是基于结构化风险最小化策略的实现。 3、模型评估 (1)留出法:直接将数据划分为三个互斥的部分,然后在训练集上训练模型,在验证集上选择模型,最后用测试集上的误差作为泛化误差的估计。 (2)交叉验证法(S折交叉验证法):数据随机划分为S个互不相交且大小相同的子集,利用S-1个子集数据训练模型,利用余下的一个子集测试模型。对S种组合依次重复进行,获取测试误差的均值。 (3)留一法:留出一个样例作为测试集。其缺点就是当数据集比较大时计算量太大 (4

Coding and Paper Letter(七十七)

谁说我不能喝 提交于 2020-03-08 23:06:26
新一期资源整理。 1 Coding: 1.用于无服务器计算的安全快速微处理器。 firecracker 2.R语言包ggthemeassist,一个RStudio的Add-in插件用于调整ggplot2主题里的一些绘图细节(文字,边框,颜色)。 ggthemeassist 3.数据框概念的Matlab实现。 DataFrame 4.数据科学访谈的问题与回答。 data science interviews 5.SARS-CoV-2病毒下一代菌株构建。 ncov 6.R语言包tibble,一个现代化的数据框重构包,实现不同的数据库构建方式。 tibble 7.大规模对话前训练。问答系统构建的相关内容。 DialGPT 8.一篇即将出版论文的代码。核心是用Landsat影像和Google Earth Engine绘制奥卡万戈三角洲的逐年洪水地图。 OkavangoDelta flooding 9.R语言包poorman,仅使用基础的R语言函数实现的dplyr复刻版。 poorman 10.R语言包gganonymize,匿名化ggplot2中的标签和文本。 gganonymize 11.CGA 3D 计算几何算法库。 xtorcga 12.成为Google Earth Engine的专家。西班牙语的GEE使用课程。 EarthEngineMasterGIS 13

软件工程复习-开发模型(1)

我只是一个虾纸丫 提交于 2020-02-28 15:23:29
瀑布模型 特点 :线性结构,由前至后,互相连接,逐级下落。 优点 :易于理解,阶段清晰,便于管理跟踪控制。 不足 :早期阶段要求用户需求明确完整,开发过程可逆性差,开发过程中的问题容易累积扩散。各个阶段的划分是完全固定的,因此需要大量的文档(也有一种说法,该模型是由文档来驱动的),工作量大。 适用范围 : 开发过程中需求变化小或者无变化。 开发环境稳定。 低风险项目。 快速原型模型 特点 :快速构建可执行版本,实现用户部分需求,在用户进行试用后,根据该版本来提出修改意见或者变更需求,根据新的需求再进行开发。 优点 :容易适应需求的变化,降低开发风险。 不足 :在该模型中,每次开发的版本一旦确定了用户需求,该版本往往会被抛弃不用,因此快速开发原型软件是开发的重点。 适用范围 : 需求不明确。 用户容易变更需求。 增量模型 特点 :以线性开发的方式完成第一构件(增量),在第一增量中,完成软件最核心的功能,并进行测试交付,完成第一构件后,再在原软件基础上,根据需求进行改进开发,交付下一版本(下一增量)。在该模型的开发过程中,要特别注意接口的定义,以便后续版本对此进行更改拓展。 优点 : 短时间内可以向客户交付具有核心功能的产品。 在后续增量中可以逐步增加功能来完善产品交付客户,降低了开发风险。 开放性的结构可维护性更好。 不足 : 容易退化为边做边改模型,软件控制过程失去整体性。

阿里资深Leader:组建技术团队的一些思考

主宰稳场 提交于 2020-02-28 11:17:16
转自 51CTO技术栈 背景 本文是我从 2019 年 1 月底接手 CRO 线 NLP 算法团队以来,在团队组建、能力建设、以及管理上的一些思考,全部是没有科学论证的主观判断,不过都进行了实践。 我没有任何管理学背景知识,把拙见没羞没臊地写出来,是为了抛砖引玉,和同学们交流讨论。 团队的定位是什么?——做正确的事 定位 团队的定位是重要的事情之一,有了偏差,后续做得越多错得越多。确定团队的定位花了我很长时间,中间还发生了一次组织变化,和两任主管有多次讨论。 首先,这个团队配置在 CRO 线,肯定要为风险管理业务服务;同时,这又是一支能力团队,还要考虑和业务团队的协同关系。 最终,我确定了三点: 能力建设为主,同时也需要有业务抓手。 不做业务团队已经做得好的事情。 立志高远,勇攀高峰,要做就做到最好。 壁垒与价值 不夸张地说,现在是 NLP 领域的大航海时代,新算法层出不穷,日新月异,后浪各种把前浪碾死在沙滩上。 尤其是 BERT 横空出世之后,整个 NLP 的研究范式都发生了变化,从原来的 task-specific 的模型结构设计转变到语言模型 pretrain+ 下游任务 finetuning 的模式,预训练模型是含金量高的工作。 研究一下预训练模型,你会发现这是个需要海量金钱+数据+技术才能玩的游戏。 这就陷入两难 :如果搞预训练模型,没那么多资源;如果不搞

李航《统计学习方法》学习笔记——ch1统计学习概论

喜欢而已 提交于 2020-02-24 20:34:11
1. 统计学习概论 1.1. 概念 定义 统计学习假设数据存在一定统计规律,计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析一门学科。 主要内容 监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin)等。 三要素 模型(model) : 模型的假设空间 策略(strategy) : 模型选择的准则,即确定使用什么样的损失函数 算法(algorithm) : 模型学习的算法,即在最小化损失函数时求解模型参数的算法,如随机梯度下降算法。 术语 输入空间(input space) : 输入所有可能取值的集合 输出空间(output space) : 输出所有可能取值的集合 特征向量(feature vector) : 每一个具体输入的实例(instance),通常由特征向量表示 特征空间(feature space) :所有特征向量存在的空间,特征空间的每一维对应一个特征。 样本(sample) :输入与输出对,又称样本点。 假设空间(hypothesis space) :输入空间到输出空间的映射的集合,模型假设空间的确定意味着学习范围的确定。 注:(1)有时假设输入空间与特征空间为相同的空间;(2

金融风控信用卡评分建模

白昼怎懂夜的黑 提交于 2020-02-17 23:03:15
一、引言 如何利用机器学习以及大数据技术来降低风险呢?如何建立信用评分的模型呢?本文将针对这些问题简单介绍互金行业中授信产品的风控建模过程,内容主要如下: ·信用风险定义 ·信用风险评分卡类型 ·信用评分模型建立的基本流程 1.信用风险定义 ①风险管理的概念 风险管理最早起源于美国。1930年由美国管理协会保险部最先倡导风险管理,后面在全球流行开来,随着互联网的迅猛发展,大数据、数据挖掘和机器学习等新兴技术开始出现,让风险管理更为精准。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据,包括人际关系、历史消费行为、身份特征等,通过大数据“画像”技术,对用户进行全面的定位,由此来预测用户的履约能力、降低信贷风险。 ②什么是信用风险? 信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。 万事都有风险,但对于金融行业来讲,风险控制尤为重要。对于海量的用户数据处理,传统的人工授信方式显然是很乏力的,因此现在大多互联网金融P2P公司都采用机器学习、大数据等技术对风险进行自动化评估,来最大程度的降低风险。当然,这些技术的应用并不能百分百的保证零风险,因为有很多人为因素是不可控的

软件开发模型

拈花ヽ惹草 提交于 2020-02-16 18:22:53
百科名片 软件开发模型 软件 开发模型 (Software Development Model)是指软件开发全部过程、活动和任务的结构框架。软件开发包括需求、设计、编码和测试等阶段,有时也包括维护阶段。 软件开发模型能清晰、直观地表达软件开发全过程,明确规定了要完成的主要活动和任务,用来作为软件项目工作的基础。对于不同的软件系统,可以采用不同的开 发方法、使用不同的 程序设计语言 以及各种不同技能的人员参与工作、运用不同的管理方法和手段等,以及允许采用不同的软件工具和不同的 软件工程 环境。 目录 类型简介 典型的开发模型 展开 编辑本段 类型简介 瀑布模型   最早出现的软件开发模型是1970年W·Royce提出的 瀑布模型 。 该模型给出了固定的顺序,将生存期活动从上一个阶段向下一个阶段逐级过渡,如同流水下泻,最终得到所开发的软件产品,投入使用。但计算拓广到统计分析、商 业事务等领域时,大多数程序采用高级语言(如FORTRAN、COBOL等)编写。瀑布模式模型也存在着缺乏灵活性、无法通过并发活动澄清本来不够确切的 需求等缺点。 常见模型   演化模型、螺旋模型、喷泉模型、 智能模型 等。 编辑本段 典型的开发模型 综述   典型的开发模型有:1. 边做边改模型 (Build-and-Fix Model);2. 瀑布模型(Waterfall Model);3. 快速原型模型

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征

软件生存周期模型之迭代模型

好久不见. 提交于 2020-02-01 15:52:45
什么是迭代模型 迭代式模型是是RUP(Rational Unified Process,统一软件开发过程,统一软件过程)推荐的周期模型。在RUP中,迭代被定义为:迭代包括产生产品发布(稳定、可执行的产品版本)的全部开发活动和要使用该发布必需的所有其他外围元素。所以,在某种程度上,开发迭代是一次完整地经过所有工作流程的过程:(至少包括)需求工作流程、分析设计工作流程、实施工作流程和测试工作流程。实质上,它类似小型的瀑布式项目。RUP认为,所有的阶段(需求及其它)都可以细分为迭代。每一次的迭代都会产生一个可以发布的产品,这个产品是最终产品的一个子集。迭代的思想如图所示: 迭代和瀑布的区别 迭代模型同瀑布模型一样,项目也会遵循需求->分析->设计->开发->测试->发布的流程,但不同的是,在前期需求分析阶段,会将所有的需求按照核心功能点-模块-关联模块进行拆分并分期实现,然后以迭代的形式逐步完善功能,在每一次迭代完成后系统都是可以交付的原型,往往第一次迭代都是产品最核心的功能。 迭代和瀑布的最大的差别就在于风险的暴露时间上。“任何项目都会涉及到一定的风险。如果能在生命周期中尽早确保避免了风险,那么您的计划自然会更趋精确。有许多风险直到已准备集成系统时才被发现。不管开发团队经验如何,都绝不可能预知所有的风险。”  由于瀑布模型的特点(文档是主体),很多的问题在最后才会暴露出来

资产配置研究框架(附代码)

让人想犯罪 __ 提交于 2020-01-27 22:18:50
资产配置研究框架(附代码) 大类资产配置是全球化视野下投资组合管理的重要议题之一。风险和收益是衡量投资组合管理绩效的天枰两边的两个筹码,如何有效均衡风险和收益的关系一直是学界和业界探讨的问题。 本文旨在将目标风险函数和收益风险函数这两大类目标函数引入资产配置研究框架中,同时对比分析综合宏观观点的Black Litterman模型,并在中国市场上进行实证分析。 资产配置理论介绍 广义风险平价模型(风险类目标函数) 风险类目标函数即广义的风险平价模型,就是构造不同风险指标的等风险投资组合。 最典型的风险类目标函数是传统的或者说是狭义的风险平价模型,即波动率平价。我们定义投资组合的波动率为: σ ( ω ) = ω ′ Σ ω ′ \sigma(\omega)=\sqrt{\omega^{'}\Sigma\omega^{'} } σ ( ω ) = ω ′ Σ ω ′ ​ 我们的目标是令标的资产i对投资组合波动率的风险贡献度为投资组合总风险的的1/N: σ ( ω i ) = ω i ∗ ∂ σ ( ω ) ∂ ω i = ω i ( Σ ω ) i ω ′ Σ ω ′ = σ ( ω ) N \sigma(\omega_i)=\omega_i\ast \frac{\partial \sigma(\omega)}{\partial \omega_i} \\=\frac{\omega_{i