监督学习

Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

跟風遠走 提交于 2020-09-29 05:40:28
作者 | 刘早起 来源 | 早起Python 导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。 本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本与数据集完整复现一遍,如果你正处于机器学习入门阶段相信一定会有所收获。 项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。这一耸人听闻的悲剧震惊了国际社会。 沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存,例如妇女,儿童和上层阶级。 在这个项目中,我们被要求完成对可能生存的人群的分析。并且需要使用机器学习工具来预测哪些乘客可以幸免于悲剧。 数据读取与检查 首先导入与数据处理相关的库,并检查版本与数据文件夹 #导入相关库 import sys

60分钟看懂HMM的基本原理

为君一笑 提交于 2020-09-29 04:53:20
作者 | 梁云1991 来源 | Python与算法之美 HMM模型,韩梅梅的中文拼音的缩写,所以又叫韩梅梅模型,由于这个模型的作者是韩梅梅的粉丝,所以给这个模型取名为HMM。开玩笑! HMM模型,也叫做隐马尔科夫模型,是一种经典的机器学习序列模型,实现简单,计算快速,广泛用于语音识别,中文分词等序列标注领域。 下面通过一个村民看病的故事理解什么是HMM模型。 想象一个乡村诊所,村民的身体状况要么健康要么发烧,他们只有问诊所的医生才能知道是否发烧。 医生通过询问村民的感觉去诊断他们是否发烧。村民自身的感觉有正常、头晕或冷。 假设一个村民每天来到诊所并告诉医生他的感觉。村民的感觉只由他当天的健康状况决定。 村民的健康状态有两种:健康和发烧,但医生不能直接观察到,这意味着健康状态对医生是不可见的。 每天村民会告诉医生自己有以下几种由他的健康状态决定的感觉的一种:正常、冷或头晕。 于是医生会得到一个村民的感觉的观测序列,例如这样:{正常,冷,冷,头晕,冷,头晕,冷,正常,正常}。 但是村民的健康状态这个序列是需要由医生根据模型来推断的,是不可直接观测的。 这个村民看病的故事中由村民的健康状态序列和村民的感觉序列构成的系统就是一个隐马尔科夫模型(HMM)。 其中村民的健康状态序列构成一个马尔科夫链。其每个序列值只和前一个值有关,和其它值无关。由于这个马尔科夫链是隐藏的,不可以被直接观测到

机器学习教程篇1 -- 线性回归(上)最小二乘法

孤街浪徒 提交于 2020-09-28 17:48:23
机器学习 -- 线性回归 一、最小二乘法 1、概念 2、内容讲解 (1)模型结构 (2)误差函数 (3)代码 (4)调用Scikit-learn库进行开发 “好好学习,天天向上” – 机器学习的第一个教程开始啦,后续会附上视频讲解 一、最小二乘法 1、概念 线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。主要解决的就是如何通过样本来获取最佳的拟合线。现在使用得比较广泛的就是梯度下降和最小二乘法,,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。在有监督学习问题中,线性回归是一种最简单的建模手段。这里首先讲解最小二乘法。 2、内容讲解 (1)模型结构 从线性回归模型开始讲起,由式子,最后是一条高维空间的直线(因为这里的x都是一次项的),最终的目的是求出a和b,也就是所有的x和b,为了让所有的点都在线上,就要不断调整w(系数,也即权重)。随着维度的增加,计算量也增加,用一组向量就可以表示所有的系数。注意这里W是列向量。 所以确定W和b就能求出y了。 (2)误差函数 理论值与预测值的差的平方最小。 (3)代码 1、导入数据,定义损失函数和拟合函数等。 import numpy as np import matplotlib . pyplot as plt points = np . genfromtxt ( 'data.csv' ,

hslogic_模式识别人工神经网络BP算法

孤者浪人 提交于 2020-09-28 14:00:56
识别活动是人类的基本活动,人们希望机器能代替人类进行识别工作。因此模式识别的理论和方法引起了人们极大的兴趣并进行了长期的研究,现已发展成一门多学科交叉的学科。针对不同的对象和不同的目的,可以用不同的模式识别理论、方法。而人工神经网络能较好地模拟人的形象思维,而且由于具有大规模并行协同处理能力、较强的容错能力和联想能力以及较强的学习能力,所以将神经网络方法运用到模式识别中去解决识别问题己成为国内外科技工作者广泛关注的热点。 本文首先对模式识别、神经网络的发展概况以及应用神经网络来进行模式识别的历史渊源等方面作了较为详细的介绍,然后分析了模式识别的一些基本概念、方法,指出了其困难和要求,同时给出了神经网络进行模式识别的方法,并比较它与传统方法的异同,说明了神经网络方法进行模式识别的特点与优越性;然后给出了本文核心即BP神经网络模式分类的实现思想。运用上述研究成果,借助于MATLAB,用BP算法完成了神经网络结构设计。进行的测试表明其运行稳定、字符识别率较高,表明了本文研发成果的有效性。 神经网络的研究是以人脑为基础的一门智能科学的研究与探索,实际上,40年代初,就有人认识到这一领域研究的重要性。可以说,它的研究与当今串行计算机的研究是同步进行的。但是,由于当时分子生物学发展的限制,人脑的机理还未真正弄清楚,从而影响这一研究领域的进展:另一方面,由于VLSI技术日新月异的进步

独家 | 最新的AI会“杀死”编码吗?

余生颓废 提交于 2020-09-28 10:25:27
作者:Frederik Bussler 翻译:方星轩 校对:陈丹 本文 约1800字 ,建议阅读 5 分钟 本文围绕GPT 等AI技术是否将取代编码工作进行探讨,作者给出了自己的意见和看法。 标签:AI 编程 自动化 (照片来自Scott Rodgerson) 现在,AI可以使用任何语言进行编码,而无需额外的培训。 2017年,有研究人员问:人工智能能否在2040年之前编写出大多数代码?测试人员现在正在使用OpenAI的GPT-3已经可以使用任何语言进行编码。机器主导的编码几乎就差临门一脚了。 GPT-3接受了数千亿个单词的训练,或者说基本上整个互联网都参与了训练,这就是为什么它可以使用CSS,JSX,Python等任何你能说出名字的语言进行编码的原因。 此外,GPT-3无需对各种语言任务进行“训练”,因为其训练数据包罗万象。相反,当你给出琐碎的指令时,网络会被手头上的任务限制住。 GPT-n的演变 GPT通过将有监督学习与无监督的预训练相结合(或将无监督步骤的参数用作有监督步骤的起点),实现了语言任务的最先进水平。与下一代相比,GPT很小。它仅利用了一台8CPU机器在几千本书上进行训练。 GPT-2极大地扩展了内容,包含10倍的参数,并加入了10倍以上的训练数据。尽管如此,该数据集还是相对有限的,它专门使用“至少运用了3个karma的Reddit出站链接”进行训练。GPT

Python机器学习教程

帅比萌擦擦* 提交于 2020-09-24 07:30:30
本机器学习教程提供了机器学习的基本和中间概念。它是为完全入门的学生和专业工作人员而设计的。在本教程的最后,您不会成为机器学习方面的专家,但是您将能够制作能够执行复杂任务(例如,预测房屋价格或从尺寸识别虹膜的种类)的机器学习模型。花瓣和萼片的长度。如果您还不是一个完整的初学者,并且对机器学习有所了解,那么我建议您从子主题八开始,即机器学习类型。 在进入本教程之前,您应该熟悉Pandas和NumPy。这对于理解实现部分很重要。以下是我们将在本教程中讨论的子主题: 什么是机器学习? 它与传统编程有何不同? 为什么我们需要机器学习? 机器学习的历史 目前的机器学习 机器学习的特点 机器学习的最佳语言是什么? 机器学习的类型 监督学习 无监督学习 强化学习 机器学习算法 机器学习步骤 机器学习的优势 未来的机器学习 什么是机器学习? 亚瑟·塞缪尔(Arthur Samuel)在1959年创造了“机器学习”一词。他是人工智能和计算机游戏的先驱,并将机器学习定义为“使计算机无需明确编程即可学习的能力的研究领域”。 简而言之,机器学习是人工智能(AI)的一种应用程序,它使程序(软件)可以从经验中学习并提高自己在完成一项任务时的自我,而无需进行明确的编程。例如,您将如何编写一个程序来根据水果的各种属性(例如颜色,形状,大小或任何其他属性)识别水果? 一种方法是对所有内容进行硬编码

一文走遍完整NLP自然语言处理流程

余生长醉 提交于 2020-09-23 16:51:08
NLP进阶之路上,你是否也遇到过这些疑问? 为什么在这个问题上使用Adam,而不是GD或者Adagrad? 对于特定的业务场景,我应该如何把领域知识考虑进去, 用先验,还是用限制条件? 对于拼车场景,设计了一套优化目标,但好像是离散优化问题,应该如何解决? 对于二分类,我应该选择交叉熵还是Hinge Loss? 想在NLP进阶之路上有所成长,推荐你贪心学院的《高阶NLP集训营》。 实战6大NLP项目 1.从零搭建一个完整的问答系统。 2.基于给定数据,搭建完整的情感分析系统。 3.利用非结构化数据搭建知识图谱。 4.基于给定的对话数据构建NLU识别部分,结果用于聊天机器人中。 5.基于给定数据,搭建一个完整的情感分析系统。 6.搭建一个完整的聊天机器人,用来服务搜索餐厅。 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 01课程大纲 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 02部分项目作业 课程设计 紧密围绕学术界最新进展以及工业界的需求, 涵盖了所有核心知识点,并且结合了 大量实战项目, 培养学员的动手能力,解决问题能力。 问答系统 从零开始搭建一个完整的问答系统。 给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。 涉及到的模块: 1

AI辅助,数据标注行业发展的新引擎丨曼孚科技

狂风中的少年 提交于 2020-08-20 08:55:55
人工智能是研究如何通过机器来模拟人类认知能力的科学,目前人工智能应用最广泛的计算机视觉与语音交互依赖于监督学习下的深度学习方式,而监督学习下的深度学习算法训练则十分依赖人工标注数据。 相关数据显示,目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张标注图片训练,而定期优化算法也有上千张图片的需求。 这些海量训练数据集的背后是无数标注员共同努力的成果,正如著名科幻作家刘慈欣所言,“现在的人工智能,前面有多少智能后面就有多少人工。” 不过,随着人工智能落地进程的加快,这种过于依赖人力的方式也暴露出很多弊端。 首先,AI商业化对数据标注行业提出了新的要求,想要更加契合落地需求、解决垂直场景具体痛点,还需要海量且优质的标注数据做支撑,这在无形中增加了数据服务供应商的管理以及人力成本。 此外,数据需求量的提升对服务商的交付能力也提出了新的要求,容易造成项目延期等连锁反应。 为了解决这些问题,通过在数据标注以及质检的环节中应用AI辅助,进行人机协作,可以有效提高标注效率,充分发挥AI对于数据标注行业的反哺作用。 1.AI预标注 在语音转写类标注项目中,数据标注员需要仔细聆听每一个词语的发音,判断并转写其语义,这对于标注员的听写能力以及在长时间多任务下的专注力有着极高要求。 通过在此环节应用AI辅助,对语音数据进行语音识别

用人工智能监督人工 遭遇非技术困局

元气小坏坏 提交于 2020-08-20 08:24:23
来源: 科技日报 远程办公常态化催生云监工软件市场。近日一款名为Enaible的AI监工软件销售火爆,这种AI软件不仅可以盯着员工干活,还可以对员工的工作效率进行打分…… 一场新冠肺炎疫情,让远程办公逐渐成为常态。钉钉、飞书、企业微信、zoom等视频会议类软件,很好地解决了远程沟通问题。除了视频会议软件,另一种云监工软件也火了,这种AI软件可以盯着你干活,看你是否“摸鱼”,并给你打分。这款AI监工软件名叫Enaible,据悉,全员在家办公期间,Enaible销售尤其火爆,前来咨询的公司数量是以前的4倍。但也有批评声音表示,这款软件会让员工失去创造力和对于公司的忠诚度。 收集操作痕迹 可给工作效率评分 AI监工有何神通能监督员工们的工作,还能为员工打分?据介绍,Enaible软件装在员工的电脑里,并可以在后台一直运行,收集员工工作中的细节数据后提供给公司。软件使用了一个名为Trigger-Task-Time的算法,算法会根据邮件或者电话,来判断员工要完成什么任务以及计算这些任务花了多长时间来完成,随后算法会根据这些数据给员工的工作效率打分。 “我们使用的操作系统,都会以日志的形式对应用软件的操作流程进行记录。打开哪个文档、内容是什么、上网浏览哪些网页都会留下使用痕迹。在计算机里面装一个监控软件,赋予它操作系统里的很多权限,AI监工就能把办公中操作电脑所留下的各种数据收集起来

《统计学习方法》第二版的代码实现

女生的网名这么多〃 提交于 2020-08-19 23:14:40
《统计学习方法》的代码实现 下载地址:https://github.com/fengdu78/lihang-code 打包下载: 链接:https://pan.baidu.com/s/13Ob6SoAnRCYEkipIwiDHZQ 提取码:arqo “机器学习初学者”公众号 李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。 《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。 今天我们将李航老师的《统计学习方法》第二版的代码进行了整理,并提供下载。 非常感谢各位朋友贡献的自己的笔记、代码! 2020年6月7日 代码更新地址: https://github.com/fengdu78/lihang-code 代码目录 第1章 统计学习方法概论 第2章 感知机 第3章 k近邻法 第4章 朴素贝叶斯 第5章 决策树 第6章 逻辑斯谛回归 第7章 支持向量机 第8章 提升方法 第9章 EM算法及其推广 第10章 隐马尔可夫模型