机器学习

[机器学习][逻辑回归] 有监督学习之逻辑回归

人盡茶涼 提交于 2020-12-05 06:07:39
线性回归方法一般只做回归分析,预测连续值等,而我们的任务是分类任务时该怎么办呢?下面我们讲一下最基本的分类方法,也就是逻辑回归方法(Logit regression)。逻辑回归又称为对数几率回归,它将线性回归的输出又进行了一个特殊的函数,使其输出一个代表分类可能性的概率值,这个特殊的函数称作sigmoid函数,如下式所示: 该函数的函数图像如下图所示: 图6 sigmoid函数 Sigmoid函数在机器学习乃至深度学习中占有很重要的地位,因为它具有以下几个良好性质: 单调可微,具有对称性 便于求导,sigmoid函数的导数满足: 定义域为 ,值域为 ,可以将任意值映射到一个概率上 将现行回归的输出值通过sigmoid函数,可以得到: 将上式稍作变形,可以得到: 可以看出,逻辑回归实际上就是用线性回归拟合 函数,但为什么逻辑回归能用于分类问题呢?由sigmoid函数的性质,我们可以做出假设:预测标签为第一类的数据概率为 , 预测为第二类的概率为 。 即 : 现在预测的概率知道了,我们可以通过极大似然估计(Maximum Likelihood Estimate, MLE)来估计参数 ,使得每个样本的预测值属于其真实标签值的概率最大。这时,极大似然函数也是我们的损失函数: 其中, 为所有待优化参数, 为关于参数 和样本特征 的sigmoid函数, 为样本数目。 为了直观展示逻辑回归的功能

【机器学习】基于逻辑回归的癌症预测案例

本小妞迷上赌 提交于 2020-12-05 05:23:23
1 import pandas as pd 2 import numpy as np 3 from sklearn.preprocessing import StandardScaler # 标准化 4 from sklearn.model_selection import train_test_split # 数据集拆分 5 from sklearn.linear_model import LogisticRegression 6 from sklearn.metrics import classification_report 7 from sklearn.metrics import roc_auc_score 8 9 # 加载数据 10 data = pd.read_csv( " ./breast-cancer-wisconsin.data " , header= None) 11 # print("data:\n", data) 12 # 指定其列索引名称 13 columns = [ 14 " Sample code number " , 15 " Clump Thickness " , 16 " Uniformity of Cell Size " , 17 " Uniformity of Cell Shape " , 18 " Marginal Adhesion "

求求你别再用offset和limit分页了

不打扰是莪最后的温柔 提交于 2020-12-05 04:52:35
点击上方 “ Java专栏 ”, 选择“置顶或者星标” 第一时间阅读精彩文章! 点击这段文字获取: 5个可以写到简历的项目实战视频教程(含源码) 作者: 码农架构I 来源:toutiao.com/i6860655404431442444 不需要担心数据库性能优化问题的日子已经一去不复返了。 随着时代的进步,随着野心勃勃的企业想要变成下一个 Facebook,随着为机器学习预测收集尽可能多数据的想法的出现,作为开发人员,我们要不断地打磨我们的 API,让它们提供可靠和有效的端点,从而毫不费力地浏览海量数据。 如果你做过后台开发或数据库架构,你可能是这么分页的: 如果你真的是这么分页,那么我不得不抱歉地说,你这样做是错的。 你不以为然?没关系。Slack、Shopify 和 Mixmax 这些公司都在用我们今天将要讨论的方式进行分页。 我想你很难找出一个不使用 OFFSET 和 LIMIT 进行数据库分页的人。对于简单的小型应用程序和数据量不是很大的场景,这种方式还是能够“应付”的。 如果你想从头开始构建一个可靠且高效的系统,在一开始就要把它做好。 今天我们将探讨已经被广泛使用的分页方式存在的问题,以及如何实现高性能分页。 1.OFFSET 和 LIMIT 有什么问题? 正如前面段落所说的那样,OFFSET 和 LIMIT 对于数据量少的项目来说是没有问题的。 但是

2020腾讯广告算法大赛方案分享(亚军)

非 Y 不嫁゛ 提交于 2020-12-05 03:38:16
写在前面 亚军团队:山有木兮 林有夕介绍到团队成员宁缺是竞赛圈最具实力冠军选手 ,唐静是竞赛圈最漂亮的女生。 赛题介绍 本届算法大赛的题目来源于一个重要且有趣的问题。众所周知,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。 我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学习领域的各种技术来实现更准确的预估。 赛题理解 1.数据 在比赛期间,主办方将为参赛者提供一组用户在长度为 91 天(3 个月)的时间窗口内的广告点击历史记录作为训练数据集。每条记录中包含了日期(从 1 到 91)、用户信息(年龄,性别),被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id

百度云曲显平:AIOps时代下如何用运维数据系统性地解决运维问题?

帅比萌擦擦* 提交于 2020-12-05 02:02:59
百度云智能运维负责人 曲显平 本文是根据百度云智能运维负责人曲显平10月20日在msup携手魅族、Flyme、百度云主办的第十三期魅族技术开放日《百度云智能运维实践》演讲中的分享内容整理而成。 内容简介:本文主要从百度运维技术的发展历程、如何做智能运维、故障管理场景、服务咨询场景和面对的挑战等几个方面介绍了百度云智能运维实践。 百度运维技术的三个阶段 第一阶段:基础运维平台 2008年~2012年 2008年,在百度运维部建立之前,还没有一个标准而统一的运维平台。例如,搜索、广告、贴吧都有各自的运维平台。 存在的问题: 技术和平台能力无法复用,业务之间需要交互时比较复杂。 解决方法: ①为帮助业务解决问题,我们把各个分散在不同业务的运维平台整合起来做成一套标准化运维平台; ②有了统一运维平台后,运维部门内的角色就分为了两个,即标准的运维工程师和运维平台研发工程师。 第二阶段:开放的运维平台 2012年~2014年 第一阶段仍然存在的问题: ①个性化需求很多,统一平台很难全部解决 ②PaaS出现之后,运维平台和PaaS的关系 解决方法: ①开放运维平台,即全部API化。 ②通过提供标准化的监控数据的采集、计算、报警能力,最基础的程序分发、数据分发、任务调度能力,解决自身平台的需求。 ③利用PaaS方法,把一些研发的技术平台和运维技术平台整合在一起,解决重复造轮子的问题。 第三阶段

昨晚一口气读完了吴军的《智能时代》

时光毁灭记忆、已成空白 提交于 2020-12-05 01:07:27
一直很喜欢大佬吴军博士,内容涵盖从数学、科技再到文明,其写作风格行云流水,科普类的内容读起来像看网络小说般轻松。我本人是有7年小说瘾经历,大家都知道读小说是毫无压力,据说跟网游差不多(我不玩游戏),我的认知里似乎除了网络小说题材似乎没有什么内容能够让你持续投入数小时去专注。但是吴军博士的书,就是这样神奇,轻松带你走进数学的世界,科技的世界。在我读了《数学之美》之后,顺手又买了纸质版的《浪潮之巅》、《大学之路》。抱着纸质书,基本上四五个小时都能差不多读完。 昨天我很懒,没有写公众号文章,大概晚上8点拿起一本吴军博士的《智能时代》就开始看,一直看到凌晨两点,差不多把这本书完完整整的阅读了一遍。对于我们身处的大数据时代,有了更加深刻的理解,也对自己所热爱的更加坚定。 在《智能时代》一书从数据本质、数据与智能的关系、数据思维变革、大数据与商业的融合、智能时代的技术实现苦难、未来产业新机会、未来社会这7部分展开。通过与科技史发现规律,更好的洞见未来。 其中有几点印象很深刻,记录下来: 世界是复杂的,不确定性的。根据信息论,我们可以用更多的信息去消减不确定性。大数据时代,海量的数据带来的信息,才能消减更多的不确定性。 美国司法界推定被告是否有罪,过去智能通过数据找到因果关系才能将其定罪。但是现在开始接受强相关关系证据作为定罪依据。1997年,密西西比州总检察长麦克

机器学习数学基础:数理统计与描述性统计

∥☆過路亽.° 提交于 2020-12-04 19:40:32
↑↑↑关注后" 星标 "Datawhale 每日干货 & 每月组队学习 ,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。 今天是概率统计基础的第二篇文章, 基于第一篇 随机变量与随机事件 进行整理, 首先理一理这里面的逻辑,第一篇的内容蕴涵了大部分概率论的知识(除了大数定律和中心极限定理这种理论性的支持, 后期有机会会补上)。而今天的这篇内容是在概率论的基础上往前一步, 属于数理统计的内容。 概率论中, 我们研究随机现象, 随机变量, 但是我们是假设它们的分布已知, 比如已知某一随机变量服从什么分布, 在这个基础上研究性质, 特点和规律(数字特征啊, 随机变量分布啊等), 而数理统计中, 我们研究随机变量的分布未知或者一部分未知, 要去做的就是通过从未知分布中抽取多个样本, 对这些数据进行统计分析, 从而研究随机变量的分布等。 大纲如下: 数理统计的基础(基础概念, 统计量与抽样分布, 常用统计量) 描述性统计(数据集中趋势和离散趋势, 分布特征, 偏度与峰度) 数理统计基础 前面已经分析了数理统计是基于是通过从未知分布中抽取多个样本, 对这些数据进行统计分析进而去分析随机变量的规律和特点,

首汽约车安全出行的点“智”之笔

房东的猫 提交于 2020-12-04 13:32:31
点击上方关注我们! 不得不承认,我的出行已经被以网约车为代表的数字出行方式所颠覆,而且这种颠覆是完全彻底的,但又是润物细无声似的。现在,我几乎不会再像以前那样,站在寒风瑟瑟的街头,朝着远方的出租车拼命招手;更不会因为要支付打车费用,而到处找小卖铺更换零钱。每次出行前,通过手机约车,便可以从容抵达想去的任何地方。 网约车作为一种新的业态,在快速发展的同时,也遭遇了多方面的行业空白,安全问题就是其中被诟病最多的。2019年,艾媒草莓派数据调查显示:84.98%的网民认为,网约车更便捷;但同时也有65.18%的网民认为,相比网约车,传统出租车则更安全。 针对网约车的安全问题,光明日报曾撰文指出:为提升网约车安全,既要持续从智能化技术层面思考解决方案,更要从行业空白和行业痛点入手,依靠平台、乘客、司机及主管部门共建。“乘客都希望首汽约车能再快一点、再便宜一点、服务也能更聪明一些。”首汽约车CEO魏东,“这些都是我们努力要达成的目标。我们将在自己的基础业务上,围绕着技术纵深能力不断提升。这才是我们想要的未来。” 网约车2.0时代在召唤 2020年突如其来的新冠疫情对网约车产业产生了比较大的冲击。从2020年1月17日开始,首汽约车平台的订单量出现明显下滑。但随着疫情得到有效控制,现在首汽约车的订单量已基本恢复到疫情前的水平甚至更高。虽然整个市场回暖的速度比较快,但经此一“疫”

2020人工智能学习路线!内附完整自学书籍+知识图谱!

家住魔仙堡 提交于 2020-12-04 13:22:44
作为AI 初学者来说,最大的问题就是: 资料太多!!!看不完!!! 不知道如何取舍!!!人的精力有限!!! 大部分想转行AI算法岗位的都比较浮躁。跳槽的时候不得其法。虽然AI行业高薪,但是你却并不能掌握其法门。 AI学习不仅仅在于模型掌握了多少,更多的在于你的算法分析和设计能力、工程实践能力、算法模型的优化能力。 4本享誉全球的AI好书+8份人工智能知识树 免费 送给大家。 该资料非常适合本科、硕士以及刚接触机器学习的博士,还有一些想要转行AI的小伙伴。看完这些资料以后,预祝你顺利敲开大厂的大门。 数量有限 本号仅限100人 👆立即扫码 速速领取👆 备注:【AI书籍】 01 4本享誉全球的AI好书 这些资料其中4个是享誉全球的人工智能书籍,另外还加一个:人工智能黄埔军校—微软亚洲研究院人工智能学习材料。 这些书籍都比较贵,加起来超过了2580元,全部免费送给大家。 02 8份人工智能知识树 不知道自己的就业职场坐标是什么,没有方向和明确的规划,就难以树立自己的职业核心能力! 给你推荐这8张知识树图谱,这8张知识树图谱对我的职业规划有着重大的影响,各位同学一定要认真参考! 高清大图添加下方二维码获取 这些资料都比较贵, 总价值超过 5000元 ,但是对自我的职业发展价值则是无价的! 别慌,这些资料这一次全部免费分享给大家。 扫描下方二维码, 30分钟之内,将会添加你

「Python:Scrapy爬虫框架」

一世执手 提交于 2020-12-04 09:06:36
当我们开始学习python爬虫的时候,都是先学习不同的爬虫库,然后开始通过单脚本来进行爬虫代码的编写,从数据提取到解析到存储都需要自己编写代码。但是Scrapy爬虫框架是可以将数据字段定义、网络请求和解析,数据处理和存储分不同的部分形成一个整体,极大的方便了代码的理解和编写。 针对Scrapy的安装网上有很多,这里就不一一介绍了,我们以简书网专题数据爬取为例来同步介绍相关定义和代码实践。 1、项目创建 创建一个Scrapy项目非常简单,一般快速创建可以通过终端直接输入如下代码: scrapy startproject zhuanti_new 如果要在不同的文件中创建此项目,就需要先找到对应的文件路径,当然你也可以通过pycharm,直接在对应的文件中,点击左下角终端进行创建,项目就直接在对应的项目文件中创建了一个Scrapy项目 2、Scrapy项目文件介绍 通过下面截图可以看到一个Scrapy项目有哪些文件,同时还需要创建和生成哪些文件,接下来逐一介绍。 (1)最顶层的zhuanti_new文件夹是Scrapy的项目名称 (2)第2层有4个文件: 第1个:和项目名称相同的文件,就是我们通常叫的爬虫包,所有的爬虫代码都在这个包里面 第2个:mian文件,是用来运行这个项目的主函数代码文件,代码写完后通过这个文件总体运行 第3个:配置文件,说明一下默认设置文件的位置为zhuanti