机器学习

一周内咸鱼疯转9.6W次,最终被所有大厂封杀!

蹲街弑〆低调 提交于 2021-02-02 06:40:03
来了,来了!博主刚刚把手册整理完毕,专注于 Java 技术栈的学习手册出炉啦!共计 6000 多页,图文并茂,附有源码,还送一波电子书。 内容包括但不限于: JavaWeb 相关(带答案) 精选面试题(带答案) Spring 全家桶(带答案) Linux 相关(带答案) Spring Boot 教程和实战 MyBatis 框架(带答案) MySQL(带答案) Nginx(带答案) Git(带答案) GitHub(带答案) IDEA 教程 & 实战(带答案) Java基础:多线程,集合,JVM等(带答案) DeBug 技巧(带答案) Dubbo(带答案) Redis(带答案) . . . 每篇文章图文并茂,附有源码。还有电子书合集 相关资源,我已经整理好了。 资料获取方法 扫描下方二维码关注: GitHub爱好者社区 在 GitHub爱好者社区 后台回复关键词: 6666 扫描关注,回复" 6666 "即可下载 下面分享的好友大佬私藏的一份宝典。 这是他之前入门学习Python时候的学习资料,非常全面,从Python基础、到web开发、数据分析、机器学习、深度学习、金融量化统统都有,该手册是HTML版本,左侧是目录,可以点击,右侧是对目录知识点的讲解,适合python学习者,对某些知识点不熟悉的话,将页面保存到浏览器书签,可以快速在没网的情况下查找知识点,总计有200多页!

机器学习之支持向量机(SVM)学习笔记

假如想象 提交于 2021-02-02 06:30:03
支持向量机是一种二分类算法,算法目的是找到一个 最佳超平面 将属于不同种类的数据分隔开。当有新数据输入时,判断该数据在超平面的哪一侧,继而决定其类别。 具体实现思路:    训练过程即找到最佳的分隔超平面的过程。当数据特征数是2时,超平面就是一条直线;当数据的特征数是3时,超平面就是一个平面;当数据特征数为1024时,就需要一个2013维的超平面来对其分类。分隔超平面的形式可以写为: w T x+b   最佳超平面的判断依据是,希望离超平面最近的点离超平面尽可能远。 支持向量 就是指那些离超平面最近的点。    分类函数:   使用单位跃阶函数作用到w T x+b上得到f(w T x+b),当w T x+b大于0时函数输出为1,反之为-1,而不是像LR之类算法输出1或0。使用这个函数的好处是当计算数据点到分隔超平面的距离来确定超平面的位置时,间隔通过label*(w T x+b)来计算,那么不管是正分类还是负分类的数据点,其间隔都是正数。    优化目标函数:    ——公式(1)   上式为优化的目标函数。 是点到分割面的函数间隔,当w T 和b等比例放大时,函数间隔的值可以随之变大,因此不具有优化价值。所以优化目标函数中使用点到分割面的几何间隔   直接对公式(1)进行求解十分困难,因此考虑固定一个因子而最大化其它因子。令支持向量的函数间隔为1,最大化1/||w||来求得最终解

sklearn-数据预处理scale

久未见 提交于 2021-02-02 06:03:59
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频,包含数据预处理scale) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 数据预处理方法包括scale,normalization,Binarizer # -*- coding: utf-8 -*- """ Created on Sat Apr 14 09:09:41 2018 @author:Toby standardScaler==features with a mean=0 and variance=1 minMaxScaler==features in a 0 to 1 range normalizer==feature vector to a euclidean length=1 normalization bring the values of each feature vector on a common scale L1-least absolute deviations-sum of absolute values(on each row)=1;it is insensitive to

算法比赛 | 新能源数据清洗算法比赛

£可爱£侵袭症+ 提交于 2021-02-02 04:58:25
光伏功率异常数据识别与清洗 赛题背景 随着光伏发电数字化技术不断深入发展,伴随而来的是多种类、大批量、高密度的各种数据。如何筛选清洗数据成为后期数据分析的基础。以国家电投集团示范光伏电站为例,该电站全年约产生各类生产运行数据、设备监测数据、气象分析数据等多种类数十GB的各种数据,如何判别数据有效性,筛选有效数据开展定性及定量分析,是目前亟待突破的一项重大课题,机器取代人工分析不仅可以提高分析效率同时可以避免人工过多干预带来的不必要错误。大幅提高效率的同时降低人工成本,提高电站整体经济效益。因此开发智能数据清洗算法成为当前需要面对的一个问题,解决该问题可以有效提高光伏发电系统分析效率,同时为未来光伏发电系统精细化运维提供保障。 赛题任务 以异常数据判断及清洗为目的,开展相应功能算法研究。以国家电投集团提供的示范光伏电站数据为依据,数据记录了示范光伏电站10个方阵各3台逆变器1个月的5min间隔有功功率运行数据,主要给出时间戳信息、逆变器所属区块和方阵信息等。需要利用10个方阵的各3台光伏逆变器功率数据结合机器学习无监督算法技术,建立鲁棒的光伏功率异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。 异常数据是由光伏逆变器运行过程与设计运行工况出现较大偏离时产生,此处异常数据可分为3类

QQ为什么是一只企鹅?官方终于答复了!

对着背影说爱祢 提交于 2021-02-02 04:51:48
点击上方 “ 民工哥技术之路 ” 选择“星标” 每天 10点 为你 分享 不一样的干货 读者福利!多达 2048G 各种资源免费赠送 本文授权转自差评公众号,如需转载请联系授权。 不知道差友们有没有想过, 为啥 QQ 的图标是一只小企鹅呢? 关于这个问题的答案,坊间一直流传着一些不靠谱的传说。 而流传最广的大概就是一个 BBC 拍摄的关于企鹅的纪录片。 纪录片里的企鹅,在南极冰天雪地里用小石头为自己垒窝,可是在南极找到 一块合适的小石头需要小企鹅费劲千辛万苦 。 可是一些不守规矩的小企鹅,盯上了一条 “ 捷径 ” : 把别的企鹅的石头叼到自己窝前。 而腾讯正是靠着一招驰名天下的绝技“ 血轮眼 ”,拿下了互联网的半边天。 当然了,以上这个说法都是坊间流传的无稽之谈,差友们全当看个笑话,不能作数。 这些八卦除了这个最不靠谱以外,另外的传说简直五花八门。 甚至还有强行做了一波阅读理解的: 企鹅生活中地球极端,用企鹅做 LOGO 也蕴含着 QQ 网络可以联络世界两端的寓意。 就在几天前,腾讯 QQ 终于坐不住了。 在他们的官方微信号上,发表了一篇长文来解释这只 20 岁的企鹅的前世今生。 所以今天,世超想和差友们聊聊就是这只 20 岁的胖企鹅这些年里的变化, 这事情还要从 1999 年开始说起, 那时候 QQ 还叫做 OICQ ,是一个非常具有年代感的名字。 那时候腾讯 QQ 用的

少有人知的python数据科学库

非 Y 不嫁゛ 提交于 2021-02-02 04:05:46
Python是门很神奇的语言,历经时间和实践检验,受到开发者和数据科学家一致好评,目前已经是全世界发展最好的编程语言之一。简单易用,完整而庞大的第三方库生态圈,使得Python成为编程小白和高级工程师的首选。 在本文中,我们会分享不同于市面上的python数据科学库(如numpy、padnas、scikit-learn、matplotlib等),尽管这些库很棒,但是其他还有一些不为人知,但同样优秀的库需要我们去探索去学习。 1. Wget 从网络上获取数据被认为是数据科学家的必备基本技能,而Wget是一套非交互的基于命令行的文件下载库。ta支持HTTP、HTTPS和FTP协议,也支持使用IP代理。因为ta是非交互的,即使用户未登录,ta也可以在后台运行。所以下次如果你想从网络上下载一个页面,Wget可以帮到你哦。 安装 pip isntall wget 用例 import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) Run and output 100% [................................................] 3841532 / 3841532 filename

客户忠诚度及会员等级划分

倖福魔咒の 提交于 2021-02-02 04:04:51
数据分析入门与实战 公众号: weic2c 一、根据客户忠诚度划分 大多数人长久以来的误区,也包括我——客户都是上帝,客户都是对的。据资料显示,绝大部分公司80%的收益来自20%的客户,而80%的客户却仅仅只能带来20%的收益。但是,营销成本很大部分都花在了不产生价值或低价值的客户身上,浪费了大量的资金和人力。 客户天生就存在差异,优秀客户带来大价值,一般客户带来小价值,劣质客户带来负价值。所以,我们要把有限的精力和资源投资在优质客户身上,而尽量避免在劣质客户上浪费资源。 1、优质客户和劣质客户的区别 优质客户能带来: (1)让你做你擅长的事; (2)认可公司的价值,并能带来效益; (3)向公司提出新的要求,友善地教导公司,提高公司的服务水平; (4)配合公司走向战略和计划一致的良性循环。 劣质客户能带来: (1)让你做那些你做不好或做不了的事情; (2)分散你的注意力,使你改变方向,脱离战略计划; (3)只买很少一部分产品,使你消耗的成本远远超过他们可能带来的收入; (4)要求很多的服务,以至于你无法把精力放在更有价值、且有利可图的客户上; (5)尽管你已尽了最大的努力,但他们还是不满意。 我们需要正确地选择客户,公司也应该主动选择自己的客户,这样才能为他们提供适合的产品和服务,开发成本和维护成本才可能降低。相反,不选择客户,公司就不能为客户提供相应的产品和服务,就会力不从心

决策树

人盡茶涼 提交于 2021-02-01 11:36:46
概要 决策树也是我们经常使用的样本归类算法。简单来说,它就是 if-else 的判断集合,本文就详细介绍其原理,还有例子实现。依然参考《机器学习实战》。 基本理论 决策树是通过一系列规则对数据进行分类的过程。 决策树利用了概率论的原理,不断地将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止。并且利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。 决策树是一种贪心算法 ,要在给定时间内做出最佳选择,但并不关心能否达到最优。 ###决策树的实现 决策树的实现主要分为三个步骤: 特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。 决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止。 剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。 划分数据集的最大原则是: 使无序的数据变的有序 。如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化划分方法有多重,其中一项就是“信息论度量信息分类”

捋一捋少有人知的 Python "重试机制"

扶醉桌前 提交于 2021-02-01 11:14:46
点击上方“ Python爬虫与数据挖掘 ”,进行关注 回复“ 书籍 ”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 弃我去者,昨日之日不可留。 周末愉快,欢迎小伙伴积极学习,文末有 《 Python数据分析 》5本书籍的送书活动 ,记得参与噢~ 为了避免由于一些网络或等其他不可控因素,而引起的功能性问题。 比如在发送请求时,会因为网络不稳定,往往会有请求超时的问题。 这种情况下,我们通常会在代码中加入重试的代码。重试的代码本身不难实现,但如何写得优雅、易用,是我们要考虑的问题。 这里要给大家介绍的是一个第三方库 - Tenacity (标题中的重试机制并并不准确,它不是 Python 的内置模块,因此并不能称之为机制),它实现了几乎我们可以使用到的所有重试场景,比如: 在什么情况下才进行重试? 重试几次呢? 重试多久后结束? 每次重试的间隔多长呢? 重试失败后的回调? 在使用它之前 ,先要安装它 $ pip install tenacity 1. 最基本的重试 无条件重试,重试之间无间隔 from tenacity import retry @retry def test_retry () : print( "等待重试,重试无间隔执行..." ) raise Exception test_retry() 无条件重试,但是在重试之前要等待 2 秒 from

面向监狱编程!程序员偷走共享单车 3 个亿

▼魔方 西西 提交于 2021-02-01 06:23:13
点击上方 “ 民工哥技术之路 ” 选择“星标” 每天 10点 为你 分享 不一样的干货 读者福利!多达 2048G 各种资源免费赠送 前几天,据央视新闻报道,上海公安机关接到共享单车企业报案,随后破获了一起共享单车万能解锁 App 案, 犯罪嫌疑人开发的 App 软件能解锁所有的共享单车。 (视频如上,可以看看) 据警方介绍,“万能钥匙”的实际操作是“将这些共享单车的数据包截取并破解,再将会员信息更改添加到里面,等于是伪装成这些共享单车真正的月卡或者年卡会员。再将这些数据包发送给共享单车的服务器,等于是骗过了服务器的检测,导致开锁的结果。 ‍ 这款 App 影响了多家共享单车企业的正常服务, 造成共享单车公司损失约 3亿 元 。目前开发者 3 名犯罪嫌疑人被依法批准逮捕,11 名犯罪嫌疑人被依法采取强制措施。 在共享单车万能解锁 App 案破获的消息发出后,不少网友发现自己还使用过这款软件,看来钻的空子真的蛮大。 有网友就评论道: 有这样的技术,做点什么不好,非得拿来干这些。 看来程序员也是个高危职业啊,一念之间,就会走向监狱! 技术无罪,有罪的是使用技术动私念的技术人。 版权申明: 文章源自于网络,具体来源及原作者不详,无法溯源 ,版权归原创者所 有。 除非无法确认,我们都会标明作者及出处,如有侵权烦请告知,我们会立即删除并表示歉意, 谢谢。 关注 民工哥技术之路