机器学习

总纲前言及致谢

天大地大妈咪最大 提交于 2021-01-02 12:03:47
总纲 前言: 经过2018年一整年断断续续,零零总总的广泛涉猎,从一个机器学习(人工智能领域)的一个门外汉,当然目前也不敢妄自菲薄地说已经跨上门槛,更不用提登堂入室了,不过也算是有所心得,这一年的管中窥豹,让我发觉想要深入一个领域,基石至关重要,因此,本系列总纲,将以一个小白的身份,由内而外地去学习、实践、总结机器学习中的相关内容。2019年,真的是一个不错的年份,“20,19”--“爱你,19”,重回19岁,重新起步,脚踏实地。与君共勉。 第一部分-- 数学基石: 第一部分将关注机器学习的理论知识点的积累,包括线性代数、概率论与数理统计、微积分、图论等,重点围绕线性代数和概率论与数理统计。 线性代数-- 围绕mit18.06 linear algebra的公开课来进行 mit18.06 linear algebra的公开课 mit18.06 linear algebra的公开习题课 国内一些相关书籍习题解读 mit18.06 linear algebra历年公开习题,考试题解读(这一小节会和第二小节有部分重叠) 概率论与数理统计(待定) 第二部分-- python基石: 第二部分将围绕python来应对机器学习中的相关数据处理和可视化,重点围绕scikit-learn,这一部分不会单独连续的发文,将作为配合第三部分的基础coding support来关联发文。单独的各个知识点

程序员怎样出版一本技术书

依然范特西╮ 提交于 2021-01-02 12:03:06
在面试或联系副业的时候,如果能令人信服地证明自己的实力,那么很有可能事半功倍。如何证明自己的实力?最有信服力的是大公司职位背景背书,没有之一,比如在BAT担任资深架构,那么其它话甚至都不用讲了。 不过,不是每个人入职后马上就是大公司架构师,在上进的路上,还可以通过公众号,专栏博文,github代码量和出书出视频等方式来证明自己。和其它方式相比,属于自己的技术图书由于经过了国家级出版社的加持,相对更能让别人认可自己的实力,而对于一些小公司而言,一本属于自己的书甚至可以说是免面试的通行证。所以在本文里,就将和广大程序员朋友聊聊出版技术书的那些事。 1 不是有能力了再出书,而是在出书过程中升能力 我知道的不少朋友,是在工作3年内出了第一本书,有些优秀的,甚至在校阶段就出书了。 与之相比还有另外一种态度,不少同学可能想,要等到技术积累到一定程度再写。其实这或许就不怎么积极了,边写书,边升技术,而且写出的书对人还有帮助,这绝对可以做到的。 比如有同学向深入了解最近比较热门的python数据分析和机器学习,那么就可以在系统性的学习之后,整理之前学习到的爬虫,数据分析和机器学习的案例,根据自己的理解,用适合于初学者的方式整理一下,然后就能出书了。这种书,对资深的人帮助未必大,但由于包含案例,对入门级的读者绝对有帮助,因为这属于现身说法。而且话说回来,如果没有出书这个动力

Python能干啥?(目录)

泄露秘密 提交于 2021-01-02 11:08:18
<h1>第一篇 Python之py9</h1> <div><a target="_blank" style='text-decoration:none;color:#0789e0;' href="https://www.cnblogs.com/nickchen121/p/10897227.html">Python之py9-录音自动下载</a></div> <div><a target="_blank" style='text-decoration:none;color:#0789e0;' href="https://www.cnblogs.com/nickchen121/p/10894968.html">Python之py9-py9作业检查</a></div> <div><a target="_blank" style='text-decoration:none;color:#0789e0;' href="https://www.cnblogs.com/nickchen121/p/10794022.html">Python之py9-py9博客情况获取</a></div> <div><a target="_blank" style='text-decoration:none;color:#0789e0;' href="https://www.cnblogs.com

Python除了做ai,还能干啥?

巧了我就是萌 提交于 2021-01-02 08:47:59
先说个笑话,很多人一开始学习 Python 的时候,会感到无聊和枯燥,因为一开始都不知道那些循环语句呀、列表呀、元组等知识点的用武之地,所以慢慢的就没什么动力了,然后就去买滑板鞋,开始在地上摩擦,像魔鬼的步伐。逢人就说:“Python没用,这玩意不好找工作,就是拿来玩玩~” 最近有不少 b 友想知道 Python 除了爬虫之外,还能玩点啥呢?那么小帅b接下来就来说说我知道的可以使用 Python 做的事情,让你发现更多的方向。 1、爬虫 这玩意不用我多说了,我最近分享的大部分教程就是爬虫,如果你对爬虫感兴趣的话可以看看我之前写的那些文章,也可以看看这个: python如何赚钱?python爬虫如何进阶?python就业?如何快速入门python?..... 2、数据分析 现在的人们越来越不理智了,总是把自己的想法强加到别人的身上,“感觉”会欺骗人,但是“数据”不会,数据是相对来说比较真实的反应,打开你的手机,看看在哪个应用的用时最长,你说你每天学习,但是一看,挖槽,抖音用了 3 个小时,PornHub 看了 4 个小时,你说你在学习? 这就是数据分析最简单的解释,对我们比较重视的事情,通过数据进行可视化分析,Python 让你理智些,克制些。 3、机器学习 现在不是各种吹人工智能么,机器学习就是人工智能的一个分支,它的应用太广泛了,比如自然语言处理,搜索引擎,各种识别技术

人工智能产品流程

∥☆過路亽.° 提交于 2021-01-02 03:04:25
需求验证篇 1.人工智能产品的本质价值(大数据,云计算,算法)(善于做感知,识别性质的事,机器学习,通过数据生成模型 预测。。。。) 人工智能 = 人工 + 智能; 愿景: 规模化服务某一个行业或多个行业 而非走定制路线 2.人工智能产品需求获取(围绕技术打造)(了解客户是C端还是B端;了解客户从哪里获取,了解客户的核心需求是什么) 通过做外包,做定制化深入了解某行业,了解客户需求,需求驱动 3.零基础人工智能产品获客:行业大佬介绍,商务售前,冷启动获客 产品市场调研的必要性:价值(搞清市场空间如医疗领域目前是不盈利的,数据不通,主要玩家,是否有机会,确定目标客户 )(eg:推荐领域有易观,百分点;视觉有商汤,旷视,依图) 人工智能产品的商业模式:卖服务 eg:数美 -- 反欺诈,智能文本过滤; 互联网思维(羊毛出在猪身上)(eg:小度音响,低价抢占互联网入口,后期变现) 不通商业模式的产品路径差异:卖服务(朝头部客户去做,有大订单,投入产出比高,eg:金融领域千万订单) 互联网玩法(SAAS服务一视同仁,找代理铺量) 人工智能产品的规划与迭代: 需求验证期产品规划特征:保持克制,假设-推翻-假设 反复验证。考验定性;需求处于探索阶段,如:只做SDK 验证 需求验证期结束节点表现:搞明白目标用户,商业模式在理论上验证通路;简陋的产品能否满足核心需求,附加需求是否能够想清晰

如何手动优化神经网络模型(附链接)

。_饼干妹妹 提交于 2021-01-02 03:00:38
翻译:陈丹 校对:车前子 本文 约5400字 ,建议阅读 15 分钟 本文是一个教授如何优化神经网络模型的基础教程,提供了具体的实战代码供读者学习和实践。 深度学习的神经网络是采用随机梯度下降优化算法对训练数据进行拟合。 利用误差反向传播算法对模型的权值进行更新。优化和权值更新算法的组合是经过仔细挑选的,是目前已知的最有效的拟合神经网络的方法。 然而,也可以使用交替优化算法将神经网络模型拟合到训练数据集。这是一个有用的练习,可以了解更多关于神经网络的是如何运转的,以及应用机器学习时优化的中心性。具有非常规模型结构和不可微分传递函数的神经网络,也可能需要它。 在本教程中,您将了解如何手动优化神经网络模型的权重。 完成本教程后,您将知道: 如何从头开始开发神经网络模型的正向推理通路。 如何优化二值分类感知器模型的权值。 如何利用随机爬山算法优化多层感知器模型的权值。 我们开始吧。 图源土地管理局,权利归其所有 教程概述 本教程分为三个部分:它们是: 优化神经网络 优化感知器模型 优化多层感知器 优化神经网络 深度学习或神经网络是一种灵活的机器学习。 它们是受大脑结构和功能的启发而来的,由节点和层次组成的模型。神经网络模型的工作原理是将给定的输入向量传播到一个或多个层,以产生可用于分类或回归预测建模的数值输出。 通过反复将模型暴露在输入和输出示例中

论文推荐丨DBOS: 一个以数据为中心的操作系统的建议

南楼画角 提交于 2021-01-01 12:32:01
论文名称:DBOS: A Proposal for a Data-Centric Operating System 推荐理由:作者称当前的操作系统是在今天计算环境之前设计的复杂系统。这使得它们难以克服当前云计算和并行计算环境中的可扩展性、异构性、可用性和安全性挑战。为了解决这些问题,作者提出了一种全新的基于数据中心架构的操作系统设计:所有操作系统的状态都应该统一表示为数据库表,对这些状态的操作应该通过原本无状态任务的查询来进行。这种设计使得在不需要整个系统重构的情况下就可以轻松地扩展和进化操作系统、检查和调试系统状态,在不停机的情况下升级组件,使用机器学习管理决策,并实现了复杂的安全功能。作者讨论了数据库操作系统(database OS,简称DBOS)如何改善当今许多最重要的应用的可编程性和性能,并提出了一个DBOS概念验证的开发计划。 论文链接: https://www.aminer.cn/pub/5f195b3d91e01182befeea4c 订阅了解更多论文信息,定制您的个人科研动态信息流: https://www.aminer.cn/user/notification #论文# #AMiner# 来源: oschina 链接: https://my.oschina.net/u/4373561/blog/4873075

我在干什么?

送分小仙女□ 提交于 2021-01-01 06:46:23
  【本文内容技术含量极低】。但我的哲学是,与其在非技术区写有点技术的博客,何不在技术区写没什么技术的博客呢?   回顾我记录下来的目标,可谓是天花乱坠,这就是我作为空想家(而不仅是自谦为“空想者”)的基本素质。我来整理一下(无序):1.写一部小说(原因1是对人性论点的不满,原因2是希望情感可以被机械模拟,原因3是觉得因此自动生成情节是有可能的,原因4是想整合多年的碎片构思);2.做一部动画(原因1同上几点,原因2是觉得与其建模,不如让机器脑补作画,理论上可以大幅减少运算步骤,并且不止是智能PS那么“简单”);3.写一套编程教材(原因1:学的时候看不懂;原因2:希望找到快速学习方法;原因3:前一条原因引出了“知识是什么”,包括知识表示和分析,和专家系统沾边了;原因4:因此生成教程是可能的,直接由知识的结构生成书,虽然牵扯到接受知识的过程);4.写一本哲学书(1:对常见哲学问题回答的不满;2.希望对零碎之物能有系统分析);5.翻译文档(1.知识表示的范本;2.自然语言之特定领域的分析范本);6.做一个pdf阅读器,加上弹幕和互动功能(1:注释立体化,2:分布式教育和学习,3:时间作品,能看到思维痕迹);7.3d网络课堂(和游戏区别不大,但是我觉得有意义,至少和一般的网课相比);8.ACG自动翻译软件(1:主流翻译器那个复杂啊,我又不怎么玩;2.可以改造成学外语软件);9.开发一个游戏

实时计算 Flink 版应用场景与产品介绍

瘦欲@ 提交于 2020-12-31 14:21:31
摘要:本文由阿里巴巴高级产品专家陈守元老师分享,详细讲解实时计算 Flink 的具体业务场景并分享实时计算 Flink 的相关应用案例。 内容分为以下四部分: 技术原理 技术应用 应用场景 行业案例 1、技术原理 关于技术原理这部分的介绍,下文主要从通晓原理、容易混淆的四大概念、批处理和流处理的对比、事件触发的流处理四个方面展开介绍。 通晓原理举一反三 从上图所示的关于实时计算 Flink 业务架构图中可以发现,平时在做业务开发或是架构设计的时候,开发人员需要通晓产品背后的技术原理,只有这样做开发的过程中才能避免非必要的失误,从而提高数据开发的效率。对于很多架构师来讲,只有通晓了技术背后的原理,才能养成全局的架构嗅觉。 容易混淆的四大概念 下图所示的数据处理时效性的四大概念是从不同维度描述的,分别代表计算的不同特征,它们分别是:实时计算、离线计算、流计算(或称流处理)和批处理。这四个概念其实是从两个维度来描述的,横坐标轴上面的计算和下面的处理,指代的是业务的特征。 实时计算它描述快速的计算过程和快速的请求响应。实时计算描述的是计算链路的表达,是实时业务实时计算的需求特征。离线计算强调的是它的离线特征,即非实时的,非实时的计算过程和非实时的请求响应。业务特征是,不求特快,只求结果。 所以横向坐标轴上面描述的本质都是业务处理需求,而坐标轴下面描述的是技术需求。 流计算(流处理

数据应用场景之标签管理体系

匆匆过客 提交于 2020-12-31 08:17:43
一、标签简介 标签概念 标签,最初用来对实物进行分类和标记,例如标明物品的品名、重量、体积、用途等简要信息。后来逐渐流行到数据行业,用来标记数据,对数据快速分类获取和分析。 标签特点 精确描述定位和搜索,具有生命周期的特性,可以计算,配置和规则化处理。可以用标签来描述各种结构和非结构化[文档、图片、视频等]的数据,从而使这些内容被高效的管理。 描述特征:标签[手机颜色],特征[红色,白色]; 描述规则:标签[活跃用户],规则[每日登陆,产生交易]; 标签价值 精细运营的基础,有效提高流量精准和效率。 帮助产品快速定位需求数据,进行精准分析; 能帮助客户更快切入到市场周期中; 深入的预测分析数据并作出及时反应; 基于标签的开发智能推荐系统; 基于某类下的数据分析,洞察行业特征; 标签的核心价值,或者说最常用的场景:实时智能推荐,精准化数字营销。 二、标签定义 属性标签 属性标签是描述基本特征,不需要行为产生,也不是基于规则引擎分析,例如基于用户实名认证信息,获取:性别,生日,出生日期等特征。变动频率极小,且精准性较高。 行为标签 通过不同业务渠道埋点,捕捉用户的行为数据,基于这些数据分析,形成结果描述的标签,例如:分析用户「网购平台」,得到的结果拼多多,淘宝,京东,天猫等。这些都是需要通过行为数据来判断的标签。 规则标签 规则下分析出来的标签,更多是基于产品或者运营角度来看