机器学习

自然语言处理(NLP)的一般处理流程!

不想你离开。 提交于 2020-11-23 09:02:00
1. 什么是NLP 自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子 领域 。**自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。**为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。 2. NLP主要研究方向 信息抽取 :从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。 文本生成 :机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。 问答系统 :对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。 对话系统 :系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。 文本挖掘

蒲公英 · JELLY技术周刊 Vol.08 -- 技术周刊 · npm install -g typescript@3.9.3

末鹿安然 提交于 2020-11-23 08:50:20
登高远眺 沧海拾遗,积跬步以至千里 基础技术 官宣: Typescript 3.9 正式发布 TypeScript 3.9 正式发布,这个版本主要聚焦于性能、改进某些特性和提升稳定性。编译器效率在这一版有了极大提升,平均编译时长从 26 秒缩短至 10 秒,改善了编辑体验,同时修复了早期 Typescript 版本面临的 Promise 困扰等等,快点升级到 3.9 尝尝鲜吧。 史上最详尽的 Git 分支管理实践 Git 作为我们日常开发必不可少的代码管理工具,掌握好它,可以达到事半功倍的效果,特别在多人协作的项目中尤为重要。本文不单讲解了 Git 的设计理念,同时带领我们重新认识分支,用实战的方式详细讲解了日常工作中可能遇到的问题及最佳实践。 懂你的测试框架 -- Cypress Cypress 是基于 node.js 研发的 E2E 测试框架。解决了开发人员和 QA 工程师在测试现代应用程序时面临的关键难点问题。拥有着开箱即用,文档清晰美观的优点,语法用起来比较舒服优雅,最重要的一点是测试跑在 Chrome 的标签页里,使得开发者可以方便地在测试和开发中进行便捷的切换。 图形编程 开发必备: Opentype.js opentype.js 是一款用于 TrueType 和 OpenType 字体的JavaScript解析器和编写器, 它可以直接提取字体文件中的文字 bézier

2019 春季算法工程师实习生招聘历程

允我心安 提交于 2020-11-23 08:49:29
持续了将近两个月的 2019 春季实习生招聘总算是告了一个段落,虽说去年入学时便已知道找工作就在眼前,但当它真正到来的时候,自己依然是措手不及。好在历经坎坷,结果总归是好的,希望接下来的实习收获满满。 1. 前言 春节假期还没有结束,一些公司的实习生招聘已然开始。等我来到学校,完善简历,大致过了一遍相关基础知识,这才开始投递简历。此时时间已来到了 3 月初,接下来,在等待笔试面试的过程中,我着重复习了以下几个方面的知识。 项目介绍 ,对照着简历进行重点复习,以及整理现在正在做的课题 超光谱图像去噪基准 深度学习,吴恩达系列课程笔记 机器学习,西瓜书,也就看了看决策树、SVM、PCA,主要是实际中没用过机器学习的方法,基本没有深入研究过 数据结构和算法, 极客时间课程笔记 代码能力, LeetCode 刷题回顾 以及《剑指 Offer》 编程语言,C++/Python,简单回顾了一些重要概念 线性代数, 麻省理工公开课笔记 概率论,麻省理工公开课笔记 2. 招聘进程 其中一些是我自己的面试经历,这部分会稍微详细总结,还有一些是一起面试的其他同学的情况,略写。 2.1. 腾讯 官网投递 3 月 10 日晚提前批笔试,两个小时,官方说法是自愿参加仅做参考 笔试五道题 340/500 3 月 21 日北京广告部面试一小时 1.求数组中和为给定值的所有数字对,如果数组排好序,用 O(n)

python推荐书籍

回眸只為那壹抹淺笑 提交于 2020-11-23 07:40:18
推荐的python电子书 python学习路线图 优先级 入门:python核心编程 提高:python cookbook 其他 (1).数据分析师 需要有深厚的数理统计基础,但是对程序开发能力不做要求。 需要熟练使用主流的数据挖掘(或统计分析)工具如 Business Analytics and Business Intelligence Software (SAS)、 SPSS 、EXCEL等。 需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。 经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。 (2).数据挖掘工程师 需要理解主流机器学习算法的原理和应用。 需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。 需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。 经典图书推荐:《数据挖掘概念与技术》

60分钟看懂HMM的基本原理

僤鯓⒐⒋嵵緔 提交于 2020-11-23 06:34:12
HMM模型,韩梅梅的中文拼音的缩写,所以又叫韩梅梅模型,由于这个模型的作者是韩梅梅的粉丝,所以给这个模型取名为HMM。开玩笑! HMM模型,也叫做隐马尔科夫模型,是一种经典的机器学习序列模型,实现简单,计算快速,广泛用于语音识别,中文分词等序列标注领域。 公众号后台回复关键字: 源码 ,获取本文包含全部公式和插图的md源文件。 下面通过一个村民看病的故事理解什么是HMM模型。 想象一个乡村诊所,村民的身体状况要么健康要么发烧,他们只有问诊所的医生才能知道是否发烧。 医生通过询问村民的感觉去诊断他们是否发烧。村民自身的感觉有正常、头晕或冷。 假设一个村民每天来到诊所并告诉医生他的感觉。村民的感觉只由他当天的健康状况决定。 村民的健康状态有两种:健康和发烧,但医生不能直接观察到,这意味着健康状态对医生是不可见的。 每天村民会告诉医生自己有以下几种由他的健康状态决定的感觉的一种:正常、冷或头晕。 于是医生会得到一个村民的感觉的观测序列,例如这样:{正常,冷,冷,头晕,冷,头晕,冷,正常,正常}。 但是村民的健康状态这个序列是需要由医生根据模型来推断的,是不可直接观测的。 这个村民看病的故事中由村民的健康状态序列和村民的感觉序列构成的系统就是一个隐马尔科夫模型(HMM)。 其中村民的健康状态序列构成一个马尔科夫链。其每个序列值只和前一个值有关,和其它值无关。由于这个马尔科夫链是隐藏的

中国AI技术领先,是因为数学好?美国杂志直指中美数学教育差距

守給你的承諾、 提交于 2020-11-23 06:24:50
机器之心报道 参与:蛋酱、泽南 转载自公众号:机器之心 美国 CS 专业超过 64% 博士生和近 70% 的硕士生是留学生,数学博士学位有一半授予了非美国公民,中国和印度学生占大部分。 上个星期,一位华人留学生题为「亚洲人数学能力其实很差?」的视频登上了热搜。 「知其然而不知所以然,他们仅仅擅长使用而不追求真理。」这名女生认为大多数亚洲人学习数学时注重运用却不关心原理推导,论据有一定的道理,不过结论引发了不少人的吐槽。 很快,博主「他们都叫我雪姨」新发布了一个视频向大家道歉,表示个人经历不能指代群体,有关亚洲人数学很差的言论十分不正确。在应试教育为主,升学压力很大的国内,如果说学生们花费如此大的精力却不能把一门学科学明白,确实非常可怕,数学是当代高等教育最重要的基础是有目共睹的。 7 月份,2020 阿里巴巴全球数学竞赛结束 ,活动创办者马云如此评价数学的重要性。 有趣的是,在数学水平太差这件事上,大洋彼岸的美国人和我们有着同样的担忧。在亚洲人数学很差的视频在国内流行的同时,美国《国家利益杂志》刊载了一篇文章给出了完全相反的观点:因为中国人数学好,在人工智能领域里中国正在逐渐成为决定性力量。 这篇报道在开篇即提到:「忘记人工智能本身吧,它只是一个数学问题。美国没有培养出足够擅长数学的公民,因此无法保持统治地位。」 以下为美国《国家利益杂志》报道的主要内容:

“2020毕业生真是天选之子”

别等时光非礼了梦想. 提交于 2020-11-23 05:36:53
本文来源于微信公众号 摩登人类 (ID:MrModern),仅学术分享,侵删。 公众号近期荐读: GAN整整6年了!是时候要来捋捋了! 新手指南综述 | GAN模型太多,不知道选哪儿个? 数百篇GAN论文已下载好!搭配一份生成对抗网络最新综述! CVPR2020之MSG-GAN:简单有效的SOTA CVPR2020之姿势变换GAN:图像里谁都会劈叉? CVPR2020之多码先验GAN:预训练模型如何使用? 有点夸张、有点扭曲!速览这些GAN如何夸张漫画化人脸! 见微知细之超分辨率GAN!附70多篇论文下载! 天降斯雨,于我却无!GAN用于去雨如何? 脸部转正!GAN能否让侧颜杀手、小猪佩奇真容无处遁形? 容颜渐失!GAN来预测? 强数据所难!SSL(半监督学习)结合GAN如何? 弱水三千,只取你标!AL(主动学习)结合GAN如何? 异常检测,GAN如何gan ? 虚拟换衣!速览这几篇最新论文咋做的! 脸部妆容迁移!速览几篇用GAN来做的论文 【1】GAN在医学图像上的生成,今如何? 01-GAN公式简明原理之铁甲小宝篇 GAN&CV 交流群 ,无论小白还是大佬,诚挚邀您加入! 一起讨论交流!长按备注【进群】加入: 更多分享、长按关注本公众号: 本文分享自微信公众号 - 机器学习与生成对抗网络(AI_bryant8)。 如有侵权,请联系 support@oschina.cn 删除。

语义分析的waf 目前就看到长亭 机器学习的waf有fortnet 阿里云的waf也算

这一生的挚爱 提交于 2020-11-23 05:17:16
近期,在全球权威咨询机构 Gartner 发布的 2019 Web 应用防火墙魔力象限中,阿里云 Web 应用防火墙成功入围,是亚太地区唯一一家进入该魔力象限的厂商! Web 应用防火墙,简称 WAF、在保护 Web 应用程序的安全性上面已有多年的发展历史。近年来,随着云服务的普及、大数据计算能力的发展,云 WAF 因具有易部署、易操作、功能更丰富等优势受到了越来越多的企业认可。Gartner 在报告中也指出,相较于传统的 WAF 设备而言,更多的企业开始考虑使用云 WAF 来做安全防护。 阿里云 WAF 是一款基于云原生安全能力诞生的 SaaS 化软件服务,可以实现分钟级接入,同时集成了 DDoS 防护、防爬对抗、API 安全、风险威胁情报检测等功能,可以针对用户 Web 和 APP 业务提供更纵深、更精细化的安全管控,同时完美应对企业业务发展快、业务属性多变等带来的安全挑战,保障业务核心数据安全。 阿里云 WAF 架构 在 Gartner 本次评测中,阿里云 WAF 的主动防御模式及异常行为检测能力得到高度认可,其中所用到的智能算法能力被评为强势功能。阿里云 WAF 的主动防御能力能够基于对用户正常业务流量的不断迭代学习,建立”千人千面”的自动化防御策略;通过将多种深度学习算法应用在异常请求分析、用于识别非法流量检测实时拦截。 从语义分析到透明代理

计算机视觉算法岗面经,2019秋招资料

旧城冷巷雨未停 提交于 2020-11-22 20:02:48
向AI转型的程序员都关注了这个号 👇👇👇 人工智能大数据与深度学习 公众号:datayx 下面试基本会问的内容,目前个人所碰到的,占比可能有所不同,有些面试官喜欢问项目,有些喜欢问基础。 介绍项目、实习,一般会问很久,在你介绍中会问各种开放性问题;通常我的面试中这个占很大篇幅,60%-90%; 问算法相关,包括ML\DL\图像处理等的基础知识,占40%-60%,其中大概ML40%,DL10%,图像处理10%; 问数学基础,大部分是概率论,占5%; 问语言,C++,STL容器之类的,占10%;python也会问一点; 编程题,一般2、3题; Linux命令,一般问几个,不经常问到; 1、HR面 自我介绍 你和竞争者相比的优势是什么 实习收获了什么 从实习导师身上学到了什么 导师给你的意见是什么 从面试官身上学到了什么 .秋招意向的企业有哪些 你为什么想来我们公司? 你来了之后的三年怎么打算的? 讲一讲实习公司的产品架构,比如一个新的需求产生到落地的流程是怎样? 优缺点 介绍项目,难点,从中学到什么,重新做如何改进 期望薪资 自己主动学习过哪些知识,通过什么方式学的 后面打算学习什么知识,为什么 英语怎么样 兴趣 竞赛、考研保研 团队合作遇到的分歧 有没有投过其他公司,有拿到offer吗? 项目中怎么分工的,有遇到过水平低的吗,是怎么沟通的 对你帮助很大的一个人 学习的路径,怎么学习

这是一条通往 AI 的路......

对着背影说爱祢 提交于 2020-11-22 10:08:42
图:stoica-ionela-530970-unsplash AI 趋势已是必然。如果想与世界同步,跟进 AI 或许是明智之举。这不是说一定要从事 AI 直接相关的工作,但是起码得具备这方面的思维和知识,因为 AI 很快或已经渗透到各行各业。一些用传统方法解决的问题,用机器学习算法会不会解决地更好呢?这或许是我们在以后的工作或学习中首先要问自己的。 这是好事,毕竟解决问题的方法更多了。如何才能找到步入这扇门的钥匙呢?我想很多人都有自己心中的答案,或者也有一些现在找不到答案。最近,和几个朋友交流过这个问题,与大家一起分享下。 大致来说,要想步入这一行,假定未接触过任何算法,需要先了解一些基础算法,最最基础的。通过这一环节,你便能知道算法到底是怎么一回事。很多从事软件开发的,习惯了调用API,用 intuition 去实现业务逻辑,毕竟都究竟敏捷开发吗,但长此以往,形成了一种靠直觉写代码的习惯,如果再不爱总结,最终你会发现自己完全变成了一个 tool,而没有自己的 idea. 最后,你发现,没有 special 、没有别人无法复制你的东西。这也就是,很多做纯开发多年的人,想转行做产品经理偏管理,或者算法工程师偏算法的原因。如果你想转到算法这块,并且之前对算法没有专门的研究,你需要首先开始去学习基础算法比如从做基础的算法题开始。这样做,不是题海战术,而是培养真正的算法思维