自然语言处理

机器学习丨15个最流行的GitHub机器学习项目

风流意气都作罢 提交于 2020-08-13 07:51:55
来源:数据Seminar 本文约 3800 字, 建议阅读 7 分钟。 本文列出了 2017 年 GitHub 平台上最为热门的知识库,其中包含了学习资料与工具。 GitHub 是计算机科学领域最为活跃的社区,在 GitHub 上,来自不同背景的人们分享越来越多的软件工具和资源库。在其中,你不仅可以获取自己所需的工具,还可以观看代码是如何写成并实现的。 作为一名机器学习爱好者,作者在本文中列出了 2017 年 GitHub 平台上最为热门的知识库,其中包含了学习资料与工具。希望对你的学习和研究有所帮助。 1、学习资源 1.1 Awesome Data Science 项目地址 : github.com/bulutyazilim 该 repo 是数据科学的基本资源。多年来的无数贡献构建了此 repo 里面的各种资源,从入门指导、信息图,到社交网络上你需要 follow 的账号。无论你是初学者还是业内老兵,里面都有大量的资源需要学习。 从该 repo 的目录可以看出其深度。 1.2 Machine Learning / Deep Learning Cheat Sheet 项目地址: github.com/kailashahirw 该项目以 cheatsheet 的形式介绍了机器学习/深度学习中常用的工具与技术,从 pandas 这样的简单工具到深度学习技术都涵盖其中。在收藏或者

【2万字干货】利用深度学习最新前沿预测股价走势

∥☆過路亽.° 提交于 2020-08-13 06:45:07
https://zhuanlan.zhihu.com/p/56509499 正文 在本篇文章中,我们将创建一个完整的程序来预测股票价格的变动。为此,我们将使用生成对抗性网络(GAN),其中LSTM是一种递归神经网络,它是生成器,而卷积神经网络CNN是鉴别器。我们使用LSTM的原因很明显,我们试图预测时间序列数据。为什么我们使用GAN,特别是CNN作为鉴别器?这是一个好问题,后面会有专门的部分介绍。 当然,我们将对每个步骤会进行详细的介绍,但最难的部分是GAN:成功训练GAN非常棘手的部分是获得正确的超参数集。因此,我们将使用贝叶斯优化(以及高斯过程)和深度强化学习(DRL)来决定何时以及如何改变GAN的超参数(探索与开发的两难境地)。在创建强化学习时,我们将使用该领域的最新进展,如Rainbow和PPO。 我们将使用许多不同类型的输入数据。随着股票的历史交易数据和技术指标,我们将使用NLP最新的进展(使用Bidirectional Embedding Representations from Transformers,BERT,一种传输学习NLP)创建情绪分析(作为基本分析的来源),傅里叶变换提取总体趋势方向,stacked autoencoders识别其他高级特征,寻找相关资产的特征组合,ARIMA用于股票函数的近似度等等,以便尽可能多地获取关于股票的信息、模式、相关性等

美团搜索中NER技术的探索与实践

烈酒焚心 提交于 2020-08-13 03:22:26
1. 背景 命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。在美团搜索场景下,NER是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号,主要应用于搜索召回、用户意图识别、实体链接等环节,NER信号的质量,直接影响到用户的搜索体验。 下面将简述一下实体识别在搜索召回中的应用。在O2O搜索中,对商家POI的描述是商家名称、地址、品类等多个互相之间相关性并不高的文本域。如果对O2O搜索引擎也采用全部文本域命中求交的方式,就可能会产生大量的误召回。我们的解决方法如下图1所示,让特定的查询只在特定的文本域做倒排检索,我们称之为“结构化召回”,可保证召回商家的强相关性。举例来说,对于“海底捞”这样的请求,有些商家地址会描述为“海底捞附近几百米”,若采用全文本域检索这些商家就会被召回,显然这并不是用户想要的。而结构化召回基于NER将“海底捞”识别为商家,然后只在商家名相关文本域检索,从而只召回海底捞品牌商家,精准地满足了用户需求。 有别于其他应用场景

2020还是AI最火?推荐几本深度学习的书籍帮你入门!

梦想的初衷 提交于 2020-08-13 03:10:25
​ 最近公司里有一些关于算法方面的工作,想到能学点有趣的新技术,于是毫不犹豫地参加了学习,机器学习,深度学习,离我们Java工程师到底远不远,说近不近,说远也不远,我们甚至可以在没有太多机器学习理论的基础时,去学习一些深度学习的简单应用,至少拿到demo过来跑一下还是没什么问题的。 深度学习到底是啥,简单来说,深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。 深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。 今天我们就来推荐几本我们公司几位算法大佬推荐的深度学习图书,虽然不能保证你们看得懂,但是也一定是优中选优,如果你对机器学习有所了解,想学习一些深度学习的知识,也不妨看看这一份书单。 深度学习系列书单 ​

初始TextCNN及keras实现

馋奶兔 提交于 2020-08-13 03:04:31
1、初始TextCNN CNN可参考之前的文章: https://www. zhihu.com/people/xianya ng94 最近在做寿命预测问题的研究中,拿到的数据为一维的数据,传统的数据预处理方法主要有PCA、LDA、LLE等,考虑到应用CNN进行特征的提取,从而提高预测的精度。但之前了解到的CNN多应用于图像处理,其输入数据为二维或者多维的数据,因此进一步了解学习应用于文本分类的TextCNN。下一篇文章会通过期刊论文来介绍几篇CNN的具体应用实例,主要介绍模型的网络结构。 TextCNN模型是Yoon Kim在2014年 《Convolutional Neural Networks for Sentence Classification》中提出的,利用卷积神经网络(CNN)来对处理文本分类问题(NLP)。该算法利用多个不同大小的kernel来提取句子中的关键信息,从而能更加高效的提取重要特征,实现较好的分类效果。 2、TextCNN结构 该模型的结构如下图:(下图引用于原文) TextCNN的详细过程见下:(以一句话为例) (1)输入:自然语言输入为一句话,例如【wait for the video and don't rent it】。 (2)数据预处理:首先将一句话拆分为多个词,例如将该句话分为9个词语,分别为【wait, for, the, video,

疑惑!AI中台到底为什么火了?道翰天琼认知智能机器人平台API接口为您揭秘。

风格不统一 提交于 2020-08-13 02:01:17
自从 2015 年阿里提出 “中台” 战略后,“中台”便成为一个行业热词,许多公司纷纷推出了自己的中台架构。一方面中台架构似乎代表了一种新兴趋势,另一方面中台似乎又面临着定义不清、概念混杂的问题。 中台是一种切实的业务、数据架构,还是一个混杂的概念?中台可以实际解决哪些问题、提升哪些业务效率?本篇就来着重梳理一下。 中台的架构是什么 中台一词,是由 “前台”、“后台” 产生而来。 传统架构中先有了 “前台” 与“后台”。后台负责管理企业的核心资源,如财务系统、产品系统、客户管理系统、基础设施和计算平台等,前台则是最终用户直接使用、与企业交互的前端系统,如网站、手机 App 等。但前台、后台间往往各司其职,无法形成有效衔接,带来业务配合效率、数据质量等问题。 中台的设置,就是为了有效连接前台和后台的一种平台化形态,以强调资源整合与共享、能力沉淀,为“前台” 提供业务模式、技术、数据、人才等支撑。具体来说,中台的架构主要可划分为业务中台、数据中台、技术中台等。 2015 年,阿里巴巴率先提出了中台战略概念,并提出 “小前台,大中台” 的管理模式,将搜索事业部、共享业务平台、数据技术及产品部提出来组成了“共享业务事业部”(Shared Services Platform),沟通前端的业务部门和后端的云平台。 主要 AI 中台厂商及其场景落地 近年来,腾讯

自然语言处理中的语言模型简介

ぃ、小莉子 提交于 2020-08-12 13:47:02
作者|Devyanshu Shukla 编译|Flin 来源|medium 在这篇文章中,我们将讨论关于语言模型(LM)的所有内容 什么是LM LM的应用 如何生成LM LM的评估 介绍 NLP中的语言模型是计算句子(单词序列)的概率或序列中下一个单词的概率的模型。即 句子的概率: 下一个单词的概率: 语言模型 v/s 字嵌入 语言模型常常与单词嵌入混淆。主要的区别在于,在语言模型中,单词顺序很重要,因为它试图捕捉单词之间的上下文,而在单词嵌入的情况下,只捕捉语义相似度( https://en.wikipedia.org/wiki/Semantic_similarity ) ,因为它是通过预测窗口中的单词来训练的,而不管顺序如何。 语言模型的应用 语言是NLP的主要组成部分,在很多地方都有使用,比如, 情感分析 问答 总结 机器翻译 语音识别 生成语言模型 有不同的方法来生成语言模型,让我们逐一查看它们。 使用N-grams N-grams( https://en.wikipedia.org/wiki/N-gram ) 是给定语料库中N个单词的序列。对于“I like pizza very much”这句话,bigram将是 ‘I like’, ‘like pizza’, ‘pizza very’ 和 ‘very much’。 比方说,我们有一个句子‘students opened

万字长文带你一览ICLR2020最新Transformers进展(上)

拈花ヽ惹草 提交于 2020-08-12 09:04:41
原文链接: http:// gsarti.com/post/iclr202 0-transformers/ 作者:Gabriele Sarti 编译:朴素人工智能 Transformer体系结构最初是在 Attention is All You Need 中提出的,它是顺序语言建模方法(如 LSTM )的有效替代方法,此后在自然语言处理领域变得无处不在,从而推动了大多数下游语言的发展相关任务。 今年的国际学习表示法会议( ICLR )中有许多文章对原始的Transformer及其最新的 BERT 和 Transformer-XL 进行了改进。这些改进措施解决了Transformer众所周知的弱点: 优化自我注意力计算。 在模型架构中注入出于语言动机的归纳偏差。 使模型更具参数和数据效率。 这篇文章希望总结并提供这些贡献的高层概述,重点介绍更好和更快的自然语言处理模型的当前趋势。所有图像版权归其各自的论文作者。 1. Self-atention的变体 可缩放的点积自注意力是标准Transformer层中的主要组件之一,无论依赖关系在输入中的距离如何,都可以对其进行建模。自注意力机制大家都已经很熟悉,其公式为: 进一步,多头自注意力机制的公式为: 本节介绍了自我注意组件的一些变体,使其在上下文处理中更加有效。 Long-Short Range Attention Introduced

零门槛入门AI开发,明天的这场公开课值得收藏三连

怎甘沉沦 提交于 2020-08-12 08:33:30
  明天,就是 2020 WAIC 开发者日重磅环节了,这场即将开播的公开课值得你点赞、收藏、分享三连。   两天前,2020 WAIC 开发者日全日程揭晓,这是一场包含了 60 位重磅嘉宾、43 场演讲、9 大环节的盛会。其中,有一场为开发者提供三小时极致学习的公开课,值得爱学习的小伙伴们注册观看。   「开发者日百度公开课」由机器之心联合百度组织,基于百度飞桨平台,从 NLP、CV 到零门槛 AI 开发平台 EasyDL,助力学习者掌握人工智能开发技能。   不久之前的「WAVE SUMMIT 2020」深度学习开发者峰会,百度飞桨做了一系列全新发布与升级,能够极大地提升开发者的开发体验。   在这场公开课中,来自百度的四位技术专家将结合自身多年深耕 AI 开发领域的经验,分别从智能对话技术、视觉技术、EasyDL 平台三个方向做分享,也将演示如何进行实际操作,手把手带领观众学习 AI 开发。      有关「开发者日百度公开课」课程详情,可查看文章:《3 小时极致学习 AI 开发,WAIC 开发者日有一堂必上公开课》。   纵深布局人工智能技术十数年,开发者一直是百度极为重视的力量。当前百度飞桨累计开发者数量已超过 194 万,服务企业数量达到 84000 家,基于飞桨开源深度学习平台产生了 23.3 万个模型。   除了这场公开课,百度集团副总裁

2020还是AI最火?推荐几本深度学习的书籍帮你入门!

天涯浪子 提交于 2020-08-12 08:33:15
​ 最近公司里有一些关于算法方面的工作,想到能学点有趣的新技术,于是毫不犹豫地参加了学习,机器学习,深度学习,离我们Java工程师到底远不远,说近不近,说远也不远,我们甚至可以在没有太多机器学习理论的基础时,去学习一些深度学习的简单应用,至少拿到demo过来跑一下还是没什么问题的。 深度学习到底是啥,简单来说,深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。 深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。 今天我们就来推荐几本我们公司几位算法大佬推荐的深度学习图书,虽然不能保证你们看得懂,但是也一定是优中选优,如果你对机器学习有所了解,想学习一些深度学习的知识,也不妨看看这一份书单。 深度学习系列书单 ​