自然语言处理 | 易学教程

调查：人工智能技术的应用现状

阅读更多关于调查：人工智能技术的应用现状

本文最初发表在 Towards Data Science 博客上，经原作者 Luke Posey 授权，InfoQ 中文站翻译并分享。作者 | Luke Posey 译者 | Sambodhi 策划 & 编辑 | 刘燕随着工具和基础设施的成熟，应用人工智能不断加速发展。将这些基础设施与强大的人才库和热情、随时可获得的资本以及客户采用人工智能 / 机器学习的高度意愿结合起来，你就有了一些特别的东西。我们正在迈向一个新的十年，在这个十年里，人工智能 / 机器学习将以更快的速度为消费者和企业创造真正的价值。定义术语应用人工智能：任何与将人工智能研究从实验室带到用例，以及两者之间的一切有关的事情。从基础设施和工具，到硬件，到工业中的部署面，再到模型本身，从人工智能研究的前沿到用例，都需要共同努力才能取得尖端进展。在我们这个领域中，成熟度的一个很好的检验标准，就是看一个新的进步从纸上到生产所需的时间。就在几年前，你还可以浏览该领域的一些主要进展，并努力寻找真正的用例；这种情况正迅速开始改变。一些选择例子：神经网络研究实现自动驾驶汽车（Tesla、Cruise、Waymo 等）。像 BERT 和 GPT-2/3 这样的自然语言处理改进了搜索和助理（Google Search、Siri、Google Assistant、SoundHound、Clinc）。

使用PyCaret构建机器学习模型

阅读更多关于使用PyCaret构建机器学习模型

作者|LAKSHAY ARORA 编译|VK 来源|Analytics Vidhya 概述 PyCaret是一个超级有用的Python库，用于在短时间内执行多个机器学习任务学习如何依赖PyCaret在几行代码中构建复杂的机器学习模型介绍我建立的第一个机器学习模型是一个相当麻烦的代码块。我仍然记得构建一个集成模型，它需要许多行代码，它十分需要一个向导来解开这些混乱的代码！当涉及到构建可解释的机器学习模型时，尤其是在行业中，编写高效的代码是成功的关键。所以我强烈建议使用PyCaret库。我希望PyCaret在我的刚学习机器学习的日子里出现！这是一个非常灵活和有用的库，我在最近几个月已经相当依赖。我坚信任何有志成为数据科学或分析专业人士的人都会从使用PyCaret中受益匪浅。我们将看到PyCaret到底是什么，包括如何在你的机器上安装它，然后我们将深入研究如何使用PyCaret来构建可解释的机器学习模型，包括集成模型。目录什么是PyCaret？为什么要使用它？安装PyCaret 熟悉PyCaret 使用PyCaret训练我们的机器学习模型使用PyCaret构建集成模型分析模型做出预测保存并加载模型什么是PyCaret？为什么要使用它？ PyCaret是Python中一个开源的机器学习库，它可以帮助你从数据准备到模型部署。它很容易使用

沃尔玛的产品知识图谱

阅读更多关于沃尔玛的产品知识图谱

作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴（销售商、供应商、品牌）提供的数据往往不完整，有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范（一种发送产品数据的约定格式），但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外，互联网上还有许多非结构化数据，如产品手册、产品评论、博客、社交媒体网站等。沃尔玛正致力于构建一个零售图谱(Retail Graph)，捕捉有关产品及其相关实体的知识，以帮助我们的客户更好地发现产品。它是一个产品知识图谱，可以在零售环境中回答有关产品和相关知识的问题，可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。沃尔玛的零售图谱是什么零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象，例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种：抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题，而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别，替代品和补充品（附件、兼容产品等）。它还试图将抽象概念

PyTorch实现用于文本生成的循环神经网络

阅读更多关于 PyTorch实现用于文本生成的循环神经网络

作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理（NLP）有很多有趣的应用，文本生成就是其中一个有趣的应用。当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时，它们可以生成输入文本的下一个序列。 PyTorch提供了一组功能强大的工具和库，这些工具和库为这些基于NLP的任务增添了动力。它不仅需要较少的预处理量，而且加快了训练过程。在本文中，我们将在PyTorch中训练几种语言的循环神经网络（RNN）。训练成功后，RNN模型将预测属于以输入字母开头的语言的名称。 PyTorch实现这个实现是在Google Colab中完成的，其中的数据集是从Google驱动器获取的。所以，首先，我们将用Colab Notebook安装Google驱动器。 from google.colab import drive drive.mount('/content/gdrive') 现在，我们将导入所有必需的库。 from __future__ import unicode_literals, print_function, division from io import open import glob import os import unicodedata import string import

GAITC专题论坛丨擦亮人工智能皇冠上的“明珠”——自然语言理解

阅读更多关于 GAITC专题论坛丨擦亮人工智能皇冠上的“明珠”——自然语言理解

　　　　2020全球人工智能技术大会将于7月25-26日登陆杭州未来科技城。除了令人瞩目的大会主旨论坛，同期举行的20场专题论坛嘉宾层次高、主题范围广，聚焦模式识别、脑科学与人工智能等人工智能多个热门领域，内容精彩纷呈，观点将极具创见和现实针对性。　　自然语言处理被誉为人工智能皇冠上的“明珠”，它大体包括自然语言理解和自然语言生成两个部分，目前已成为人工智能技术的核心领域。7月26日晚，由清华大学人工智能研究所所长、教授，国家杰青刘洋；西湖大学特聘研究员张岳担任论坛主席的自然语言理解专题论坛将拉开帷幕。自然语言理解目前有哪些发展趋势和创新成果？如何才能更好推动我国相关领域的学术研究和技术创新？敬请锁定本场论坛，且听专家娓娓道来。论坛主席　　　　刘洋清华大学人工智能研究所所长、教授，国家杰青　　研究方向是自然语言处理、机器翻译。在自然语言处理和人工智能领域重要国际刊物和国际会议上发表论文80余篇，获得ACL2017杰出论文奖和ACL2006优秀亚洲自然语言处理论文奖。获国家科技进步二等奖、中国电子学会科技进步一等奖、中国中文信息学会钱伟长青年创新一等奖、北京市科学技术奖二等奖等多项科技奖励。曾任国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics编委、ACM TALLIP副编辑等职。　　　　张岳西湖大学特聘研究员　

机器学习算法（一）——基于逻辑回归的分类预测（Demo实践）

阅读更多关于机器学习算法（一）——基于逻辑回归的分类预测（Demo实践）

机器学习算法（一）————基于逻辑回归的分类预测（Demo实践）逻辑回归的介绍和应用逻辑回归的介绍逻辑回归的应用算法实践库函数导入模型训练模型参数查看数据和模型可视化模型预测逻辑回归的介绍和应用逻辑回归的介绍逻辑回归（Logistic regression，简称LR）虽然其中带有"回归"两个字，但逻辑回归其实是一个分类模型，并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热，但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且，最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势: 优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类精度可能不高逻辑回归的应用逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学。例如，最初由Boyd 等人开发的创伤和损伤严重度评分（TRISS）被广泛用于预测受伤患者的死亡率，使用逻辑回归基于观察到的患者特征（年龄，性别，体重指数,各种血液检查的结果等）分析预测发生特定疾病（例如糖尿病，冠心病）的风险。逻辑回归模型也用于预测在给定的过程中，系统或产品的故障的可能性。还用于市场营销应用程序，例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性

AI终将砸掉程序员的饭碗，动动手就能自动写代码的GPT-3来了

阅读更多关于 AI终将砸掉程序员的饭碗，动动手就能自动写代码的GPT-3来了

近日 OpenAI 发布其最新的NLP模型-GPT-3（论文地址： https://arxiv.org/abs/2005.14165 ），并成功登顶了Github的趋势榜（ https://github.com/openai/gpt-3 ），这个模型的出现再次证明了，在AI领域大力就是能够出奇迹，GPT3 使用的数据集容量达到了45TB，参数个数 1750亿，一个训练好的模型就要 700G的硬盘空间来存储。而且近日GPT-3模型再度爆红Github，主要还是有网友根据GPT-3模型，上线了一个能够自动生成代码的网站debuid( https://debuild.co/ ) 只要在这个网站注册以后，用户只要用英语描述你的需求，相关前端的代码就会被自动生成出来了，笔者这种在IT界摸爬滚打十几年的老程序，在试用了debuild网站之后，也惊得说不出话来。初识Open AI 说起Open AI这个公司，在业界抱得大名，首先是因为其在去年DOTA2的顶级赛事T I8 之后，与世界冠军OG战队举行了一场表演赛，当时Open AI的强化学习模型，在英雄阵容限定17个，部分道具和功能禁用的条件下，以2：0完胜了人类冠军，尤其是在第二场比赛中 AI 在 15分钟就解决了战斗，展现的强大实力比较令人信服。这也使人类在对战游戏中的最后一道防线

抖音与快手用户增长策略的“破“与“不破“

阅读更多关于抖音与快手用户增长策略的“破“与“不破“

圈层的外扩是非常难的事情，并且做得不好容易给产品"原住民"带来伤害，有时候需要慢慢探索。但是今天抖音、快手竞争激励，谁能快速跑马圈地触碰用户对外战局影响深远，更何况腾讯今天对于新的流量入口，虎视眈眈，大家都正在被推着走。快手与抖音在原有圈层穿透、做深，打通原有圈层的各类平行圈层，还必须做到自上而下、自下而上的贯穿。这里面战略上得在围绕圈层穿透想办法，战术上除了引入明星、电影独家播放权、冠名春晚，试图在用户、内容层面拥抱新用户圈层以外，也在尝试留住这些拉进门的新朋友。接下来我们从用户的生命周期上，结合数据和算法来做一些讨论。 01 外部数据 1. 趋势中心趋势的来源可以是站内外的全局热榜、LBS热榜、热搜Query背后的内容主题分布、内容生产者；当然站外可能需要借助一些爬虫、图像、NLP等技术。比如通过站内的流行趋势或友商最热的内容分析，作为种子可以通过文本和图像匹配等等手段，延展出非常多的候选内容，通过不断地测试推动可以沉淀一套方法论；再比如通过友商平台头部KOL ( 两个平台10w以上粉丝的KOL在10w以内，抖音在8w左右，快手在6w左右 ) 的变化 ( 排名快速上升的KOL )，内容可以捞取到内容变化趋势，如下图：来源：卡思数据 2. 竞争雷达构建本平台内容与竞对内容的匹配映射关系，挖掘竞对数据，最大化竞对数据价值，为应对竞争提供有力数据支持，内容领域可能是主题维度的

初始CNN及tensorflow实现

阅读更多关于初始CNN及tensorflow实现

1、初识CNN 卷积神经网络(CNN)，主要用于图像识别、特征提取、自然语言处理、分类。由输入层、卷积层（Convolutional Layer）、池化层（Pooling Layer）、和全连接层（Fully Connected Layer）组成，其中卷积用于提取高层次特征，池化用于缩小参数，一般为一层卷积加一层池化反复叠加或多层卷积加一层池化；全连接层用于卷积池化后，对数据列化然后经过一两层全连接层，得出结果。 2、CNN进行手写体识别（1）数据来源：Mnist数据集，从tensorflow导入mnist数据集。首先，在你正在写的项目下创建文件夹MNIST_data；接着，从官网下载四个压缩包，不用解压直接放入文件夹中， http:// yann.lecun.com/exdb/mni st/ 。 import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data . read_data_sets ( 'mnist_data' , one_hot = True ) #one_hot为T代表标签是一个向量（2）网络结构的搭建定义网络的输入、输出：首先将输入进行初始化，接着将输入重构成4维；输出为一个二维向量

【实验】基于朴素贝叶斯的新闻分类

阅读更多关于【实验】基于朴素贝叶斯的新闻分类

一、贝叶斯新闻分类任务新闻数据集处理爬取的新闻数据，需要我们对文本数据进行很多预处理才能使用文本分词通常我们处理的都是词而不是一篇文章去停用词停用词会对结果产生不好的影响，所以一定得把他们去剔除掉构建文本特征如何构建合适特征是自然语言处理中最重要的一步，这俩我们选择两种方案来进行对比贝叶斯分类基于贝叶斯算法来完成最终的分类任务数据源： http://www.sogou.com/labs/resource/ca.php 1.1 读取数据 import pandas as pd import jieba #pip install jieba df_news = pd.read_table('./data/data.txt',names=['category','theme','URL','content'],encoding='utf-8') df_news = df_news.dropna() df_news.tail() # 查看数据规模 df_news.shape 于原始数据都是由爬虫爬下来的，所以看起来有些不整洁，一会我们还需要清洗一番。这里我们自己定义个字段： Category:当前新闻所属的类别，一会我们要进行分别任务，这就是标签了。 Theme:新闻的主题，这个咱们先暂时不用，大家在练习的时候也可以把它当作特征。 URL：爬取的界面的链接

订阅自然语言处理