easyAI

一文看懂词嵌入word embedding(2种算法+其他文本表示比较)

岁酱吖の 提交于 2020-02-25 21:00:00
文本表示(Representation) 文本是一种非结构化的数据信息,是不可以直接被计算的。 文本表示的作用就是将这些非结构化的信息转化为结构化的信息 ,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。 文本表示的方法有很多种,下面只介绍 3 类方式: 独热编码 | one-hot representation 整数编码 词嵌入 | word embedding ##独热编码 | one-hot representation 假如我们要计算的文本中一共出现了4个词:猫、狗、牛、羊。向量里每一个位置都代表一个词。所以用 one-hot 来表示就是: 猫:[1,0,0,0] 狗:[0,1,0,0] 牛:[0,0,1,0] 羊:[0,0,0,1] 但是在实际情况中,文本中很可能出现成千上万个不同的词,这时候向量就会非常长。其中99%以上都是 0。 one-hot 的缺点如下: 无法表达词语之间的关系 这种过于稀疏的向量,导致计算和存储的效率都不高 整数编码 这种方式也非常好理解,用一种数字来代表一个词,上面的例子则是: 猫:1 狗:2 牛:3 羊:4 将句子里的每个词拼起来就是可以表示一句话的向量。 整数编码的缺点如下: 无法表达词语之间的关系 对于模型解释而言,整数编码可能具有挑战性。 什么是词嵌入 | word embedding? word

「41页PDF免费下」使用AI前需要评估的

早过忘川 提交于 2019-12-18 09:26:41
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> easyai.tech 发现入门人工智能是一件很难的事情,尤其是对于非技术人员。 于是我们将国内外优秀的科普内容用最通俗易懂的方式整合到一起,专门针对非技术人员,让大家都能理解人工智能领域里的基本概念。 先通过一张长图来讲解一下 PDF 中会涉及到的主要内容,如果想了解详情请下载 PDF。 PDF下载地址 这个 PDF 要解决什么问题? 人工智能被很多人当做「黑科技」,它可以做一些神奇的事情,比如:下围棋比人类厉害,打游戏比人类厉害,美颜效果好到爆... 地球上最厉害的公司都把 AI 当做全公司的重要战略,Google、微软、Facebook、亚马逊、腾讯、阿里巴巴、百度、字节跳动...... 很多大佬也语言人工智能将带来下一次的技术革命,想想「互联网」是怎么革命的,就能大概知道这个革命有多厉害了。 但是最大的问题是:在 AI 时代,我要怎么利用 AI? 上面的问题太大了,很难回答,我们需要把问题聚焦一下:当我在业务中面临了一个具体问题时,AI 也是一种解决思路,那么这个问题适合用 AI 来解决吗? 所以,这个PDF解决一个问题: 我面临的具体问题适合用 AI 来解决吗?需要从哪些方面来评估吗? 4个评估维度 PDF中详细阐述了4个评估维度: 数据 特征 学习 黑箱 ###数据