隐马尔可夫

10分钟入门pytorch(0)

十年热恋 提交于 2020-11-24 09:55:58
10分钟入门pytorch(0) 我将我学习pytorch的经验写出来,一步一步从0开始让大家学会pytorch,教程比官网的更加简单,同时也增加了更多简单的例子让大家快速上手pytorch,愉快地开始炼丹。 什么?你还不知道pytorch是啥,快点去看看专栏里面的pytorch介绍吧。 1 环境配置 首先当然是需要安装pytorch了,目前pytorch只支持mac和linux,如果你的电脑是windows,装虚拟机或者双系统。如果想要愉快地炼丹,那么强烈推荐使用linux系统,因为所有的深度学习框架在linux上都有很好的支持,远远好于windows系统,而且linux也没有大家想象中的那么难学,目前linux系统的图形界面让大家上手的时候更加容易。 装完了系统之后就需要安装环境了,首推Anaconda,这是一个科学计算的集成环境,安装完这之后基本所需要的包都有了,而且还提供交互式的jupyter notebook,可以说为我们做实验提供了很好的交互。如果去Anaconda的官网下载速度比较慢,可以去清华镜像下载。 安装完Anaconda之后我们就可以安装pytorch了,进入主页,一步一步来就行了,如果要装GPU版的,需要cuda和cudnn,这个网上有很多教程,可以去看看,如果你只是为了快速上手玩玩pytorch,那么可以不用废时间装GPU版。 2 pytorch基础

机器学习十大经典算法-KNN(最近邻学习笔记)

穿精又带淫゛_ 提交于 2020-11-24 09:54:48
机器学习十大经典算法-KNN(最近邻) 最近在学习机器学习,查阅了很多人的博客,受益颇多,因此自己也试着将过学的内容做一个总结,一方面可以提高自己对学习过的算法的认识,再者也希望能帮助到初学者,共勉。。。 1 K-近邻算法原理 K最近邻(kNN,k-NearestNeighbor)分类算法,见名思意: 找到最近的k个邻居(样本),在前k个样本中选择频率最高的类别作为预测类别,什么?怎么那么拗口,没图说个球球,下面举个例子,图解一下大家就会显而易见了,如下图: 我们的目的是要预测某个学生在数学课上的成绩。。。 先来说明几个基本概念:图中每个点代表一个样本(在这里是指一个学生),横纵坐标代表了特征(到课率,作业质量),不同的形状代表了类别(即:红色代表A(优秀),绿色代表D(不及格))。 我们现在看(10,20)这个点,它就代表着:在数学课上,某个学生到课率是10%,交作业质量是20分,最终导致了他期末考试得了D等级(不佳)。同理,这6个点也就代表了6个往届学生的平时状态和最终成绩,称之为训练样本。。。。 现在要来实现我们的预测目的了,想象一下现在一学期快过完了,张三同学马上要考试了,他想知道自己能考的怎么样,他在数学老师那里查到了自己的到课率85%,作业质量是90,那么怎么实现预测呢? 张三可以看做是(85,90)这个点–也被称之为测试样本,首先,我们计算张三到其他6位同学(训练样本

60分钟看懂HMM的基本原理

僤鯓⒐⒋嵵緔 提交于 2020-11-23 06:34:12
HMM模型,韩梅梅的中文拼音的缩写,所以又叫韩梅梅模型,由于这个模型的作者是韩梅梅的粉丝,所以给这个模型取名为HMM。开玩笑! HMM模型,也叫做隐马尔科夫模型,是一种经典的机器学习序列模型,实现简单,计算快速,广泛用于语音识别,中文分词等序列标注领域。 公众号后台回复关键字: 源码 ,获取本文包含全部公式和插图的md源文件。 下面通过一个村民看病的故事理解什么是HMM模型。 想象一个乡村诊所,村民的身体状况要么健康要么发烧,他们只有问诊所的医生才能知道是否发烧。 医生通过询问村民的感觉去诊断他们是否发烧。村民自身的感觉有正常、头晕或冷。 假设一个村民每天来到诊所并告诉医生他的感觉。村民的感觉只由他当天的健康状况决定。 村民的健康状态有两种:健康和发烧,但医生不能直接观察到,这意味着健康状态对医生是不可见的。 每天村民会告诉医生自己有以下几种由他的健康状态决定的感觉的一种:正常、冷或头晕。 于是医生会得到一个村民的感觉的观测序列,例如这样:{正常,冷,冷,头晕,冷,头晕,冷,正常,正常}。 但是村民的健康状态这个序列是需要由医生根据模型来推断的,是不可直接观测的。 这个村民看病的故事中由村民的健康状态序列和村民的感觉序列构成的系统就是一个隐马尔科夫模型(HMM)。 其中村民的健康状态序列构成一个马尔科夫链。其每个序列值只和前一个值有关,和其它值无关。由于这个马尔科夫链是隐藏的

面试AI算法岗,你被要求复现顶会论文了嘛?

可紊 提交于 2020-11-15 08:02:01
加入AI行业拿到高薪仅仅是职业生涯的开始。 现阶段AI人才结构在不断升级,这也意味着如果目前仍然停留在调用一些函数库,则在未来1-2年内很大概率上会失去核心竞争力的 。 几年前如果熟练使用TensorFlow,同时掌握基本的AI算法就可以很容易找到一份高薪的工作,但现在不一样了,AI岗位的要求越来越高,对知识的深度也提出了更高的要求。 如果现在一个 面试官 让你从零推导SVM的Dual、从零实现CRF、推导LDA、设计一个QP问题、从零编写XLNet、编写GCN/GNN、改造SkipGram模型、用一天时间复现一篇顶级会议.... 这些要求一点都不过分。相反,连这些基本内容都有些吃力,就需要重新审视一下自己的核心技术壁垒了。 目前AI人才竞争越来越激烈, “调参侠” 的时代已慢慢过去,这些事情其实根本不需要AI工程师来做,未来的研发工程师就可以承担这些了! 我相信不少人曾经遇到过以下的情况或者困惑: 从事AI行业多年,但技术上 总感觉不够深入 , 而且很难再有提升; 对每个技术点了解,但 不具备体系化的认知 , 无法把它们串起来; 停留在使用模型/工具上 , 很难基于业务场景来提出新的模型; 对于机器学习 背后的优化理论、前沿的技术不够深入; 计划从事尖端的科研、研究工作、 申请AI领域研究生、博士生; 打算进入最顶尖的AI公司 比如Google,Facebook,Amazon,

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

给你一囗甜甜゛ 提交于 2020-11-13 03:23:54
笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上, 词性 (Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。 我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a 每个单词的后边跟的就是词性标签: 词性标签 词性 r 代词 u 动词 n 名词 v 动词 nr 人名 p 介词 a 形容词 词性的用处 词性的作用是提供词语的抽象表示,词的数量是无穷的,但词性的数量是有限的。词性支撑着许多高级应用,当下游应用遇到 OOV 时,可以通过 OOV 的词性猜测用法,比如上面的句子“林晚霞”就识别为人名进行处理,而不会拆开。 词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等。 词性标注 词性标注 指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点: 汉语中一个单词多个词性的现象很常见,但在具体语境下一定是唯一词性。 OOV 是任何自然语言处理任务的难题。

浅谈分词算法(4)基于字的分词方法(CRF)

我与影子孤独终老i 提交于 2020-11-08 14:16:26
[TOC] #前言 通过前面几篇系列文章,我们从分词中最基本的问题开始,并分别利用了1-gram和HMM的方法实现了分词demo。本篇博文在此基础上,重点介绍利用CRF来实现分词的方法,这也是一种基于字的分词方法,在将句子转换为序列标注问题之后,不使用HMM的生成模型方式,而是使用条件概率模型进行建模,即判别模型CRF。之后我们对CRF与HMM进行对比,同样的我们最终也会附上CRF分词的实现代码。 #目录 浅谈分词算法(1)分词中的基本问题 浅谈分词算法(2)基于词典的分词方法 浅谈分词算法(3)基于字的分词方法(HMM) 浅谈分词算法(4)基于字的分词方法(CRF) 浅谈分词算法(5)基于字的分词方法(LSTM) #条件随机场(conditional random field CRF) 为了说清楚CRF在分词上的应用,我们需要简单介绍下条件随机场CRF,我们不去长篇大论的展开论述,只讨论几个核心的点,并重点阐述下线性链条件随机场,也是我们在序列标注问题中经常遇到的,如分词、词性标注、韵律标注等等。 ##核心点 在上一篇博文中,我们简单介绍了HMM模型,是一个五元组,它的核心围绕的是一个关于序列$X$和$Y$的联合概率分布$P(X,Y)$,而在条件随机场的核心围绕的是条件概率分布模型$P(Y|X)$,它是一种马尔可夫随机场,满足马尔科夫性(这里我们就不展开阐述了,具体可参考[3])

基于隐马尔可夫模型的有监督词性标注

旧城冷巷雨未停 提交于 2020-11-08 11:21:42
版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载: 基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性,也就是要确定每一个词是名词、动词、形容词或其它词性的过程,又称词类标注或者简称标注。 词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。 词性标注本质上是一个分类问题,对于句子中的每一个单词W。找到一个合适的词类类别T,也就是词性标记,只是词性标注考虑的是总体标记的好坏,既整个句子的序列标记问题。对于分类问题,有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型(HMM)的词性标注。 1 隐马尔可夫模型(HMM) 隐马尔科夫模型(HMM)是什么?说白了。就是一个数学模型,用一堆数学符号和參数表示而已,包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。 在 wiki上一个比較好的HMM样例 ,浅显易懂地介绍了HMM的基本概念和问题,初次接触HMM的人能够首先看一下这个样例。 在 Hidden

Python第三方库jieba(中文分词)入门与进阶(官方文档)

纵饮孤独 提交于 2020-11-03 07:55:28
jieba “结巴”中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 1. 分词 jieba.cut

redis03----集合 set 相关命令

此生再无相见时 提交于 2020-11-02 19:23:33
集合 set 相关命令 集合的性质: 唯一性,无序性,确定性 注: 在string和link的命令中,可以通过range 来访问string中的某几个字符或某几个元素 但,因为集合的无序性,无法通过下标或范围来访问部分元素. 因此想看元素,要么随机先一个,要么全选 sadd key value1 value2 // 增加的值不能够相同,内部的排序是随机的, 作用: 往集合key中增加元素 srem key value1 value2 作用: 删除集合中集为 value1 value2的元素 返回值: 忽略不存在的元素后,真正删除掉的元素的个数 spop key 作用: 返回并删除集合中key中1个随机元素 随机 -- 体现了无序性 srandmember key 作用: 返回集合key中,随机的1个元素. sismember key value 作用: 判断value是否在key集合中 是返回1,否返回0 smembers key 作用: 返回集中中所有的元素 scard key 作用: 返回集合中元素的个数 smove source dest value 作用:把source中的value删除,并添加到dest集合中 r1: 0 > smove set set1 value1 " 1 " sinter key1 key2 key3 作用: 求出key1 key2 key3

条件随机场之浅出

女生的网名这么多〃 提交于 2020-10-15 19:14:01
1.随机场 当给每个位置中,按照某种分布随机赋予相空间(值空间)的值,其全体就叫做随机场。简单说就是给定一些候选值,然后随机的把这些候选值填入到每个位置。 2.概率图模型 概率图模型就是用图来表示变量概率的依赖关系,如下图所示我们看到概率图模型主要分为有向图模型和无向图模型。有向图模型如我们之前所介绍过的 贝叶斯网络 和 隐马尔科夫模型 ;无向图网络如马尔科夫随机场、条件随机场等; 3.马尔科夫随机场 马尔科夫随机场就是符合马尔科夫性质的随机场,如下图所示,是一种概率无向图模型。马尔科夫性质如下: 局部马尔科夫性 :给定了某个变量的邻接变量,则该变量和所有其它的变量无关(独立) 全局马尔科夫性 :将局部马尔科夫性由变量扩展到集合,给定某个变量集的邻接变量集,则该变量集和其它的变量其无关。 成对马尔科夫性 :将局部马尔科夫性反推,所有其它变量都已给定的情况下,两个不相邻的变量无关。 符合上面性质中任意一条,我们称为马尔科夫随机场。 4.条件随机场概述 条件随机场就是有条件的马尔科夫随机场,即给定X的条件下,Y的分布符合马尔科夫随机场性质。有点类似于隐马尔可夫模型,不同的是条件随机场是一种 判别式 的 概率无向图 模型。 生成式 :使用联合概率分布进行建模,更关注的是变量和结果之间的关系,通俗的来说就是通过条件直接得到结果(可以理解为一道填空题)。常见的生成式模型有:隐马尔可夫模型