监督学习

综述 | 知识图谱技术综述(下)

孤街浪徒 提交于 2020-12-06 05:59:05
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 3.知识图谱的关键技术 前文回顾 3.1 知识抽取 3.1.1 实体抽取 1) 基于规则与词典的实体抽取方法 2) 基于统计机器学习的实体抽取方法 3) 面向开放域的实体抽取方法 3.1.2 关系抽取 1) 开放式实体关系抽取 2

[机器学习][逻辑回归] 有监督学习之逻辑回归

人盡茶涼 提交于 2020-12-05 06:07:39
线性回归方法一般只做回归分析,预测连续值等,而我们的任务是分类任务时该怎么办呢?下面我们讲一下最基本的分类方法,也就是逻辑回归方法(Logit regression)。逻辑回归又称为对数几率回归,它将线性回归的输出又进行了一个特殊的函数,使其输出一个代表分类可能性的概率值,这个特殊的函数称作sigmoid函数,如下式所示: 该函数的函数图像如下图所示: 图6 sigmoid函数 Sigmoid函数在机器学习乃至深度学习中占有很重要的地位,因为它具有以下几个良好性质: 单调可微,具有对称性 便于求导,sigmoid函数的导数满足: 定义域为 ,值域为 ,可以将任意值映射到一个概率上 将现行回归的输出值通过sigmoid函数,可以得到: 将上式稍作变形,可以得到: 可以看出,逻辑回归实际上就是用线性回归拟合 函数,但为什么逻辑回归能用于分类问题呢?由sigmoid函数的性质,我们可以做出假设:预测标签为第一类的数据概率为 , 预测为第二类的概率为 。 即 : 现在预测的概率知道了,我们可以通过极大似然估计(Maximum Likelihood Estimate, MLE)来估计参数 ,使得每个样本的预测值属于其真实标签值的概率最大。这时,极大似然函数也是我们的损失函数: 其中, 为所有待优化参数, 为关于参数 和样本特征 的sigmoid函数, 为样本数目。 为了直观展示逻辑回归的功能

升级版“绝悟”AI自带“军师”,解禁王者荣耀全英雄池

时光毁灭记忆、已成空白 提交于 2020-12-02 16:41:20
出品 | AI科技大本营 一个人精通金庸武侠里的所有武功,这可能吗?现实中很难,但“绝悟“做到了。 11月28日腾讯宣布,由腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI“绝悟”推出升级版本。“绝悟”一年内掌握的英雄数从1个增加到100+个,实现了王者荣耀英雄池的完全解禁,此版本因此得名“绝悟完全体”。 这意味着,腾讯策略协作型AI的算法能力进一步得到提升,达到了国际领先水平。 升级后的“绝悟”AI不但掌握王者荣耀所有英雄的所有技能,能应对高达10的15次方的英雄组合数变化,还“自带军师”,能够做出最佳的英雄博弈策略选择,综合自身技能与对手情况等多重因素,派出最优英雄组合。 目前,这一“绝悟”完全体版本已在王者荣耀 App 限时开放,公众都可与之对战,亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。11 月 14 日至 30 日,绝悟在 20 个关卡的能力将不断提升,最强的20级于11月28日开放,接受 5v5 的组队挑战。 相关研究还被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录,展现出腾讯国际一流的 AI 研究与应用能力。 强化学习相关研究被 AI 顶级会议 NeurIPS 2020 收录 由于MOBA游戏本身的复杂性,现有的工作无法很好地解决智能体阵容组合数随着英雄池扩大而爆炸增长的问题,例如,OpenAI的Dota

机器学习知识框架

蹲街弑〆低调 提交于 2020-11-26 13:44:34
参数 参数分为两种:可学习得到的参数,和超参数。 机器学习可以归结为学习一个映射函数f : x → y,将输入变量 x映射为输出变量y。一般我们可以假设映射函数为y = f(x, θ)。其中θ 即为函 数的参数。参数可以通过学习算法进行学习。 除了可学习的参数之外,还有一类参数是用来定义模型结构或训练策略的, 这类参数叫做超参数(Hyper-Parameter)。超参数和可学习的参数不同,通常是按照人的经验设定,或者通过网格搜索(Grid Search)对一组超参数组合进行不断试错调整。 常见的超参数:聚类算法中的类别个数、梯度下降法的步长、正则项的系数、神经网络的层数、支持向量机中的核函数等。 特征学习 特征学习分成两种:特征选择和特征抽取。 特征选择(Feature Selection) 是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。 最暴力的做法是测试每个特征子集,看机器学习模型哪个 子集上的准确率最高,但这种方式效率太低。常用的方法是采样贪心的策略,由空集合开始,每一轮添加该轮最优的特征;或者从原始特征集合开始,每次删 除最无用的特征。 特征抽取(Feature Extraction)是构造一个新的特征空间,并将原始特征 投影在新的空间中。以线性投影为例,原始特征向量x ∈ R d

谈谈实现小样本学习的两条路径

半世苍凉 提交于 2020-11-24 09:53:03
来源:混沌巡洋舰 小样本学习是当下机器学习界的一个核心课题。大数据是当下深度学习的咽喉,面临收集成本昂贵,甚至根本无法采集的弊端, 小样本学习的实践价值不言而喻。对于众多产业来说, 真正能够收集到大量样本的是极少数情况,比如人脸识别,互联网上的文本等。而更广大的行业, 数据本身收集就很难,一些隐私伦理等障碍难以跨越,比收集数据更难的还有标注,大数据支撑的机器学习基本使用无望。 所谓小样本学习,就是使用远小于深度学习所需要的数据样本量, 达到接近甚至超越大数据深度学习的效果,也即是小样本学习的本质就是学习的效果与数据比值的提升, 或者说单位数据产生的模型收益增大了 。 与之高度相关的课题其实是迁移学习, 元学习, 提高模型泛化性能, 这些方法, 本质是在不对数据使用量进行限定的情况下, 如何让同一模型用到更广泛的数据分布和更多的任务, 因此它们是一颗硬币的两面。多一分泛化能力,就少一点数据成本。 那么, 小样本学习究竟有没有可能?这个问题其实是细思恐极。因为这个命题就像永动机一样, 似乎违反了能量守恒。不应该是有多少数据, 有多少模型效果吗?这里事实上一被忽略的盲点是先验知识, 二被忽略的是盲点是数据利用效率。 如果没有任何先验知识, 当然是有多少数据有多少模型。然而, 如果先验知识是充足的, 那么其实可以数据不足, 知识来凑。另一条路则是提高单位数据的使用效率,

吴恩达机器学习系列课程--个人笔记

半城伤御伤魂 提交于 2020-11-24 03:15:10
网址:https://www.bilibili.com/video/av50747658/ (b站找的有中文字幕的视频) 第一周 一、引言 1.1 欢迎 1.2 机器学习是什么 1.3 监督学习 1.4 无监督学习 二、单变量线性回归 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解 I 2.4 代价函数的直观理解 II 2.5 梯度下降 2.6 梯度下降的直观理解 2.7 梯度下降的线性回归 2.8 接下来的内容 三、线性代数回顾 3.1 矩阵和向量 3.2 加法和标量乘法 3.3 矩阵向量乘法 3.4 矩阵乘法 3-5 矩阵乘法特征 (1)矩阵乘法不适用交换律 (2)矩阵乘法满足结合律 (3)单位矩阵是对角线(a11,a22,a33...)都等于1的矩阵 3-6 逆和转置 (1)逆矩阵 只有m*m的矩阵有逆矩阵 I是单位矩阵 (2)转置 aij的矩阵,变成aji 第2周 四、多变量线性回归 4-1 多功能 当用多个参数预测房价时,需使用多元线性回归,向量表示为: 4-2 多元梯度下降法 4-3 梯度下降法实践 1-特征缩放 4-4 梯度下降法实践 2-学习率 4-5 特征和多项式回归 4-6 正规方程 4-7 正规方程及不可逆性(可选) 五、Octave教程 5-1 基本操作 ~= 表示 逻辑不等于 5-2 移动数据 5-3 计算数据 5-4 数据绘制 5-5

决策树(R语言)

余生颓废 提交于 2020-11-23 22:48:05
决策树是有监督学习算法中的一种。基于属性做一系列的决策,每次决策要么进入下一级决策,要么生成最终结果。决策树可以作为集成算法中的基分类器,并且有最为广泛的应用。 决策树算法 要想理解决策树的工作原理,首先需要了解决策树的层次结构。决策树由结点与有向边组成,其中,结点分为如下三种: 根结点 :无入边,但有零条或多条出边 内部结点 :有一条入边和多条出边 叶节点 :有一条入边,无出边 每个叶节点都有一个类标号,根节点和内部结点包含属性测试条件,每个根节点和内部结点都对应一次条件判断,用来分开有不同特性的记录。对一条记录进行判断时,从根结点开始,根据判断进入相应分支,只到叶节点,叶节点的类别即为分类结果。比如,根据历史贷款记录预测贷款申请者是否会逾期,是否有房和婚姻状况作为属性,是否逾期作为类标号。历史数据如下: 序号 有房 婚姻状况 是否逾期 1 是 单身 否 2 否 已婚 否 3 否 单身 是 4 是 已婚 否 5 否 离异 是 6 否 已婚 否 7 是 离异 否 8 否 单身 是 9 否 已婚 否 根据历史贷款记录,可构造如下决策树: 当决策树构造好后,对未标记的记录进行分类就非常容易了。如使用以及构造好的决策树,对如下序号8这个人进行预测,可以知道,最终停在了未逾期这个节点。 序号 有房 婚姻状况 是否逾期 8 是 离异 ? Hunt算法 是常用的用来建立决策树的算法

60分钟看懂HMM的基本原理

僤鯓⒐⒋嵵緔 提交于 2020-11-23 06:34:12
HMM模型,韩梅梅的中文拼音的缩写,所以又叫韩梅梅模型,由于这个模型的作者是韩梅梅的粉丝,所以给这个模型取名为HMM。开玩笑! HMM模型,也叫做隐马尔科夫模型,是一种经典的机器学习序列模型,实现简单,计算快速,广泛用于语音识别,中文分词等序列标注领域。 公众号后台回复关键字: 源码 ,获取本文包含全部公式和插图的md源文件。 下面通过一个村民看病的故事理解什么是HMM模型。 想象一个乡村诊所,村民的身体状况要么健康要么发烧,他们只有问诊所的医生才能知道是否发烧。 医生通过询问村民的感觉去诊断他们是否发烧。村民自身的感觉有正常、头晕或冷。 假设一个村民每天来到诊所并告诉医生他的感觉。村民的感觉只由他当天的健康状况决定。 村民的健康状态有两种:健康和发烧,但医生不能直接观察到,这意味着健康状态对医生是不可见的。 每天村民会告诉医生自己有以下几种由他的健康状态决定的感觉的一种:正常、冷或头晕。 于是医生会得到一个村民的感觉的观测序列,例如这样:{正常,冷,冷,头晕,冷,头晕,冷,正常,正常}。 但是村民的健康状态这个序列是需要由医生根据模型来推断的,是不可直接观测的。 这个村民看病的故事中由村民的健康状态序列和村民的感觉序列构成的系统就是一个隐马尔科夫模型(HMM)。 其中村民的健康状态序列构成一个马尔科夫链。其每个序列值只和前一个值有关,和其它值无关。由于这个马尔科夫链是隐藏的

OpenSelfSup: Open-MMLab自监督表征学习代码库

拥有回忆 提交于 2020-11-20 07:08:27
本文转载自知乎,已获作者 授权转载。 https://zhuanlan.zhihu.com/p/148782886 前言 自监督的表征学习领域近几个月来获得了显著的突破,特别是随着Rotation Prediction, DeepCluster, MoCo, SimCLR等简单有效的方法的诞生,大有超越有监督表征学习的趋势。 然而,相信做这个领域的研究者都深有感触: 1)自监督任务复杂而多样,不同方法各有各的专用训练代码,难以结合、复用和改进; 2)评价方案不统一,不同的方法难以在公平环境下对比; 3)动辄百万千万的训练数据量,训练效率是个大问题。 针对这些问题,我们(香港中文大学多媒体实验室和南洋理工大学)开源了一套统一的自监督学习代码库:OpenSelfSup, 链接如下: https://github.com/open-mmlab/OpenSelfSup OpenSelfSup 统一的代码框架和模块化设计 OpenSelfSup使用PyTorch实现,支持基于分类、重建、聚类、memory bank、contrastive learning的多种自监督学习框架, 目前收录了Relative Location, Rotation Prediction, DeepCluster, OnlineDeepCluster, NPID, MoCo, SimCLR

论文浅尝

[亡魂溺海] 提交于 2020-11-17 03:55:17
论文笔记整理:谭亦鸣,东南大学博士生。 来源:WWW 2020 链接: https://dl.acm.org/doi/pdf/10.1145/3366423.3380114 概述 这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。 作者提出的方法大致可以描述为: 1.基于实体的上下文关系,将分布于文本中的实体融合为一个实体图; 2.通过证据关系及类型,从实体图中抽取子图,构成推理链(同时也获得对应的局部文本信息); 3.基于推理链,构建了一个整合的“生成-评价”网络模型,实现多跳问题的生成。 其中,作者将生成过程(生成器)设计为一个强化了问题句法和语义合理性的seq2seq模型; 在评价方面,作者通过建立一个混合监督学习与强化学习的评价机制,同时用于生成模型的优化。 本工作使用的数据集为:HotpotQA 问题生成方法的主要作用是构建伪训练标注集用于弥补数据集不足的问题。 背景与动机 本工作主要关联的一个NLP是:多跳机器阅读理解:即使机器完全理解文本语义,并回答一般的问题(尤其是需要学习推理)。因此这里的问题生成主要基于包含多实体/关系的文本数据。 从现有的问题生成方法上看: 1. 基于模板的方法受限于手写模板对于问题类型的覆盖能力; 2. 目前的 seq2seq 问题生成方法无法捕获和合成多个句子之间的证据(evidence,本质上,连续的relation)。