edg战队

论文浅尝 | Leveraging Knowledge Bases in LSTMs

情到浓时终转凉″ 提交于 2019-11-28 00:50:47
Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446. 链接: http://www.aclweb.org/anthology/P/P17/P17-1132.pdf 这篇论文是今年发表在 ACL 的一篇文章,来自 CMU 的工作,提出通过更好地利用外部知识库的方法解决机器阅读问题。由于传统方法中用离散特征表示知识库的知识存在了特征生成效果差而且特征工程偏特定任务的缺点,本文选择用连续向量表示方法来表示知识库。传统神经网络端到端模型使得大部分背景知识被忽略,论文基于 BiLSTM 网络提出扩展网络 KBLSTM ,结合 attention 机制在做任务时有效地融合知识库中的知识。 论文以回答要不要加入 background knowledge ,以及加入哪一些信息两部分内容为导向,并借助以下两个例子说明两部分内容的重要性。 “Maigretleft viewers in tears.” 利用背景知识和上下文我们可以知道 Maigret 指一个电视节目, “Santiago is charged withmurder.”

【论文阅读】Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization

﹥>﹥吖頭↗ 提交于 2019-11-28 00:50:16
本文在参考一些网上资料的基础上,对该论文的思想和重要步骤作出了总结,也加入了在与身边朋友讨论的过程中对文章更细致深入的理解的内容,同时包含了自己在阅读中发现需要了解的背景知识的简单介绍。 目录 概述 背景知识 先验 后验 似然估计 正则化 KL散度 EM算法 log-linear model对数线性模型 Posterior Regularization后验正则化 模型 特征设计 训练 目标 编码 解码 结果 结论 参考资料 概述 这篇搜狗联合清华信息科学与技术国家实验室进行研究、入选ACL 2017的论文提出了将 先验知识 集成到NMT中并保持模型结构不变的一般框架。使用的主要方法是 后验正则化 ,将先验知识表征为对数线性模型中的特征,用来指导NMT的过程。 论文希望解决的问题就是如何将多个重叠的、任意的先验知识集成到神经网络中。一方面,神经网络中用来表示翻译过程中涉及的语言结构的向量的值是连续的。虽然这些向量的表示确实隐含着翻译规则,但很难从语言学的角度来解释。作者对此提出了 四种特征设计方式 对语言学中的先验知识进行编码; 另一方面,在将先验知识编码成翻译规则时,一般都用离散的表达形式(比如词典),将这种离散形式转化为神经网络所要求的连续表示是一件困难的事情。因此作者采用了 对数线性模型 ,代替原来的离散集合表示。 论文链接 背景知识 在了解论文主要工作之前

[文献阅读] Automating Knowledge Acquisition for Machine Translation

馋奶兔 提交于 2019-11-28 00:49:54
Automating Knowledge Acquisition for Machine Translation 作者:Kevin Knight 时间:1997年 本篇文章的主要内容: 1、解决机器翻译问题不同的策略,word-for-word, syntax-based,semantic-based等等 2、利用西班牙语-英语形象化描述,如何从平行句对中得到 短语表 3、从双语语料中进行句子对齐任务 4、利用EM算法获得alignment 5、语言模型 6、翻译模型,为何P(E|F)不如P(F|E)好? 7、翻译评测的几种方法,人工策略,自动策略? 8、Syntax-based 机器翻译方法 9、Semantic-based 机器翻译方法,包含分析和生成,同时需要大量的外部资源 这篇文章比较早,当时短语系统等很多未提出,Kevin根据自己的经验写下这篇tutorial,并且分享了自己对于机器翻译的很多观点,这些观点今天看来的确都是很有意思的,并且预测到了很多年之后的机器翻译发展的路线。 文章下载地址: 下载地址 来源: CSDN 作者: 战辉 链接: https://blog.csdn.net/u013011270/article/details/23429933

Leveraging Knowledge Bases in LSTMs for Improving Machine Reading

扶醉桌前 提交于 2019-11-28 00:49:34
《Leveraging Knowledge Bases in LSTMs for Improving Machine Reading》 这篇文章是发表在2017年ACL上的,主要是聚焦于外部知识改善LSTM,运用在实体抽取和事件抽取任务。在ACE2005的数据集上得到了SOTA效果。 首先介绍这篇文章的两个知识库,一个是WordNet一个是NELL。 Word net是人工创造的一个词典,里面含有大量的同义词,以及他们之间的概念关系(上位词hypernym,part_of关系)。 比如(location, hypernym of, city),(door, has part, lock) 头实体和尾实体都是Wordnet中的同义词 NELL,是自动构建的,基于网页的知识库,存储了实体之间的关系。 比如(New York, located in, United States) , (New York, is a, city) 头实体和尾实体都是一个真实世界的名词短语实体,尾实体也可以是一个概念分类。 接下来分以下四部分介绍: Motivation Model Experiment Discussion 1、Motivation 传统的方法将知识表示成离散的特征,这些特征的泛化性能很差,而且为了获得好的效果还需要特定任务的特征工程。 在不同的文本之间,知识的使用也是不同的

WinDbg 调试 Edge

妖精的绣舞 提交于 2019-11-27 15:29:58
如何用 windbg 调试 edge? 由于 edge 是 uwp 程序, 我们不能再像一般程序那样直接 attach to a process 。 微软官方说: A UWP app will not be suspended in the same ways that it does when not being debugged 那么到底要如何用windbg 调试 edge 呢?下面是官方的方法, 在命令行 启动调试器进行调试。 这里里面有三个参数, 分别是 packagename, appid, 和 parameters 。 首先,打开edge , 用windbg 随便附加一个edge进程 , 中断后, 执行下面的命令。 0:045> .querypackage Missing package name. The command is ".queryPackage <packageName>". 0:045> .querypackages Package Full Name: Microsoft.AAD.BrokerPlugin_1000.17134.1.0_neutral_neutral_cw5n1h2txyewy Package Display Name: PackageDisplayName Version: 1000.17134.1.0 Processor

2019.8.16

假如想象 提交于 2019-11-27 14:05:19
T2 water 官方题解: 一个块的水平面高度就是从这个块走出矩形的所有路径上的最 大值的最小值。 相邻块连边,权值为两块的较大值,矩形 边界的块向“矩形外”连边,权值为 max(高度,0)。 做最小生成树。 时间复杂度 O(nmlognm)。 瓶颈生成树:满足最大的边最小。 最小生成树:也就是最小瓶颈树。 我来说说: 1.为什么能用最小生成树??   正如题解,一个格子的水是由它流向外围的所有路径中,每条路径上的最大值 的最小值。(木桶原理)   可以用bfs解决。   最小生成树可以求出最小的路径,再在该路径上取最大值即为最大蓄水量。 2.一开始想的是对每一个格子kruscal,但发现可以一次解决所有答案。 3.对每一个点,寻找该点所在联通块时,O(N)遍历会TLE(70),用vector解决。 好题,难想。 1 #include<bits/stdc++.h> 2 using namespace std; 3 const int maxn=310; 4 const int N=maxn*maxn*4; 5 const int mod=1e9+7; 6 int dx[]={0,1,-1,0,0}; 7 int dy[]={0,0,0,1,-1}; 8 int n,m; 9 int zb(int i,int j){return (i-1)*m+j;} 10 int mp[maxn

词法语法分析器EDG C++

老子叫甜甜 提交于 2019-11-27 12:37:41
EDG C++简介 EDG C++前端(front end)于1992年首次发布,支持ISO/IEC 14882:2003的C++。通过调整命令行参数,前端还可以支持ANSI/ISO C(包括C89和C99以及Embedded C TR)、Microsoft C/C++、GNU C/C++、Sun C++、C++的cfront 2.1和3.0.n版本方言、以及K&R/pcc C等方言。 前端执行包括全部错误检查(error checking)在内的完整的语法和语义分析,可以形成大约2100个不同的错误诊断,它们出现在源代码行中,并以“^”号指示精确的错误位置。诊断形成的程度可以通过多种方式控制。 对源代码中的字符串、标识符、注释和文件名字,前端能够识别国际字符集,包括多字节字符和多种Unicode编码。前端做出的诊断可以收进错误消息目录中,后者可轻易转译为其他语言。 前端把源程序翻译为高层的、带有树结构的、驻留于内存的中间语言,它保留了大量的源信息(如代码行号、列号、原始类型、原始名称),有助于产生符号化的调试信息。源程序中的隐式和重载操作在中间语言中变成显式操作,也没有对结构进行添加、删除或重排序的工作。中间语言不是机器依赖的(如,不指定寄存器,也不描述栈的布局)。前端还可选择性地产生原始的交叉索引,这可作为源程序浏览工具的基础。 前端集成了一个预处理器

POI2010 Bridges

被刻印的时光 ゝ 提交于 2019-11-27 08:11:47
好题 \(Q\omega Q\) 我们考虑这个东西要求最大值最小,显然一眼二分答案对吧. 问题在于如何 \(check\) ,我们二分答案之后把问题转换成了混合图如何求欧拉回路. 考虑欧拉回路的性质,每一个点的入度要 \(=\) 出度. 但是存在无向边,我们先随便让它选择一个方向,然后连一条反向边,容量为1. 这样子我们考虑选这样子一条边意味着让一个点的入度与出度的差 减少/增加 2. 然后直接跑最大流判断是否满流即可. /* mail: mleautomaton@foxmail.com author: MLEAutoMaton This Code is made by MLEAutoMaton */ #include<stdio.h> #include<stdlib.h> #include<string.h> #include<math.h> #include<algorithm> #include<queue> #include<set> #include<map> #include<iostream> using namespace std; #define ll long long #define re register #define file(a) freopen(a".in","r",stdin);freopen(a".out","w",stdout) inline

CRM Middleware: BDoc basic knowledge and troubleshooting case study

泄露秘密 提交于 2019-11-26 18:20:43
In SAP CRM, Middleware is an important part through all the CRM scenarios (E-commerce, IC, Marketing, Mobile, etc). The basic item in CRM Middleware is the BDoc, which is always transfered through qRFC to process data. These days, I am learning about this, and here are some basic knowledge about it and if possible I would provide some trouble shooting cases. Basically, we have mBDoc and sBDoc, which indicates ‘Messaging flow’ and ‘Synchronization flow’ accordingly. mBDoc is used for most of the scenarios to update the data when some change occurs. It can be possibly triggered when either