Semantic

论文阅读

…衆ロ難τιáo~ 提交于 2020-05-04 04:38:35
本文是我在阅读推荐系统经典论文 Item-Based Collaborative Filtering Recommendation Algorithms 时候记录的笔记。 协同过滤算法 协同过滤算法(collaborative filtering algorithm, CF)基于当前用户先前的行为(评分、购买记录等),以及与该用户相似的用户的行为,来给当前用户推荐其可能喜欢的物品(item),或者预测该用户对某物品的喜欢程度。 问题设定是有一组用户 $\mathcal{U}=\left{u_{1}, u_{2}, \ldots, u_{m}\right}$ 和一组物品 $\mathcal{I}=\left{i_{1}, i_{2}, \ldots, i_{n}\right}$,每个用户 $u_i$ 有一组购买、评价过的物品 $I_{u i}$。 这里的用户和物品信息可以构成 user-item 矩阵,用户对物品的交互信息,构成矩阵中的值。矩阵可以是二值的(买过 0、未买过 1),也可以是多值或连续值(用户对物品的评分)。利用这个矩阵,可以用来预测用户对其未交互过的物品的评价值或喜欢的概率,进而可以基于此为用户产生一组推荐。 传统的协同过滤算法会从不同角度进行细分。根据是否需要保存 user-item 矩阵,可以分为 Memory-based CF 和 Model-based CF

nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注

。_饼干妹妹 提交于 2020-05-04 02:56:51
分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。 例如,句子 国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。 如果分词系统给出的切分结果是 国务院/ 总理/ 李克/ 强调/ 研/ 上海 … 因为 强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。 切分歧义 是分词任务中的主要难题。 LTP的分词模块 基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。 词性标注 词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海

【今日CV 计算机视觉论文速览】 11 Mar 2019

久未见 提交于 2020-04-30 21:10:29
今日CS.CV计算机视觉论文速览 Mon, 11 Mar 2019 Totally 35 papers Interesting: 📚 Three-Player GAN ,在通常GAN的基础上增加了生成器和分类器间的竞争。利用C来合成更为困难的样本,随后这些样本将提高分类器的能力。(from ESAT-PSI) 当分类器加入时,生成的数据分布改变了不再是real/fake,而是更难分辨的中间数据: 📚 , 基于分级的方法来实现弱监督语义分割,加快语义分割的速度。(from Eindhoven University of Technology) 基础分类器先分类,而后将相关车辆行人的像素交给子分类器,右图是相关数据集和模型表现。 📚 3DN ,三维的可变形网络,实现了三维模型的风格迁移。(from USC) 其损失包含了以下部分: mesh的两项为形状损失,包含了CD(chamfer )和EMD(earth mover)两项,来确定变型后的模型与目标模型的外形。point的两项用于保持对称性,所以要通过点云来比较。为了避免自交叉引入了局域变异不变性损失,保持源形状的局域几何特性拉普拉斯损失。 code :github.com/laughtervv/3DN 📚 FastDepth ,用于嵌入式设备的快速单目深度估计,利用了depthwise

【今日CV 计算机视觉论文速览】Thu, 28 Feb 2019

99封情书 提交于 2020-04-30 21:09:23
今日CS.CV计算机视觉论文速览 Thu, 28 Feb 2019 Totally 31 papers Daily Computer Vision Papers [1] Title: Efficient Video Classification Using Fewer Frames Authors:Shweta Bhardwaj, Mukundhan Srinivasan, Mitesh M. Khapra [2] Title: Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference Authors:Yao Yao, Zixin Luo, Shiwei Li, Tianwei Shen, Tian Fang, Long Quan [3] Title: Attributes-aided Part Detection and Refinement for Person Re-identification Authors:Shuzhao Li, Huimin Yu, Wei Huang, Jing Zhang [4] Title: Fractional spectral graph wavelets and their applications Authors:Jiasong Wu, Fuzhi Wu,

【今日CV 计算机视觉论文速览】 5 Mar 2019

情到浓时终转凉″ 提交于 2020-04-30 21:08:34
今日CS.CV计算机视觉论文速览 Tue, 5 Mar 2019 Totally 63 papers Interesting: 📚 STEFANN ,基于字体自适应网络实现场景中的文字编辑修改。目前的场景文字识别很成功,按时对于场景中文字修改的工作还很少。这篇文章对于照片中文字进行自适应修改,不仅能够修复图像中的文字信息,同时可以得到戏剧性的效果。研究人员首先聚焦于如何生成不违和的文字,包括字体和颜色等。提出了一个多输入的字体特征生成器,并将原图的颜色迁移到目标图像上去。随后将生成的文字放置到原图的对应位置,并进行视觉连续性处理。(from Indian Statistical Institute Kolkata) CVPR 模型的架构如下,包含了字体生成器和颜色迁移器组成: 一些有趣的效果: 数据集: ICDAR 📚 PuVAE基于变分自编码器提纯对抗样本 ,提出了一种利用变分自编码器提出对抗样本,降低对抗噪声的模型。为了防御深度学习中对抗样本的影响,研究人员提出了一种基于变分自编码器提纯对抗样本的方法。通过将对抗样本投影到流型空间的不同类别上,来估计和消除对抗扰动。实验表面这种方法性能强劲并比普通DefenseGan快130倍。(首尔国立大学) 模型结构示例图: 训练和推理过程示例图: 推理过程的示意图: 与类似方法的比较: 📚 SRNTT基于迁移学习的图像超分辨

详解百度ERNIE进化史及典型应用场景

余生长醉 提交于 2020-04-30 20:05:39
上个月,全球规模最大的语义评测比赛 SemEval 2020 结果出炉,百度基于飞桨平台自研的语义理解框架 ERNIE 一举斩获 5 项世界冠军,囊括视觉媒体的关键文本片段挖掘、多语攻击性语言检测和混合语种的情感分析。去年,ERNIE先后完成两版重大升级:ERNIE 1.0 提出知识增强的语义表示模型, ERNIE 2.0 则构建了持续学习语义理解框架,在中英文 16 个任务上超越业界最好模型。本文将为开发者详细解读ERNIE的进化史。 ERNIE 1.0 ERNIE: Enhanced Representation through Knowledge Integration[1] 是百度在2019年4月的时候,基于BERT模型,做的进一步优化,在中文的NLP任务上得到了state-of-the-art的结果。 它主要是在mask的机制上做了改进,它的mask不是基本的word piece的mask,而是在pretrainning阶段增加了外部的知识,由三种level的mask组成,分别是basic-level masking(word piece)+ phrase level masking(WWM style) + entity level masking。在这个基础上,借助百度在中文社区的强大能力,中文的ERNIE还使用了各种异质(Heterogeneous)的数据集

[CS224n笔记] L18 Constituency Parsing

蓝咒 提交于 2020-04-30 15:01:39
最近会逐步将博客上的 CS224n-2019 笔记搬到知乎上来,后续也会新增 CS224n-2020 里的更新部分:CS224n-2020 并未更新 Note 部分,但课程的部分课件进行了教学顺序上的调整与修改(Suggested Readings 也相应变动),需要注意的是三个 Guest Lecture 都是全新的。 本文为 Lecture 18 Tree Recursive Neural Networks, Constituency Parsing, and Sentiment 和 Notes 09 Recursive Neural Networks and Constituency Parsing 的笔记。 Useful links 课程官网: Stanford CS224n || Stanford CS224n-2019 课程材料: LooperXX/CS224n-Resource || LooperXX/CS224n-Reading-Notes 课程视频: YouTube 国内视频资源: 2019版|英文字幕(仍在更新) || 2019版|英文字幕(全) || 2017版|中英字幕 如有疏漏之处,还望不吝赐教~ Lecture 18 Tree Recursive Neural Networks, Constituency Parsing, and Sentiment

12款好用超赞的国外搜索资源网站 ,开发者们的标配,你都知道吗?不知道就OUT了

送分小仙女□ 提交于 2020-04-27 19:40:40
简介   看了 看了网上有好多推荐插件的文章,很少有推荐搜索资源网站,于是今天决定推荐一波搜索资源网站。这些网站帮助我开阔视眼、增长知识、解决问题。所以在这里整理一下,分享给朋友和博友们。 学习技术过程我们经常需要使用搜索引擎来检索资料,国内常用的也就是某度了。 当然有条件的话,搜索引擎首先还是推荐使用 Google,如果没办法使用,可以使用以下几个作为备用: ## 1.Bing Bing 国际版: https://cn.bing.com/ 比某度好用,之前还被停用了几天,最近可以了。分为国内版和国际版。 ## 2.DuckDuckGo DuckDuckGo: https://duckduckgo.com/ 从官网的介绍来看这个搜索引擎不收集用户信息,而且没有广告。 ## 3.Stack Overflow Stack Overflow: https://stackoverflow.com/ 我们如果常用 Google,很多技术问题的答案就在这个网站上,如果你无法使用 Google 可以在这个网站上直接检索就好了。 ## 4.Gitlogs Gitlogs: https://www.gitlogs.com/ Gitlogs 是专门针对 GitHub 项目的搜索引擎,我们通过他可以快速找到想要项目。 ## 5.jiumo search 文档搜索引擎 jiumo search 鸠摩搜书:

AAAI2018中的自注意力机制(Self-attention Mechanism)

时光总嘲笑我的痴心妄想 提交于 2020-04-27 18:23:57
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究,各式各样的attention被研究者们提出,如单个、多个、交互式等等。去年6月,google机器翻译团队在arXiv上的《Attention is all you need》论文受到了大家广泛关注,其中,他们提出的自注意力(self-attention)机制和多头(multi-head)机制也开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。在AAAI2018的接收论文中,有30余篇都使用了attention机制,其中有3篇使用到了self-attention。本人就这篇论文中的self-attention以及一些相关工作进行了学习总结(其中也参考借鉴了张俊林博士的博客“深度学习中的注意力机制(2017版)”和苏剑林的“《Attention is All You Need》浅读(简介+代码)”),和大家一起分享。 一、引言 Attention机制由视觉图像领域提出来,在2014年,Bahdanau在《Neural Machine Translation by Jointly Learning to Align and Translate》上将其应用到机器翻译任务上,这是第一个应用到NLP领域的论文。之后,15、16、17乃至今年

自注意力机制(Self-attention Mechanism)——自然语言处理(NLP)

a 夏天 提交于 2020-04-27 18:01:50
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究,各式各样的attention被研究者们提出。在2017年6月google机器翻译团队在arXiv上放出的《Attention is all you need》论文受到了大家广泛关注,自注意力(self-attention)机制开始成为神经网络attention的研究热点,在各个任务上也取得了不错的效果。对这篇论文中的self-attention以及一些相关工作进行了学习总结(其中也参考借鉴了张俊林博士的博客"深度学习中的注意力机制(2017版)"和苏剑林的"《Attention is All You Need》浅读(简介+代码)"),和大家一起分享。 1 背景知识 Attention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是2014年google mind团队的这篇论文《Recurrent Models of Visual Attention》,他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中