自然语言处理

【NLP_Stanford课堂】最小编辑距离

旧巷老猫 提交于 2020-08-15 05:10:26
一、什么是最小编辑距离 最小编辑距离 :是用以衡量两个字符串之间的相似度,是两个字符串之间的最小操作数,即从一个字符转换成另一个字符所需要的操作数,包括插入、删除和置换。 每个操作数的cost : 每个操作数的cost一般是1 如果置换的cost是2,而插入和删除的cost是1,我们称之为Levenshtein 距离。 作用 : 计算衡量机器翻译和语音识别的好坏:将机器得到的字符串与专家写的字符串比较最小编辑距离,以一个单词为一个单位。 命名实体识别和链接:比如通过计算最小编辑距离,可以判定IBM.Inc和IBN非常相似,只有一个单词不同,所以认为这是指向同一个命名实体。 二、如何找到最小编辑距离 实质 :寻找一条从“开始字符串”到“最终字符串”的路径(一个操作序列) 具体过程 : 初始状态:机器翻译出来的单词 操作:插入、删除、置换 黄金状态:我们尽力希望得到的单词 路径花费:操作数目,要求最小化 实例: 单词intention通过删除i可以得到ntention,通过插入e可以得到eintention,通过将i换成e可以得到entention。以上从intention到叶子节点的任意一个单词经过的操作数就是一条路径。 可以发现枚举出所有可转变成的单词的花费是十分巨大的,我们不可能用枚举遍历的方式来寻找一条最短路径,一种解决方法是:使用剪枝 每层中有很多路径被剪枝了,

Hacker News 简讯 2020-07-08

岁酱吖の 提交于 2020-08-15 03:45:39
最后更新时间: 2020-07-08 15:11 Yoloface-500k: ultra-light real-time face detection model, 500kb - (github.com) Yoloface-500k:超轻实时人脸检测模型,500kb 得分:109 | 评论:27 SymPy - a Python library for symbolic mathematics - (sympy.org) 符号数学的Python库 得分:94 | 评论:20 Ron Graham has died - (ams.org) 罗恩·格雷厄姆去世了 得分:289 | 评论:32 Help Message for Shell Scripts - (samizdat.dev) 外壳脚本的帮助消息 得分:366 | 评论:100 Fig: Visual Apps and Shortcuts for Your Terminal - (withfig.com) 图:终端的视觉应用和快捷方式 得分:42 | 评论:24 Loopy: a tool for thinking in systems - (ncase.me) Loopy:系统思维的工具 得分:176 | 评论:15 N. K. Jemisin’s Dream Worlds - (newyorker.com) N

t分布, 卡方x分布,F分布

耗尽温柔 提交于 2020-08-14 23:00:47
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

自然语言处理十大应用

守給你的承諾、 提交于 2020-08-14 13:32:33
作者|ABHISHEK SHARMA 编译|VK 来源|Analytics Vidhya 介绍 自然语言处理是数据科学领域最热门的课题之一。公司在这一领域投入大量资金进行研究。每个人都在努力了解自然语言处理及其应用,并以此为生。 你知道为什么吗? 因为仅仅在短短几年的时间里,自然语言处理已经发展成为一种无人能想象的强大而有影响力的东西。 为了了解自然语言处理的力量及其对我们生活的影响,我们需要看看它的应用。因此,我列出了自然语言处理的十大应用。 那么,让我们从自然语言处理的第一个应用开始。 搜索自动更正和自动完成 每当你在谷歌上搜索某个东西,在输入2-3个字母后,它会显示可能的搜索词。或者,如果你搜索一些有错别字的东西,它会更正它们,仍然会找到适合你的相关结果。是不是很神奇? 它是每个人每天都在使用的东西,但从来没有太多的关注它。这是自然语言处理的一个很好的应用,也是一个很好的例子。它影响世界上数百万人,包括你和我。 搜索自动完成和自动更正都有助于我们更有效地找到准确的结果。现在,其他许多公司也开始在他们的网站上使用这个功能,比如Facebook和Quora。 搜索自动完成和自动更正背后的驱动引擎是语言模型。 语言翻译 你有没有用谷歌翻译来找出不同语言中的某个词或短语?它将一段文字用一种语言翻译成另一种语言的容易程度是相当惊人的,对吧?它背后的技术是机器翻译。

BERT生成文本摘要

喜你入骨 提交于 2020-08-14 13:28:48
作者|Daulet Nurmanbetov 编译|VK 来源|Towards Data Science 你有没有曾经需要把一份冗长的文件归纳成摘要?或者为一份文件提供一份摘要?如你所知,这个过程对我们人类来说是乏味而缓慢的——我们需要阅读整个文档,然后专注于重要的句子,最后,将句子重新写成一个连贯的摘要。 这就是自动摘要可以帮助我们的地方。机器学习在总结方面取得了长足的进步,但仍有很大的发展空间。通常,机器摘要分为两种类型 摘要提取:如果重要句子出现在原始文件中,提取它。 总结摘要:总结文件中包含的重要观点或事实,不要重复文章里的话。这是我们在被要求总结一份文件时通常会想到的。 我想向你展示最近的一些结果,用BERT_Sum_Abs总结摘要,Yang Liu和Mirella Lapata的工作Text Summarization with Pretrained Encoders: https://arxiv.org/pdf/1908.08345.pdf BERT总结摘要的性能 摘要旨在将文档压缩成较短的版本,同时保留其大部分含义。总结摘要任务需要语言生成能力来创建包含源文档中没有的新单词和短语的摘要。摘要抽取通常被定义为一个二值分类任务,其标签指示摘要中是否应该包含一个文本范围(通常是一个句子)。 下面是BERT_Sum_Abs如何处理标准摘要数据集:CNN和Daily Mail

ACL2020奇葩论文标题大赏

狂风中的少年 提交于 2020-08-14 11:39:03
本文首发于微信公众号【夕小瑶的卖萌屋】 文|灵魂写手rumor酱 编|不拖更的 @夕小瑶 又是一年一度的ACL,之前通过 卖萌屋Arxiv服务 已经零零碎碎看了一些,还是准备刷一下论文list,看哪篇能让我的模型效果一飞冲天。 中奖论文List : https:// acl2020.org/program/acc epted 刷呀刷呀,不是 XXBERT: XXX ,就是 A XX-based XX for XX ,果然NLP人的世界还是那么枯燥无味。 突然,一个标题吸引了我: Two Birds, One Stone: A Simple, Unified Model for Text Generation from Structured and Unstructured Data 等等,Two Birds,One stone,这个模型名怎么感觉有些怪怪的,翻译过来是。。。一石二鸟???用美妙的中华语言来形容自己优秀的文本生成模型,这都可以? 还有没有更奇葩的标题呢?想到这里,我滑动屏幕的手指也开心了起来。 一览标题list后,我发现了很有潜力的一种标题格式,就是 抓人疑问句/陈述句/感叹句+正经介绍 ,就像荣誉提名的 Do not stop pre-training ,先要抓住审稿人/读者的点,再抛出简要介绍,深得标题党的精髓。 按照这个Pattern

入门python有什么好的书籍推荐?python教程 python爬虫

£可爱£侵袭症+ 提交于 2020-08-14 09:37:28
Python非常灵活,让实验变得容易。解决简单问题的方法简单而优雅。Python为新手程序员提供了一个很好的实验室。 PS; 如有需要python学习资料的小伙伴可以点击下方链接自行获取 python免费学习资料 Python具有一些特征,使其成为第一种编程语言的接近完美的选择。Python基本结构简单、干净、设计精良,使学生能够专注于算法思维和程序设计的主要技能,而不会陷入晦涩难解的语言细节。在Python中学习的概念可以直接传递给后续学习的系统语言(如C ++和Java)。但Python不是一种“玩具语言”,它是一种现实世界的生产语言,可以在几乎每个编程平台上免费提供,并且具有自己易于使用的集成编程环境。最好的是,Python让学习编程又变得有趣了。 这17本Python书单让你快速掌握Python编程。 《Python神经网络编程》 [英] 塔里克·拉希德(Tariq Rashid)著本书用轻松的笔触,一步一步揭示了神经网络的数学思想,并介绍如何使用Python编程语言开发神经网络。本书将带领您进行一场妙趣横生却又有条不紊的旅行——从一个非常简单的想法开始,逐步理解神经网络的工作机制。您无需任何超出中学范围的数学知识,并且本书还给出易于理解的微积分简介。本书为美亚五星畅销书,备受关注。基于Python3.5,全彩印刷,如果只选一本神经网络图书,他是首选。

《AI+化学与制药》论坛:有AI就不搬砖,化学逆合成也可以借鉴AlphaGo的思想

ⅰ亾dé卋堺 提交于 2020-08-14 08:35:27
     作者 | 青暮   编辑 | 陈彩娴   2020年6月29日,未来论坛·青创联线上学术研讨会YOSIA Webinar举办第三期论坛,主题为《AI+化学与制药,人工智能为药物研发和化学研究按下快进键》。本期AI+化学与制药主题研讨会将汇集化学、制药行业代表及人工智能专家学者,一同探讨化学与制药行业的价值、研究路径及未来发展方向。   在论坛中,我们可以看到人工智能经常在化学和制药领域中碰撞出创新的思想之火花。例如,化学逆合成反应借鉴了AlphaGo的思想,小分子可以编码为字符串用NLP技术处理,或者编码为无向连接图用GNN处理,甚至可以用生成模型生成新的化学分子,以及用深度学习来预测化学物质的性质等等。   随着人工智能时代的到来,研究人员需要在无穷变化的化学反应条件下手工设计出化学合成路线的“劳动密集型”将成过去,未来化学领域的人工智能应用能够掌握和消化海量合成方法、合成路线、材料结构和性能等,辅助化学家描绘出合成过程的“蓝图”,从繁重的手工劳动中解放出来。   在AI技术助力化学研究与新药研发的进程下,化学科研仍需大量创新和跳跃性思维,为人工智能提供创新策略,推进人工智能系统不断优化,后者再反过来推动化学研究人员进行更深入的研究。   论坛邀请由麻省理工学院生物系副教授翁经科主持,邀请了来自合成化学、药物设计、化学化工、制药行业的人工智能专家,分别是:

读论文的方法

你离开我真会死。 提交于 2020-08-14 07:25:27
找论文 1. 知网、百度学术、谷歌学术 2. https://arxiv.org 论文预印本平台 3. 顶会(CVPR ECCV ICCV AAAI NIPS ICLR ICML) 4. 免费下载论文: https://sci-hub.tw/si/se(可以使用论文标识符DOI进行搜索) 5. https://paperswithcode.com (有代码的论文网站) 论文管理 1. 可以使用年份+作者/关键词+论文名进行划分 2. 使用mendeley论文管理软件 读论文 1. 泛读:读论文题目和摘要,了解如下三个问题 (1)论文要解决的问题 (2)论文采用什么方法 (3)论文达到什么效果 2. 精读:找到感兴趣的内容进行精度 3. 总结:找到论文的创新点, 启发点 ps. 以下是NLP方向必读论文 来源: oschina 链接: https://my.oschina.net/u/4228078/blog/4480323

【信息抽取】如何使用卷积神经网络进行关系抽取

六月ゝ 毕业季﹏ 提交于 2020-08-14 06:57:40
事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。 然而,随着互联网的爆炸发展,人类的知识也随之飞速的增长,因而对关系抽取(Relation Extraction, RE)提出了更高的要求,需要一个有效的RE系统,能够利用更多的数据;有效的获取更多的关系;高效的处理更多复杂的文本;具有较好的扩展性,能够迁移到更多的领域。 本文首先介绍一种基于卷积神经网络的关系抽取方法。 作者&编辑 | 小Dream哥 1 导论 在引入深度学习之前,在NLP领域,关系抽取最优的方法是基于机器学习的方法。机器学习的方法依赖手动提取特征,手动提取的特征通常依赖于其他的NLP系统(一些NLP工具),这些工具不免会带入错误,这些错误就会在关系抽取的任务中进行传播。 因此,基于机器学习的关系抽取方法代价大且效果不佳。这里介绍一种比较早的应用深度卷积神经网络进行关系抽取的方法,由神经网络进行特征抽取,避免了手动的特征提取,实现了端到端的关系抽取。 Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classifification via convolutional deep