自然语言处理 | 易学教程

为什么说RPA是金融科技领域的重要推动者？

阅读更多关于为什么说RPA是金融科技领域的重要推动者？

为什么说RPA是金融科技领域的重要推动者？ RPA（机器人流程自动化）技术是金融科技领域的重要推动者。通过与金融业务的深入融合，RPA可以为金融机构发现大量的转型机会，重塑客户体验。 RPA助力金融科技实现变革的4个关键点 1、跨平台、跨系统操作 RPA可以实现跨平台、跨系统操作的无缝衔接，并且无需改变现有系统架构，因此可以用于弥合不同遗留软件。RPA可以作为一种集成机制，将遗留解决方案集成到新的IT系统。RPA软件机器人可以在新旧应用程序之间推拉数据，以编排可能驻留在数据竖井中的工作流。这样在最基本的层面解决银行及其他金融机构发展金融科技过程中的后顾之忧，对现有系统的干扰降至最小。 2、降低金融技术应用的风险 RPA还可以降低新金融技术应用的潜在风险。基于软件测试自动化的RPA，用来验证新的定制开发效果，从而可以在对现有流程风险最小的情况下开发新的金融服务。 3、接手常见业务流程在客户服务方面，RPA也可以直接负责一些常见的业务。例如， RPA可以根据手机摄像头上传到金融科技应用的文档照片，结合OCR及NLP技术自动识别并填充数据字段。在很多银行的业务流程，比如手机开户、存款，信用卡申请，贷款申请和审核中都可以得到应用。 4、向更高层次的RPA迈进对于“更为成熟的投资者”，金融机构还可以利用RPA的技术提供“混合机器人顾问服务”，由算法和机器人进行财富管理量化跟踪

AI开发者大会：2020年7月3日10:30--10:50李双峰《TensorFlow的最新进展》

阅读更多关于 AI开发者大会：2020年7月3日10:30--10:50李双峰《TensorFlow的最新进展》

AI开发者大会：2020年7月3日10:30--10:50李双峰《TensorFlow的最新进展》目录 2020年7月3日10:30--10:50李双峰《TensorFlow的最新进展》 TensorFlow2：让机器学习更简单 TensorFlow2：易用性 TensorFlow2：灵活性示例：看图回答问题示例：TensorFlow2处理NLP问题 TensorFlow2：可扩展性 TensorFlow2：高性能 TensorFlow2：丰富的案例 TFLite TF.JS TF Hub JAX MLR TF Quantum 2020年7月3日10:30--10:50李双峰《TensorFlow的最新进展》 TensorFlow2：让机器学习更简单 TensorFlow2：易用性 TensorFlow2：灵活性示例：看图回答问题示例：TensorFlow2处理NLP问题 TensorFlow2：可扩展性 TensorFlow2：高性能 TensorFlow2：丰富的案例 TFLite TF.JS TF Hub JAX MLR TF Quantum 来源： oschina 链接： https://my.oschina.net/u/4408223/blog/4335819

【社招】1年工作经验，字节跳动算法面经

阅读更多关于【社招】1年工作经验，字节跳动算法面经

作者 | Batman1234 整理 | NewBeeNLP 面试锦囊之面经分享系列，持续更新中欢迎后台回复" 面试 "加入讨论组交流噢写在前面在某大厂做算法一年，本来安安稳稳还没想过跳槽，某天接到了猎头的电话说字节在招数据挖掘工程师，择日不如撞日那就去试一试呗。一面问贝叶斯网络的原理。一些统计学的原理比如t-test, AUC curve的意义是啥，为什么要用AUC去衡量机器学习模型的好坏。问了一道题：假设现在有一个函数random(), n为未知数，1/n的概率返回0，2/n的概率返回1，写一个newRandom()，让返回0,1的概率各为1/2。medium。二面问了adaboost的原理，模型的权重以及数据的权重各自有什么意义，写出adaboost的伪代码。 CART树的原理，和ID3以及C4.5有什么区别，回归树与分类树有什么区别。写出逻辑回归反向传播的伪代码。算法题：现在有一个每行每列递增的2D数列，比如[[1,2,3,4], [2,3,4,5], [4,5,6,7]]，在O(nm)的时间复杂度返回最小的k个数。hard。三面主要面C语言基础知识。实现memcpy. 如何在main函数之外之行一个函数。这样声明变量有没有问题：int a[10000000]. static修饰符有什么用？如果不加会出现什么后果？四面主要考察机器学习。

NLP 语义相似度计算整理总结

阅读更多关于 NLP 语义相似度计算整理总结

更新中更新时间： 2019-12-03 18:29:52 写在前面：本人是喜欢这个方向的学生一枚，写文的目的意在记录自己所学，梳理自己的思路，同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正，欢迎感兴趣的同学一起交流进步。（参考文献在第四部分，侵删）一、背景二、基本概念三、语义相似度计算方法四、参考文献一、背景在很多NLP任务中，都涉及到语义相似度的计算，例如：在搜索场景下（对话系统、问答系统、推理等），query和Doc的语义相似度； feeds场景下Doc和Doc的语义相似度；在各种分类任务，翻译场景下，都会涉及到语义相似度语义相似度的计算。所以在学习的过程中，希望能够更系统的梳理一下这方面的方法。二、基本概念 1. TF Term frequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则为该关键词在这篇文章中的词频。 2. IDF Inverse document frequency指逆向文本频率，是用于衡量关键词权重的指数，由公式计算而得，其中D为文章总数，Dw为关键词出现过的文章数。 3. 向量空间模型向量空间模型简称 VSM，是 VectorSpace Model 的缩写。在此模型中，文本被看作是由一系列相互独立的词语组成的，若文档 D 中包含词语 t1,t2,

WAIC开发者日：AI落地时代来临，行业专家「AI基础设施」经验谈

阅读更多关于 WAIC开发者日：AI落地时代来临，行业专家「AI基础设施」经验谈

　　近年来，人工智能技术发展迅速，这一技术也将成为未来社会生产的基本要素。但真正的开发应用会涉及到数据、环境配置、模型部署等一系列的问题，因此开发框架、平台以及硬件作为人工智能基础设施中的基础工具，是人工智能技术产业商业化的重要根基。　　如何更好地构建包括硬件、平台、框架在内的AI基础设施，满足当前人工智能落地应用的需求？这已经成为了社区内急需探讨的主题。　　7月11日上午，2020 WAIC云端峰会开发者日「构建AI基础设施」分论坛成功举办，8位来自华为、腾讯、竹间智能、京东云等人工智能领域知名企业的行业专家，共同对这一话题进行了深入探讨。　　竹间智能创始人兼CEO简仁贤为大家分享了「NLP落地之道」，他指出自然语言处理领域还存在着许多的技术落地难点，比如样本/零样本的学习、预训练模型的压缩、知识&常识引入NLP等挑战，但这一领域存在着相当广阔的前景。　　7月11日上午，2020 WAIC云端峰会开发者日「构建AI基础设施」分论坛成功举办，8位来自华为、腾讯、竹间智能、京东云等人工智能领域知名企业的行业专家，共同对这一话题进行了深入探讨。　　简仁贤表示，在疫情爆发之后，更多的企业用户开始在更多场景采用NLP技术，NLP的产业会比视觉、语音产业规模更大，在未来的10年或20年里，NLP会是人类交互操作系统的核心技术。　　深度学习框架作为人工智能基础设施的重要构成

5个需要掌握的sklearn技能

阅读更多关于 5个需要掌握的sklearn技能

虽然scikit-learn在机器学习领域很重要，但是很多人并不知道利用这个库中的一些强大的功能。本文将介绍scikit-learn中5个最有用的5个隐藏的瑰宝，充分利用这些秘密武器将有效提高你的机器学习处理的效率！ 1、数据集生成器 Scikit-learn有很多数据集生成器，可以用来生成各种复杂度和维度的人工数据集。例如， make_blobs 函数可以创建包含很多数据样本、聚类中心、维度的“blobs”或数据聚类。可视化以后可以清晰看出样本的分布： Scikit-learn其实提供了很多数据集创建函数： make_moons(n_samples=100, noise=0.1) make_circles(n_samples=100, noise=0.05) make_regression(n_samples=100, n_features=1, noise=15) make_classification(n_samples=100) 2、流水线/Pipeline 流水线可以将不同的方法组合为单一模型，在自然语言处理（NLP）应用中这一点非常重要。可以通过组合多个模型的方式来创建流水线，数据将依次流过聚合模型中的各环节。流水线有标准的拟合与预测能力，这使得训练过程得到很好的组织。很多对象都可以整合进流水线：缺失值处理器/Imputers：如果你的数据中包含缺失的数据

[秀璋带你读论文] 拿什么来拯救我的拖延症？初学者如何提升编程兴趣及LATEX入门详解

阅读更多关于 [秀璋带你读论文] 拿什么来拯救我的拖延症？初学者如何提升编程兴趣及LATEX入门详解

又是在凌晨三点赶作业，又是在Deadline前去熬夜，一次次无眠，一次次抱怨。为什么三年前、两年前、一年前，甚至是昨天，我都下定决心“从现在开始读顶会论文”，却又悄悄选择逃避；为什么我的收藏夹存了很多学习资料和视频，然而却没有再次翻起；为什么无数次告诫自己一定要卸载游戏和社交APP，开始好好学习，但明天又会继续下载去放纵自己。我们忙碌，我们孤独，我们在一遍遍地逃避和自我安慰中变得惴惴不安，拖延和等待终将击垮我们的斗志。人生几何，去日良多，不要再让拖延彻底吞噬了你我！为了改变，为了前行。因此就有了这样一篇文章，也有了《秀璋带你看论文》新的系列，同时也解答了一些初学编程博友的疑惑。本文将分享作者这些年学习、编程和科研的经历，也将详细介绍LATEX工具的用法，就当是开启我们科研之门的钥匙。注意，本文欢迎大家对号入座，闭上眼睛、扪心自问，你有拖延症吗？你是不是也准备开始学习一门新的编程技术，却又立刻放弃；你是不是无数次在截止日期前通宵达旦、痛心不已？你是不是立下很多flag却没有付诸以行动而更改计划呢？如果这篇文章能唤起你去学习，去奋斗，去拼搏，足矣。如果你能坚持一个月、半年、一年，甚至几年，去做自己想做的事情，去追逐心中的乌托邦。那么，我希望你再回过头来找到这篇文章，告诉你的好友秀璋，我们曾一起拼搏前行，这种素未谋面却相互鼓励的感觉真好！更重要的是，希望大家督促我

六种用于文本分类的开源预训练模型

阅读更多关于六种用于文本分类的开源预训练模型

作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍我们正站在语言和机器的交汇处，这个话题我很感兴趣。机器能像莎士比亚一样写作吗？机器能提高我自己的写作能力吗？机器人能解释一句讽刺的话吗？我肯定你以前问过这些问题。自然语言处理（NLP）也致力于回答这些问题，我必须说，在这个领域已经进行了突破性的研究，促使弥合人类和机器之间的鸿沟。文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词，或者它能够在客户的评论中检测到客户对产品的满意程度，我们可以将这种理解用于其他高级NLP任务。这就是我们在文本分类方面看到很多研究的本质。迁移学习的出现可能促进加速研究。我们现在可以使用构建在一个巨大的数据集上的预训练的模型，并进行优化，以在另一个数据集上实现其他任务。迁移学习和预训练模型有两大优势：它降低了每次训练一个新的深度学习模型的成本这些数据集符合行业公认的标准，因此预训练模型已经在质量方面得到了审查你可以理解为什么经过预训练的模特会大受欢迎。我们已经看到像谷歌的BERT和OpenAI的GPT-2这样的模型真的很厉害。在这里中，我将介绍6种最先进的文本分类预训练模型。我们将介绍的预训练模型： XLNet ERNIE Text-to-Text Transfer Transformer（T5） BPT NABoE

没有基础，能否学会Python？

阅读更多关于没有基础，能否学会Python？

没学过编程，能否学会Python? 肯定的回答您：完全能学会其实，很多个程序员都是从不会到会，每种知识也是从基础到复杂，大家都是从零基础开始的，有的学员英语和数字基础也很差，从一点都不了解编码到现在非常熟练使用Python。如果你自己自学感觉有些吃力的话，推荐参加我们系统全面的Python培训课程，跟着老师学习，会进步很快的，而且最重要的是少走很多弯路，有问题的时候能得到及时的解答。一般Python编程语言的初学者，要从基础数据类型开始了解Python的动作机制，再到各个类型的操作方法的掌握，就可以对Python有一个比较好的入门了，这个过程根据每个人的不同，大约需要几周到数月。 Python是一种什么语言？ Python是一种计算机程序设计语言。你可能已经听说过很多种流行的编程语言，比如非常难学的C语言，非常流行的Java语言，适合初学者的Basic语言，适合网页编程的JavaScript语言等，Python是他们其中的一种。首先，我们普及一下编程语言的基础知识。用任何编程语言来开发程序，都是为了让计算机干活，比如下载一个MP3，编写一个文档等，而计算机干活的CPU只认识机器指令，所以，尽管不同的编程语言差异极大，最后都得“翻译”成CPU可以执行的机器指令。而不同的编程语言，干同一个活，编写的代码量，差距也很大。比如，完成同一个任务，C语言要写1000行代码

万字长文带你纵览 BERT 家族

阅读更多关于万字长文带你纵览 BERT 家族

　　　　自18年底谷歌BERT问世以后，NLP便逐渐步入bert时代，bert家族儿孙满堂，如RoBERTa、ALBert、ERNIE等等，这些bert们正在给并持续给nlp领域输入无限生机，让人工智能皇冠上的明珠更加光彩夺目，在其光芒的照耀下，人类的人工智能之路必定越来越清晰、明朗。　　通过阅读大量博客资料，知乎专栏和论文，文本以通俗易懂而不失专业的方式总结了Bert以及其13个衍生版本，分享给大家，不足之处，望请指出。后期会不定期分享各个版本bert的详细解读以及实战代码，敬请期待。　　 1 　　 BERT 　　论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》　　论文地址：https://arxiv.org/pdf/1810.04805 　　作者/机构：google 　　年份：2018.10 　　 1.1 概述　　Bert是基于Transformer的深度双向预训练语言模型，神经语言模型可直接用于下游NLP任务的微调。Bert的出现使finetune技术应用于NLP领域真正走向成熟，并在工业界得到了广泛的应用，在不太消耗算力的情况下能显著提升各类任务的性能；在学术界也成为了研究热点，Bert出现会后，基于Bert的各类任务的SOTA模型也逐渐出现

订阅自然语言处理