自然语言处理

蚂蚁集团-算法专家/高级专家杭州/北京/上海

假如想象 提交于 2020-11-13 13:32:28
面试速度快!HC充足! 蚂蚁集团-算法专家/高级专家杭州/北京/上海 职位要求: 1、 面向花呗、借呗、网商银行、芝麻信用、财富平台实际业务应用,开发基于大数据、大规模分布式集群的传统机器学习建模和深度学习建模; 2、 算法产品化建设,参与模型在线实时计算框架开发落地; 3、 算法研究和创新,研究成果与业务场景相结合; 4、 特征工程开发及应用。 职位描述 1、 计算机、数学、统计学、软件工程、电子信息等相关专业背景,硕士及以上学历; 2、 在智能营销、搜索、推荐、广告、知识图谱、用户画像、自然语言处理等方向有两年以上实际工作经验,对上述方向至少其中之一有深入研究; 3、 精通传统机器学习算法、深度学习算法建模,深入了解算法优化方法,具备独立编码建模能力; 4、 熟悉至少一种主流深度学习训练框架(Keras/Tensorflow/PyTorch); 5、 熟练使用C/C++、Python、Java中的至少一种编程语言,熟悉多线程编程,内存管理,设计模式,熟悉Linux开发环境; 6、 熟悉Hadoop,MapReduce等分布式并行处理技术,具备 Storm、Flink、Spark等大数据开发实施经验,熟练Hive SQL语言。 蚂蚁集团-内容推荐算法 我们是蚂蚁金融数字金融线的内容算法团队,负责蚂蚁财富、保险、微贷等金融场景中等内容分发、内容带货和内容智能生产算法。在这里

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

可紊 提交于 2020-11-13 07:00:33
https://www.cnblogs.com/mantch/p/12294619.html 笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上, 词性 (Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。 我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a 每个单词的后边跟的就是词性标签: 词性标签 词性 r 代词 u 动词 n 名词 v 动词 nr 人名 p 介词 a 形容词 词性的用处 词性的作用是提供词语的抽象表示,词的数量是无穷的,但词性的数量是有限的。词性支撑着许多高级应用,当下游应用遇到 OOV 时,可以通过 OOV 的词性猜测用法,比如上面的句子“林晚霞”就识别为人名进行处理,而不会拆开。 词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等。 词性标注 词性标注 指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点:

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

给你一囗甜甜゛ 提交于 2020-11-13 03:23:54
笔记转载于GitHub项目 : https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上, 词性 (Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。 我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a 每个单词的后边跟的就是词性标签: 词性标签 词性 r 代词 u 动词 n 名词 v 动词 nr 人名 p 介词 a 形容词 词性的用处 词性的作用是提供词语的抽象表示,词的数量是无穷的,但词性的数量是有限的。词性支撑着许多高级应用,当下游应用遇到 OOV 时,可以通过 OOV 的词性猜测用法,比如上面的句子“林晚霞”就识别为人名进行处理,而不会拆开。 词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等。 词性标注 词性标注 指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点: 汉语中一个单词多个词性的现象很常见,但在具体语境下一定是唯一词性。 OOV 是任何自然语言处理任务的难题。

拜登当选,Python之父大喊Yes!吴恩达:让我松了口气!

时间秒杀一切 提交于 2020-11-13 02:35:00
点击上方 蓝字 关注我们 点击上方“ 印象python ”,选择“ 星标 ”公众号 重磅干货,第一时间送达! 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天铺天盖地的一条消息: 多家美国媒体报道: 拜登赢了! 据央视新闻,美联社报道,美国民主党总统候选人 拜登 ,已获得超过270张选举人票。 根据美国大选的选举规则,如果最终结果确认有效,率先获得270张选举人票的总统候选人获胜。 美国有线电视新闻网(CNN)、美国全国广播公司(NBC)和英国广播公司(BBC)等多家外媒也跟上步伐,先后发布了预测,表示拜登当选,当成为美国第46任总统。 除了全球主流媒体对此「迫击炮」式密集报道外,在AI界,亦是如此。 AI大佬们纷纷在社交平台发布消息,表达了自己的看法和态度。 手舞足蹈、欢呼雀跃 Python之父「 龟叔 」 (Guido van Rossum)发表的内容言简意赅,只有一个「Yes」。 但后面的感叹号数量,着实有点多了,仿佛隔着屏幕就能感受到那种咆哮般的力量。 但毕竟是Python之父,网友们的留言成了一道亮丽的风景线。 Import biden as president pip uninstall trump; pip install biden $ sudo reboot whitehouse 这真的很Python了。 深度学习三巨头之一的 LeCun

手把手教你薅羊毛,1 元体验业内领先AI技术!

£可爱£侵袭症+ 提交于 2020-11-11 19:50:43
双十一的套路早已看透,为何你还甘心成为“尾款人”在商家的层层套路中痛并快乐着。不要急~百度大脑 AI 产品双十一年终狂欢活动钜惠开启! 无需尾款,没有套路,只有硬核低价。 百度大脑人脸识别技术系列产品 1.7 折限时抢购,实名认证首单一元购,适用于金融核验、线上实名认证、考勤通行管理、安全防控等场景。 百度大脑语音识别技术采用领先国际的流式端到端语音语言一体化建模方法识别,提供高度拟人的语音合成服务。应用场景丰富,覆盖泛阅读娱乐、教育培训、交通物流、智能硬件领域,让语音大有所为。 百度大脑语言与知识技术凝聚百度在自然语言处理、知识图谱领域的十年技术累积和产业实践。广泛应用于新闻媒体、泛互联网、舆情口碑分析、交通物流等领域。 仅需 1 元就可体验业内领先的 AI 技术。 百度大脑 EasyDL 零门槛 AI 开放平台,提供一站式 AI 服务、高精度训练效果、多种灵活部署方式,不仅赋能工业制造领域,在生产安全、零售快消、智能硬件等领域也有广泛应用,目前已超过 70 万企业用户利用 EasyDL 平台落地 AI 应用。 百度大脑文字识别技术提供多种场景下精准的图像文字识别技术服务,超高识别准确率可以让您的应用看图识字,而且提供 50+ 产品全线免费体验~ ‍ 百度大脑内容审核技术一站式解决文章内容、用户评论审核问题,为企业内容安全保驾护航,应用场景丰富,覆盖视频直播、社区社交、教育培训

深度解析:mPaaS 3.0全新组件

蹲街弑〆低调 提交于 2020-11-11 15:04:30
摘要:以“数字金融新原力(The New Force of Digital Finance)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。分论坛上,蚂蚁金服产品专家杨晓亮和章建军做了主题为《深度解析:mPaaS 3.0全新组件》的精彩分享。 演讲中,杨晓亮和章建军解读了mPaaS 3.0中的真机云测、舆情分析、智能投放,以及多媒体服务组件,并与大家分享了mPaaS 3.0如何在APP开发、测试、运营及运维等方面帮助企业构建稳定高质量的移动应用。 杨晓亮 蚂蚁金服产品专家 章建军 蚂蚁金服产品专家 本次的分享主要围绕以下内容展开: 一、真机云测 二、舆情分析 mPaaS为APP的开发、测试和运维提供了一站式解决方案,能有效降低APP研发成本、提高开发效率,协助企业构建稳定且高质量的移动端产品。mPaaS自2015年发布以来,得到了长足的发展,其客户遍布金融、出行及政务等行业。 mPaaS产品架构分为三层:底层负责后台连接,提供网关,及数据、多媒体传输与处理等服务;中间层移动中台,为APP研发、测试、发布和分析、运营提供一系列服务;上层客户端,为Native、H5和小程序提供开发框架、标准化的UI控件,以及面向具体业务的组件。本文将解读测试部分的真机云测、运营部分的移动舆情分析与移动智能投放,以及多媒体+智能部分的多媒体文件传输等产品。 一、真机云测

三个可以写进简历的京东商城AI项目实战

别说谁变了你拦得住时间么 提交于 2020-11-10 03:37:49
NLP (自然语言处理),利用计算机对人类的语言文字进行处理。 由于语言文字是人类交流沟通的最基本方式,因此 NLP 也是最典型的 AI 领域之一。 如果你也想搭上 NLP 这趟快速发展前景广阔的列车,推荐你参与 《京东 NLP 企业项目实战训练营》 ,项目专注于培养行业 TOP 10% 的 NLP 工程师。 之所以愿意推荐给我的粉丝,是因为看好项目里的 3大京东AI企业项目及数据 ,下面我会逐一为大家介绍。 《 京东NLP企业项目实战训练营 》 专注于培养行业TOP10%的NLP工程师 对课程有意向的同学 添加课程顾问小姐姐微信 报名、课程咨询 👇👇👇 01 京东NLP项目内容详解 ▲若对本课程项目内容有疑惑可观看本视频哦 02 科学的实战安排 每一期的训练营都有严谨科学的安排,每周伴随着理论、实战、案例分享、项目讲解等课程一系列课程内容。 ▲节选至部分课程安排 03 项目讲解&实战帮助 训练营最终的目的是帮助学员完成项目,理解项目中包含核心知识技能,训练营中会花大量的时间帮助学员理解项目以及所涉及到的实战讲解。 ▲节选课程项目 04 最佳工程实战 来自京东AI等业界专家来讲述工业界的最佳工程实战,如AI模型的部署、代码编写、模型的调参以及debug等技术。 ▲源自京东智联云AI某模块架构图 05 专业的论文解读 作 为AI工程师,阅读论文能力是必须要的。在课程里,我们每1

【译】深度双向Transformer预训练【BERT第一作者分享】

徘徊边缘 提交于 2020-11-10 01:51:49
翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练 词嵌入是利用深度学习解决自然语言处理问题的基础。<div align=center><img src="https://img2018.cnblogs.com/blog/1135245/201902/1135245-20190213113114332-1584404544.png" /></div> 词嵌入(例如word2vec,GloVe)通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中,由于 king 和 queen 附近的上下文时常相同或相似,那么在向量空间中,这两个词的距离较为接近。<div align=center><img src="https://img2018.cnblogs.com/blog/1135245/201902/1135245-20190213113201532-413625814.png" /></div> 语境表示 问题:通常的词嵌入算法无法表现一个词在不同语境(上下文)中不同的语义。例如 bank 一词在下列两个句子中有着不同的语义,但是却只能使用相同的向量来表示。<div align=center><img src="https://img2018.cnblogs.com/blog/1135245/201902/1135245

字节跳动AI Lab秋招提前批已经过半啦,还没上车的小伙伴抓紧了!

只谈情不闲聊 提交于 2020-11-10 01:45:19
1. 我们是谁? 字节跳动AI Lab,成立于2016年,致力于开发为字节跳动内容平台服务的创新技术,不仅仅是进行理论研究,我们的想法还可以通过实验证明和快速跟踪用于产品部署。 人工智能涉及的研究领域极多,我们重点关注以下领域:自然语言处理、计算机视觉、机器学习、系统&网络、计算机图形&增强现实、安全&隐私、语音与音频、数据挖掘 。公司平台的庞大用户群确保了有价值的用户数据的持续流入,这有助于我们改进现有模型,研发新的应用程序来提高用户体验。 我们拥有处于世界领先水平的研究人员,也致力于成为最聪明学生的教育中心,发挥他们无限的潜力。发表论文、发表演讲、参加会议,我们立志能够成为学术界积极的参与者。我们的科学家不是停留在封闭实验室的传统布局中,而是嵌入到整个组织,工程团队随时可以快速有效地大规模部署他们的最佳创意。 官网链接:https://ailab.bytedance.com/ 2. 福利待遇 就近住房补贴,用五环外的租房成本住在北三环城中心; 六险一金,入职即送年假7天,带薪病假高达8天,附带年度体检(仅限全职员工); 免费三餐自助,节省时间可选择盒饭,减肥健身可选择健康餐; 免费健身房和康体娱乐中心; 下午茶,零食水果、咖啡牛奶统统不限量👇 3. 投递方式 点击下方图片,长按扫描二维码。 点击阅读原文 , 直接去官网投递,记得输入我的内推码哦~ 本文分享自微信公众号 -

一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)

五迷三道 提交于 2020-11-10 00:27:32
作者|Stan Kriventsov 编译|Flin 来源|medium 在这篇博文中,我想在不作太多技术细节的情况下,解释其作者提交给2021 ICLR会议的新论文“一张图等于16x16个字:用于大规模图像识别的变压器”的意义(目前为止匿名)。 另一篇文章中,我提供了一个示例,该示例将这种新模型(称为Vision Transformer,视觉变压器)与PyTorch一起用于对标准MNIST数据集进行预测。 自1960年以来深度学习(机器学习利用神经网络有不止一个隐藏层)已经问世,但促使深度学习真正来到了前列的,是2012年的时候AlexNet,一个卷积网络(简单来说,一个网络,首先查找小的图案在图像的每个部分,然后尝试将它们组合成一张整体图片),由Alex Krizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。 AlexNet: https://en.wikipedia.org/wiki/AlexNet ImageNet图像分类竞赛: https://en.wikipedia.org/wiki/ImageNet 在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-100