自然语言处理

今15年创业,享受改变的过程

一世执手 提交于 2020-08-04 10:01:15
今15年创业,享受改变的过程(新书已上架开卖) 我的新书《 编程之法 》已经上架京东、当当、亚马逊等各大网店,均已有现货销售。 1 年初开始创业 挺有意思。自去年11月写完LDA主题模型后,至今竟悄无声息的已过去大半年。其中,最主要的原因就是:今年年初正式开始了创业。 2 发布在线教育网站 很快,1月27日,我们上线了自己的在线教育网站:七月在线 http://www.julyedu.com/ 。目前专注5类 在线 课程:面试、算法、机器学习、深度学习、数据挖掘,由程、曹、周、寒等博士/BAT一线工程师授课。周末在线直播、平时集中答疑、视频反复观看。且团队最为重视内容质量,倾尽全力,不断优化。 3月31日,我们的网站 julyedu.com 上线视频功能,毫无疑问,同样只做精品视频。 更新 :截止到2018年6月4日公司三周年之际,讲师团队已超过60人,均由国内外顶级高校博士 + BAT一线技术经理,开设的课程包括:数学/算法/ml/dl/dm/spark/nlp/cv等等。一直在不断强大讲师团队、不断提高课程质量、不断服务更多人、帮助更多人。 网站截图如下: https://www.julyedu.com/ 3 七月在线科技 今年6月11日,首次对外公布公司的名字:七月在线科技,在微博上说的比较含蓄,在QQ空间则说得直截了当:我们就是要改变世界。 与此同时,6月份~7月初

“万物就只是5万亿个参数”,AI模型GPT-3让人怀疑人生

半腔热情 提交于 2020-08-04 09:37:23
本文转自开源中国 这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 “继比特币之后又一个轰动全球的现象级新技术”。 请注意,现在站在你面前的是:互联网原子弹,人工智能界的卡丽熙,算力吞噬者,黄仁勋的新 KPI ,下岗工人制造机,幼年期的天网 —— 最先进的 AI 语言模型 GPT-3。 1750 亿参数组成的训练模型 言归正传,OpenAI 的研究人员在上个月发表了一篇论文,描述了 GPT-3 的开发,正式发布了这个由 1750 亿个参数组成的 AI 语言模型。 在 NLP 领域中,通常采用 ELMo 算法的思想,即通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一种新的 ELMo 算法模型,该模型在预训练模型的基础上,只需要做一些微调即可直接迁移到各种 NLP 任务中,因此具有很强的业务迁移能力。 GPT 模型主要包含两个阶段。第一个阶段,先利用大量未标注的语料预训练一个语言模型,接着,在第二个阶段对预训练好的语言模型进行微改,将其迁移到各种有监督的 NLP 任务,并对参数进行 fine-tuning。 简而言之,在算法固定的情况下,预训练模型使用的训练材料越多

人大副教授:本科生一定要做科研吗?九大灵魂拷问

社会主义新天地 提交于 2020-07-29 10:55:31
     作者:赵鑫中国人民大学副教授 原标题:计算机系本科生开展科研学习的九问九答    学术如苦旅,我亦是行人。   写这篇文章的初衷,是与本科生的接触过程中看到了一些对于科研的困惑或者误区,所以想大概介绍一下本科生的科研之路第一脚该从哪里走起。所以本篇文章的定位不是侧重学术性,也不会侧重于教育性,而是一些个人经验的分享。   由于是个人的经验,希望大家带着批判的角度去读,但是兼听则明,很愿意和各位本科生做进一步的交流。全文写的比较口语,尽量不包含学术名词。   话不多说,下面我开始自问自答。 1. 本科阶段一定要科研吗?   我自己大概是在大三下学期真正开始接触科研。大三上学期之前,如果不是学有余力,不建议太早开展科研,除非已经有了较强的动手能力。本科生教学的核心目标,不是以培养能够发表A类论文的同学为最终目标。我始终也不认为,一位同学如果本科阶段能够发A类论文就意味着绝对的强、绝对的适合做科研。相反,我强烈建议大一大二的同学一定把课程学好。本科的课程体系非常丰富,而研究生逐渐聚焦。要利用好本科的时间打好基础,多看看计算机的大千世界。特别推荐每门计算机课程都尽量阅读一本国外经典教材;特别建议打好数据结构与算法的基础,尝试一些ACM或者相似性质的竞赛;特别推荐加强数学基础的学习,很多理论性的学习所带来的收益要用很长时间才能发现。   如果大一大二已经将基础打好

NLP中的自监督表示学习,全是动图,很过瘾的

江枫思渺然 提交于 2020-07-29 10:09:49
作者:amitness 编译:ronghuaiyang 其实在自监督学习的概念提出之前,NLP中就已经运用到了这一思想。 虽然计算机视觉在自监督学习方面取得了惊人的进展,但在很长一段时间内,自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在,甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式,在许多问题上应用这些自监督的方法,这个领域得到了迅速的发展。 这些自监督的方法的核心是一个叫做 “ pretext task ” 的框架,它允许我们使用数据本身来生成标签,并使用监督的方法来解决非监督的问题。这些也被称为“ auxiliary task ”或“ pre-training task “。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。 在这篇文章中,我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定,而不是实现它们的架构。 自监督的方案 1. 预测中心词 在这个公式中,我们取一定窗口大小的一小块文本,我们的目标是根据周围的单词预测中心单词。 例如,在下面的图中,我们有一个大小为1的窗口,因此我们在中间单词的两边各有一个单词。使用这些相邻的词,我们需要预测中心词。 这个方案已经在著名的Word2Vec论文的“ Continuous Bag of

1.5有哪些文本表示模型?它们各有什么优缺点?

谁说我不能喝 提交于 2020-07-29 09:53:01
05 文本表示模型 场景描述 文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领 域的一个重要研究方向。 知识点 词袋模型(Bag of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型(Word Embedding) 问题 有哪些文本表示模型?它们各有什么优缺点? 分析与解答 ■ 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对 应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重,公式 为 TF-IDF(t,d)=TF(t,d)×IDF(t) ,(1.5) 其中TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对 表达语义所起的重要性,表示为: (1.6) 直观的解释是,如果一个单词在非常多的文章里面都出现,那么它可能是一个比 较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩 罚。 将文章进行单词级别的划分有时候并不是一种好的做法,比如英文中的natural language

重磅|机器之心发布中国AI企业"智能战疫"与"疫后经营"调查报告

 ̄綄美尐妖づ 提交于 2020-07-29 09:18:41
     2020 年 2 月份,作为中国人工智能业内最具影响力的媒体及领先的生态服务机构,机器之心发起「智能战疫联合行动」(以下简称「行动」),号召人工智能技术公司、研究机构、产业方、服务机构等联合起来,将各自技术、解决方案、研究成果、产业资源和应用场景等进行有效整合配置,促进各方的优势互补和密切合作,通过技术力量和产业合作解决自身实际问题,提高产业运营效率,共同取得这场「战疫」的胜利。「行动」共吸纳 160 家人工智能技术公司、研究机构、产业方、服务机构加入,参与机构主要集中在京津冀、长三角、珠三角和川渝四大都市圈,覆盖企业服务等多个行业。   在「行动」开展的三个月间,机器之心密切跟踪并传递人工智能技术应用抗疫现场的最新进展、效果与成绩,10 家联合「行动」企业创始人亲自出马参与机器之心线上分享,为前线抗击疫情与科学复工复产提供技术支持与决策建议。作为「行动」的发起方,机器之心牵头发布 50 余篇专题原创报道;联合「行动」参与企业发布 900 余份「智能战疫」动态,推送 30 期「智能战疫」动态日报,上线近千条「智能战疫」智能化解决方案资源数据,完成数十项「智能战疫」智能化解决方案供需匹配对接服务。在所有参与机构的支持和努力下,「行动」取得了显著的阶段性效果。   随着国内疫情得到有效控制,全国各地企业正式复产。为明确疫后中国人工智能企业经营现状与发展需求

阿里云机器翻译NET使用Demo

妖精的绣舞 提交于 2020-07-29 06:16:44
概述 阿里巴巴机器翻译是由阿里巴巴匠心打造的在线智能机器翻译服务。依托领先的自然语言处理技术和海量的互联网数据优势,阿里巴巴成功上线基于注意力机制的深层神经网络翻译系统(NMT),帮助用户跨越语言鸿沟,畅享交流和获取信息,实现无障碍沟通。凭借海量数据积累及关键技术创新,在电商领域翻译质量独具优势。很多用户有在NET环境下使用机器翻译的需求,下面分别介绍使用:NET Core SDK和机器翻译封装的SDK调用机器翻译,实际使用任选其一即可。 Step By Step 机器翻译封装的SDK调用 1、SDK安装:aliyun-net-sdk-alimt 2、Code Sample using System; using Aliyun.Acs.Core; using Aliyun.Acs.Core.Exceptions; using Aliyun.Acs.Core.Profile; using Aliyun.Acs.alimt.Model.V20181012; namespace AlimtDemo { class Program { static void Main(string[] args) { IClientProfile profile = DefaultProfile.GetProfile("cn-hangzhou", "LTAIOZZgYX******",

百度人工智能技术文心(ERNIE)摘得2020世界人工智能大会最高奖项SAIL奖

末鹿安然 提交于 2020-07-29 02:36:01
7月9日,2020世界人工智能大会(WAIC)正式开幕,大会颁布最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者),百度文心(ERNIE)知识增强语义理解技术与平台获奖,百度技术委员会主席吴华上台领奖。 百度文心(ERNIE)获得SAIL奖百度技术委员会主席吴华(左四)领奖 SAIL奖是世界人工智能大会最高荣誉奖项 ,主要激励全球范围内在人工智能领域做出的方向性技术突破和应用创新,正在或将要改变未来生活的人工智能项目。本届SAIL奖共吸引来自中国、德国、美国、以色列、新加坡等多国的800个项目参与角逐,包括亚马逊、IBM、百度、腾讯、华为等头部企业项目,以及前沿的国内外科研创新、场景应用类项目。 本次获奖,也是 百度 ERNIE 首次以中文名“文心”亮相 。“文心”出自中国南朝文学家刘勰的《文心雕龙·序志》,原指用雕镂龙纹那样精细的功夫研究文字的内涵和魅力,百度借此表示用心做语义理解的决心。 自然语言处理(NLP)被称为人工智能皇冠上的一颗明珠,自然语言理解是其重要研究方向之一,在该领域的技术突破对于机器认知智能发展至关重要。文心( ERNIE )则是一个取得世界级突破的语义理解技术与平台,它 依托于百度的深度学习平台 飞桨 打造 ,将机器理解语言的水平提升到一个新的高度,为计算机带来了认知智能领域的巨大跨域。 文心( ERNIE )的核心技术优势在于

ICML 2020杰出论文新鲜出炉!道翰天琼认知智能

ぐ巨炮叔叔 提交于 2020-07-28 18:50:15
ICML 2020杰出论文新鲜出炉!昨日,国际机器学习顶会ICML 2020于“线上”公布了本届大会的杰出论文奖,获此殊荣的一共有两篇:  《Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems》,其中一作是来自北京理工的硕士生魏恺轩,其导师是北京理工大学付莹教授。   《On learning Sets of Symmetric Elements》,其中一作是英伟达的研究员Haggai Maron,2019年在魏茨曼科学研究院获得博士学位。  除了这两篇杰出论文之外,在大会开始之前,组委会就公布了时间检验奖,获奖论文是10年前的一篇ICML论文:《Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design》。组委会表示:“在过去的十年中,这篇论文对机器学习社区产生了深远的影响,包括方法本身、使用的证明技术和实验结果都经受住了考验。 两篇杰出论文奖,一篇时间检验奖都讲了啥? 认知智能未来机器人接口API简介介绍 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向

软件漏洞数据处理及分类方法总结

感情迁移 提交于 2020-07-28 18:48:30
目录 一、前言 二、软件漏洞数据分析 三、软件漏洞分类实验流程 四、软件漏洞文本预处理 五、软件漏洞文本表示方法 六、软件漏洞分类模型构建 七、软件漏洞分类实验结果与分析 八、总结 一、前言 本人基于网络空间安全研究方向做过入侵检测实验、软件缺陷分类实验、软件安全漏洞分类管理实验等,网络安全方向相关数据集可参看个人总结: 网络安全相关数据集介绍与下载 ( 具体可参看个人博客: Asia-Lee )。 本文的主要目的是为了构造一个有效的软件漏洞分类模型,该模型能有效提高软件漏洞分类管理的效率和软件漏洞分类的准确率,减少系统被攻击和破坏的风险,降低漏洞修复的成本。本文主要使用深度学习相关方法构造漏洞分类模型进行实验调研。 二、软件漏洞数据分析 实验所用数据为美国国家计算机 通用漏洞数据库(National Vulnerability Database,NVD )和 中国国家信息安全漏洞库(China National Vulnerability Database of Information Security,CNNVD) ,主要以 NVD漏洞数据库 中的漏洞数据为基准数据,本次实验使用的是从2002年到2019年5月份的NVD漏洞数据。 NVD漏洞数据库收录的漏洞数据具有唯一性,规范性,兼容性和统一性,采用国际编码语法规范,因此,可以作为软件漏洞分类研究的基准数据集