自然语言处理

拿下60亿流量的《惊雷》都是哪些人在听?python帮你统计出来

末鹿安然 提交于 2020-04-26 13:28:34
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者: 听不来喊麦的C君 PS:如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦! 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐。 最近,一首《惊雷》的喊麦歌曲在短视频平台火了,震惊了整个音乐圈。 但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌,要旋律没旋律,要节奏没节奏,要律动没律动”,评价其“难听”、“俗气”。 4月11日,MC六道以原唱者的身份对杨坤的指责做出回应表示,音乐没有高低之分,称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。 那么《惊雷》这首歌到底怎么样?都是哪些人在听?今天我们就用Python来给你解读。 01 拿下60亿流量 喊麦歌曲《惊雷》火了! 说道喊麦,作为近年来一种新兴的表演形式,其内容和表达方式则比较简单和浮夸,主要形式是在网上下载一些伴奏(以电音伴奏为主),跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。 更简单的说法就是,演唱时不讲究什么技法,带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉

百度架构师手把手教深度学习 | 一些心得体会

耗尽温柔 提交于 2020-04-26 07:42:47
目录 前情摘要 心得体会 题外感言 前情摘要 关于课程: 机缘巧合,看到认识的leader(xiangyang老师)开课,因原本就欣赏xiangyang老师的能力,所以抱着再次夯实基础的心态参加了 NLP+ 推荐这个部分的课程。 关于我本人: 在NLP领域野蛮生长的中科院信工所研二学生一枚,最终拿到了第三名的成绩。 心得体会 我最开始接触到paddle,缘由研一的深度学习课与paddle的合作。当时课程中的每个同学都在AI studio获得了课程资格和算力,可以方便地学习和实践。 回归 这次课程 本身,我并不是一个0基础的NLPer,但在这次课程学习中,发现自己对一些很基础的东西存在误解,所以首先在此感谢xiangyang老师的耐心纠正(虽然他不是直接来纠正我的)。在自己学习NLP的过程中,一直倍受大牛们的思想影响。 思想的影响 在我看来是十分重要的。一个人的思维方式可以决定其在研究领域的种种决策和行为。 就课程的内容来说,属于 量少质高 的。从我自己学习的角度来讲,我认为这样总是好过量大但每个点都泛泛而谈的课程的。 就课程附带的比赛来说,在课程老师和其他同学的分享中,我学到了很多自己之前没有去注意到的方法,在此要感谢课程为我们提供了一个 高效交流分享 的平台。 此外,对于比赛,极力推荐 PaddlePALM: 一个灵活,通用且易于使用的NLP大规模预训练和多任务学习框架 和

新冠肺炎肆虐,看机器学习如何大展手脚,更有效地协助医药研发

余生长醉 提交于 2020-04-23 23:16:58
  Pro 2020-04-22 12:51:35   机器之心分析师网络    作者:仵冀颖    编辑:Joni Zhong    数月以来,COVID-19 病毒在全球范围内肆虐。建立在数十年来对冠状病毒家族特征的基础研究之上,科学界对最近的 COVID-19 病毒爆发作出了快速反应,众多前沿实验室开放共享关于病毒的基因组数据库,从而使得研究人员能够快速开展针对这种新病原体的测试。本文以DeepMind开发的AlphaFold System为引子,探讨了机器学习领域的一个专门方向,即如何利用机器学习协助药物开发。希望为有志于此的读者提供一份参考性指南。      最近,Deepmind 发布了利用其基于机器学习的 AlphaFold System 所实现的与引起 COVID-19 的病毒有关的蛋白质结构的预测结果 [25][26]。DeepMind 强调,这些结构预测尚未得到实验验证,但希望它们能有助于科学界解释病毒是如何发挥作用的,以及为今后开展治疗学的实验工作提供一个假设的生成平台。我们知道,了解病毒的蛋白质结构是了解其功能的重要资源,但受限于复杂的蛋白质结构和实验流程,确定蛋白质结构的实验可能需要数月或更长的时间。为此,研究人员一直在开发从氨基酸序列预测蛋白质结构的计算方法。   这次,DeepMind 的工作(AlphaFold)是在没有类似蛋白质的结构可用时

2020年最新版 5.0程序员 黑马python人工智能数据分析机器学习软件测试全栈开发

人走茶凉 提交于 2020-04-23 15:31:39
阶段一: 5.0课程资料 收起 第一章: 1-Python基础语法v5.0 第二章: 2-面向对象编程v5.0 第三章: 3-linux命令v5.0 第四章: 4-多任务编程v5.0 第五章: 5-web服务器v5.0 第六章: 6-web前端开发基础v5.0 第七章: 7-MySQL数据库v5.0 第八章: 8-mini-web框架v5.0 第九章: 9-django框架v5.030% 第十章: 10-美多商城v5.035% 第十一章: 11-DRF框架v5.080% 第十二章: 12-美多商城后台v5.014% 第十三章: 13-项目部署v5.0 第十四章: 14-flask框架v5.0 第十五章: 15-黑马头条v5.0 第十六章: 16-人工智能基础v5.07% 第十七章: 17-推荐系统基础v5.0 第十八章: 18-黑马头条推荐系统v5.0 第十九章: 19-python测试v5.0 第二十章: 20-python运维v5.0 第二十一章: 21-NLP自然语言处理v5.0 第二十二章: 22-深度学习与机器视觉v5.0 第二十三章: 23-数据分析课程 第二十四章: 24-爬虫v5.0 微信:17679412046 来源: oschina 链接: https://my.oschina.net/u/4312789/blog/3434281

新冠肺炎肆虐,看机器学习如何大展手脚,更有效地协助医药研发

十年热恋 提交于 2020-04-23 10:06:57
数月以来,COVID-19 病毒在全球范围内肆虐。建立在数十年来对冠状病毒家族特征的基础研究之上,科学界对最近的 COVID-19 病毒爆发作出了快速反应,众多前沿实验室开放共享关于病毒的基因组数据库,从而使得研究人员能够快速开展针对这种新病原体的测试。本文以DeepMind开发的AlphaFold System为引子,探讨了机器学习领域的一个专门方向,即如何利用机器学习协助药物开发。希望为有志于此的读者提供一份参考性指南。 机器之心分析师网络, 作者:仵冀颖,编辑:Joni Zhong。 最近,Deepmind 发布了利用其基于机器学习的 AlphaFold System 所实现的与引起 COVID-19 的病毒有关的蛋白质结构的预测结果 [25][26]。DeepMind 强调,这些结构预测尚未得到实验验证,但希望它们能有助于科学界解释病毒是如何发挥作用的,以及为今后开展治疗学的实验工作提供一个假设的生成平台。我们知道,了解病毒的蛋白质结构是了解其功能的重要资源,但受限于复杂的蛋白质结构和实验流程,确定蛋白质结构的实验可能需要数月或更长的时间。为此,研究人员一直在开发从氨基酸序列预测蛋白质结构的计算方法。 这次,DeepMind 的工作(AlphaFold)是在没有类似蛋白质的结构可用时,利用称为「自由模型」的机器学习模型精确预测蛋白质结构。一般情况下

【EasyDL Pro】中草药材AI识别师

懵懂的女人 提交于 2020-04-23 01:48:22
中医药发展已经上升到国家战略高度,中医药AI创新是五千年中医瑰宝的传承利器。2018年我国中药市场规模达到2700亿元,未来5年将达到2万亿元。国内原料药和制剂厂有3994家,其中中药企业2080家。中药强调“道地药材”,经调查药用植物有383科,2039属,11146种(以上内容来自:http://www.yikumed.com/solution/13.html)。 本次使用 EasyDLPro 图像分类对164种中草药材,18种功能类型(清热药,解表药,补虚药,平肝息风药,化湿药,利水渗湿药,温里药,理气药,消食药,止血药,活血化瘀药,化痰止咳平喘药,安神药,收涩药,开窍药,外用药,祛风湿药,泻下药)进行深度学习模型训练,数据集达25w+,基于 paddle-fluid-v1.6.2 通过 ResNet50 网络训练。分类精度均达到85.8%以上,平均每次鉴别仅耗时2-5秒,已经达到很好的水平。结合现代深度学习反向传播提高精准度,为生产过程中错综复杂的参数条件找到最优方案。 什么是EasyDL EasyDL 是基于飞桨框架 PaddlePaddle 推出的面向企业开发者打造的一站式 AI 开发平台,提供从数据管理与标注、模型训练、服务部署的全流程支持,内置丰富的预训练模型,全面支持飞桨 Master 模式;模型训练效果好、训练效率高,并且有完善安全的数据服务,支持端、云

Python爬虫之PyQuery使用(六)

二次信任 提交于 2020-04-22 07:36:41
Python爬虫之PyQuery使用 PyQuery简介 pyquery能够通过选择器精确定位 DOM 树中的目标并进行操作。pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。 初始化 有 4 种方法可以进行初始化: 可以通过传入 字符串、lxml、文件 或者 url 来使用PyQuery from pyquery import PyQuery as pq from lxml import etree d = pq("<html></html>")#传入字符串 d = pq(etree.fromstring("<html></html>"))#传入lxml d = pq(url='http://baidu.com/') #传入url d = pq(filename=path_to_html_file) #传入文件    基本CSS选择器 html=''' <html> <body> <ul class="mh-col"> <li class="g-ellipsis"> <a class="g-a-noline" data-md='{"b":"list","p":"1-1"}' href="https://www.so.com/s?ie=utf-8&src=know

######文本特征提取

跟風遠走 提交于 2020-04-21 16:57:46
在自然语言处理中我们把文本数据变成向量数据,在向量数据中我们可以得到很多来自于文本数据当中的语言特性,这种方式叫做文本表示或文本特征构造。 文本特征的通用信息源 文本分类问题当中的对象 词:在英文文本处理当中面对的是单个词组用空格隔开容易区分,在中文文本当中需要通过特定的词库如python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。 文本:一般需要判断一段话当中他的情感状况、它是正面或反面、中立之类的问题或者如判断邮件是否为垃圾邮件之类的,或者会给出一个词或文本判断两个文本的相似性 如何构建NLP特征 直接可观测特征 单独词特征:如果观测独立与上下文的词语时一般关注它的时态(ed、ing)前缀(un、字母大写),如何找到他的词元、关注他在文本中出现的次数。 文本特征:主要考虑一个句子、一个段落或一篇文本时,观察到的特征是词在文本中的数量和次序。 文本表示 文本表示,简单的说就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量,就是文本表示的核心问题。 文本表示的好处是什么? 根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或者向量化。 便于机器学习。 不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程

传百度要与阿里、腾讯争夺在线办公市场?“百度Hi”开放520人同时在线音视频会议

无人久伴 提交于 2020-04-21 12:52:27
在线办公市场紧张持续火热。4月20日,百度旗下在线办公平台“百度Hi”再升级,正式发布业内大规模的520人音视频会议,并支持多入口快速入会,加码在线办公。另有消息称,4月底,百度在线办公平台将发布重磅升级,加入知识管理功能。 百度Hi于2008年推出,此前一直作为百度公司的内部办公协同软件,服务百度公司数万员工。疫情期间,企业远程办公需求骤增,百度于2月宣布开放百度Hi,并对湖北等疫区企业免费提供高清音视频会议、企业云盘、企业IM和应用中心平台等多项服务,以支持企业快速恢复生产能力,减少疫情对于企业和社会等经济影响。 此次,百度Hi再次升级,将多人音视频会议这一刚需的同时在线人数提升至520人。这一功能解决了企业、学校、政府对于大型在线会议的需求,适用于企业培训、大型线上公开课等多种场景。 同时,百度Hi推出多入口快速入会功能,为办公场景下的线上通讯带来“新玩法”。升级后的百度Hi支持电话专项功能入口、日程详情入口、会议邀请卡片入口、会议链接等多个入口,一键快速入会。其中,会议链接入口源自于百度Hi在疫情期间升级的免费web视频会议系统,会议组织者在百度Hi上创建会议链接后,其他参会人员无需安装百度Hi客户端,点击链接就可以加入视频会议。这一功能规避了同类产品进行多人视频会议时,需要提前安装APP、注册、加好友等繁琐步骤,并且没有时间地点、电脑手机设备切换的限制。

第六章-逻辑回归与最大熵模型

孤人 提交于 2020-04-21 08:52:52
逻辑斯谛回归是统计学习中的经典分类方法,和最大熵模型相比,具有以下的共同点和区别: 共同点 都属于 概率模型 ,该模型要寻找的是给定一个x,得到输出变量Y的概率分布P(Y|x),如果是二分类,Y取值为0或1,如果是多分类,Y有K个不同的类别。 都属于 对数线性模型 ,对概率分布P(Y|x)取对数,可得lnP(Y|x)=w * x关于x的线性函数。 两个模型之前的区别是 Logistic回归属于判别模型 , 最大熵模型属于生成模型 。在最大熵模型中,不仅x有随机性,Y也具有随机性,是一个随机变量。 Logistic回归模型(Logistic Regression Model) 给定输入变量 ,输出变量为 ,将 的概率记作 ,我们已经知道该模型是一个线性模型,可以用 线性 函数来表示,由于 ,那么要如何将 与 对应起来呢?这就需要用到一个变换,该变换称为 Logit变换 。 Logit变换: ,这个就是Logistic回归模型的一个形式。 ,其中 就是给定 的条件下, 的概率。 所以可得下面两个公式:   有了这个模型之后,需要求解参数 ,一旦求出 ,那么任意给定一个输入变量 ,就可以得到 的概率,如果该概率值大于0.5,就将该类判定为1,如果小于0.5,将该类判定为0。   求解 使用的方法是 极大似然估计 ,给定参数 ,求样本的联合概率密度,最大化该联合概率,从而求出参数 。 已知