kaggle

Read dataset from Kaggle

 ̄綄美尐妖づ 提交于 2020-08-09 08:13:15
问题 I am trying to download data into R from Kaggle using the below command. The datasets I am trying to download are located here. library(httr) dataset <- GET("https://www.kaggle.com/api/v1/competitions/data/download/10445/train.csv", authenticate(username, authkey, type = "basic")) The variable dataset is of type "application/zip" . Can someone help me get the csv file from inside the link?(I used http_type(train) Please let me know if my question is unclear Edit: Included library name based

PyTorch实现用于文本生成的循环神经网络

馋奶兔 提交于 2020-08-08 08:30:26
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理(NLP)有很多有趣的应用,文本生成就是其中一个有趣的应用。 当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时,它们可以生成输入文本的下一个序列。 PyTorch提供了一组功能强大的工具和库,这些工具和库为这些基于NLP的任务增添了动力。它不仅需要较少的预处理量,而且加快了训练过程。 在本文中,我们将在PyTorch中训练几种语言的循环神经网络(RNN)。训练成功后,RNN模型将预测属于以输入字母开头的语言的名称。 PyTorch实现 这个实现是在Google Colab中完成的,其中的数据集是从Google驱动器获取的。所以,首先,我们将用Colab Notebook安装Google驱动器。 from google.colab import drive drive.mount('/content/gdrive') 现在,我们将导入所有必需的库。 from __future__ import unicode_literals, print_function, division from io import open import glob import os import unicodedata import string import

大佬整理的Python数据可视化时间序列案例,建议收藏(附代码)

て烟熏妆下的殇ゞ 提交于 2020-08-08 05:33:11
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 时间序列 1、时间序列图 时间序列图用于可视化给定指标如何随时间变化。在这里,您可以了解1949年至1969年之间的航空客运流量如何变化。 # Import Data df = pd.read_csv( ' https://github.com/selva86/datasets/raw/master/AirPassengers.csv ' ) # Draw Plot plt.figure(figsize=(16,10), dpi= 80 ) plt.plot( ' date ' , ' traffic ' , data=df, color= ' tab:red ' ) # Decoration plt.ylim(50, 750 ) xtick_location = df.index.tolist()[::12 ] xtick_labels = [x[-4:] for x in df.date.tolist()[::12 ]] plt.xticks(ticks =xtick_location, labels=xtick_labels, rotation=0, fontsize=12, horizontalalignment= ' center ' ,

万物皆可 Serverless 之我的 Serverless 之路

女生的网名这么多〃 提交于 2020-08-08 04:29:25
缘起 本文来自 Serverless 社区用户「乂乂又又」投稿 我最早接触 Serverless 大概是在 18 年 6 月,那时候我在阿里云的学生机刚好到期,那台机子上我有装宝塔面板,然后在上面只放了一个 Typecho 的个人博客站,好像这台服务器似乎一直都是被我拿来当作虚拟主机用,最多也只是登上宝塔面板清一下内存这样子,所以,在我阿里云一年的学生机到期之后,我就果断选择了放弃续费服务器。从那时起我就变成了一个彻底的 Severlesser。 首先是之前的静态网页的问题,这个解决起来比较简单,随便找一个对象存储或者 pages 服务就可以搞定。 这里我是把自己那些静态网页都放到了 Coding pages 上,除了某些时候某些地区某些运营商的网络访问会不稳定之外,其他的一切都让我觉得 coding 的 pages 服务都是做的非常棒的。 然后是 Typecho 博客问题,这个问题还是比较让人头大的,因为像这种动态的博客系统是很少有 pages 服务支持的,所幸在那个时候 coding 有一个动态 pages 的服务是允许个人发布动态博客的,包括 Wordpress 和 Typecho 之类,只可惜现在 coding 已经把动态 pages 的服务给去掉了,而我的之前放在 coding 上的动态博客现在也已经被归档了。 我也错过了 cloud studio 升级的提醒通知

R语言汇总

痞子三分冷 提交于 2020-08-08 02:45:27
R环境搭建 下载安装 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ RStudio下载安装 https://www.rstudio.com/products/rstudio/download/#download R语言的数据结构 对象的5种基本类型 属性 资源 学习 R 的方法 知识和耐心,是成为强者的唯一方法。 通过阅读来学习。 包括了阅读经典的教材、代码、论文、学习公开课。 通过牛人来学习。 包括同行的聚会、讨论、大牛的博客、微博、twitter、RSS。 通过练习来学习。 包括代码练习题、参加kaggle比赛、解决实际工作中的难题。 通过分享来学习。 包括自己写笔记、写博客、写书、翻译书,和同伴分享交流、培训新人。 阅读清单 一、初学入门: 《R in Action》 从统计角度入手,分高中低三部分由浅入深的讲解了如何用R来实现统计分析。 《The Art of_R Programming》 从程序编写的角度入手,对R的本身特点进行了清晰的介绍。 《learning R》 这本书没有单纯的讲语法,而是和数据分析的流程结合了起来,从数据获取到数据整理再到分析和报告,有一气呵成的感觉,此外最后两章讲如何写稳健的R代码以及写包都是非常精彩的。 二、统计进阶: 《A Handbook of Statistical Analyses_Using

用于多文本分类的孪生和双 BERT

爷,独闯天下 提交于 2020-08-07 21:26:41
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 本文介绍了在模型中插入 Transformer 的不同方法。 人们对自然语言处理的不断研究催生了各种预训练模型的发展。在各种任务(如文本分类、无监督的主题建模和问题解答等)的最新结果方面,通常都有越来越多的改进,这是一个典型的现象。 最大的发现之一是在神经网络架构中采用了注意力机制(attention mechanics)。这种技术是所有称为 Transformer 的网络的基础。它们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到学习向量中。 作为数据科学家,我们可以产生并使用许多 Transformer 架构来对我们的任务进行预测或微调。在本文中,我们尽情享受经典的 BERT,但同样的推理也可以应用到其他所有的 Transformer 架构中。我们的研究范围是在双(dual)架构和孪生(siamese)架构中使用 BERT,而不是将其作为多文本输入分类的单一特征提取器。 数据 我们从 Kaggle 收集了一个数据集: News Category Dataset (新闻分类数据),它包含了 2012 年到 2018 年从 HuffPost 获得的大约 20 万条新闻标题。我们的范围是根据两种不同的文本来源对新闻文章进行分类:标题和简短描述。总共有 40

重磅! 2020年最新计算机视觉学习路线教程

 ̄綄美尐妖づ 提交于 2020-08-07 10:02:00
这篇文章主要是基于我自己的经验,侧重于计算机视觉学习资源的介绍,如果大家按照这个路线去学,相信这将在很大程度上促进提高你的计算机视觉知识水平。 在开始学习计算机视觉之前,我们先来了解有关机器学习和python基础知识。 框架(Frameworks) 虽然你不必从一开始就去考虑选择何种框架,但是实践应用新的知识是必要的。 对应框架并没有太多选择,主要为: pytorch 或 keras (TensorFlow)。Pytorch可能需要编写更多代码,但在返回方面具有很大的灵活性,因此我们可以先学习如何使用pytorch。此外,大多数深度学习研究人员也普遍使用pytoch。 Albumentation (图像增强库)和 catalyst (框架,pytorch顶部的高级API)在我们学习计算机视觉的过长中也是很常用的工具,我们也可以先学习和使用它们,尤其是第一个。 硬件 Nvidia GPU 10xx +:($ 300 +) Kaggle内核(免费) :每周仅30个小时 ( https://www.kaggle.com/kernels) Google Colab(免费):12小时的会话限制,每周限制的使用时长不定 ( https://colab.research.google.com/notebooks/intro.ipynb#recent=true) 理论与实践 在线课程

使用随机森林做特征选择

隐身守侯 提交于 2020-08-07 08:36:50
目录 一、介绍 二、实验 2.1 实验数据 2.2 特征选择 一、介绍 随机森林模型不仅在预测问题上有着广泛的应用,在特征选择中也有一定的应用,这是因为,随机森林模型在拟合数据后,会对数据属性列,有一个变量重要性的度量,在sklearn中即为随机森林模型的 feature_importances_ 参数, 这个参数将返回一个numpy数组对象 ,数组里的元素对应为随机森林模型在拟合后认为的所给训练属性列的重要程度,是数值类型数据,数组中元素之和为1。 变量重要性度量数组中,数值越大的属性列对于预测的准确性更加重要。 二、实验 2.1 实验数据 这里选用 kaggle 上的入门比赛, Housing Prices Competition for Kaggle Learn Users 的数据集作为实验对象,这是一个预测房价的回归问题,数据集如下: 这个数据有81个属性列,1460条数据。 2.2 特征选择 载入数据 #getData函数为自定义的函数,其实就是调用了pandas的read_csv函数 train, test = getData('./data/train.csv', './data/test.csv') 1. 使用皮尔逊相关系数选择特征 #根据皮尔逊相关系数选择与要预测的属性列SalePrice相关性最高的10个属性 #[:11]

Python数据分析实战:大(zhuang)佬(bi)级别数据预处理方式

做~自己de王妃 提交于 2020-08-06 21:08:26
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨琥珀里有波罗的海 https://zhuanlan.zhihu.com/p/146906814 前言 之前写的文字都比较干,每篇文章都是篇幅巨长,恨不得一篇文章把一个数据集从入手到预测完成全部覆盖。这里面还要加上自己的“思路”和“弯路”。 这次我们专门挑了一份烂大街的数据集Titanic(后台回复: Titanic 即可获取),写了一点关于数据预处理部分,但是代码风格却是大(zhuang)佬(bi)级别。很明显,我不是大佬,不过是有幸被培训过。 说到预处理,一般就是需要: 数字型缺失值处理 类别型缺失值处理 数字型标准化 类别型特征变成dummy变量 Pipeline 思想 在做数据处理以及机器学习的过程中,最后你会发现每个项目似乎都存在“套路”。所有的项目处理过程都会存在一个“套路”: 预处理 建模 训练 预测 对于预处理,其实也是一个套路,不过我们不用pipeline 函数,而是另一个FeatureUnion函数。 当然一个函数也不能解决所有问题,我们通过实战来看看哪些函数以及编码风格能让我们的代码看起来很有条理并且“大(zhuang)佬(bi)”风格十足。 导入数据开启实战 今天我们分析的titanic 数据

全网唯一秃头数据集:20 万张人像,网罗各类秃头

*爱你&永不变心* 提交于 2020-08-05 11:31:44
见过对植物图片数据集的,也见过对名人人脸数据集,但你见过专门针对「秃头党」进行分类和识别的吗? 一位印度学生 Ashish Jangra ,最近在 Kaggle 上发布了一个名为「Bald Classification Dataset」的数据集。 没错,就是这个「秃头」 据介绍,Bald Classification Dataset(秃头数据集)由 Ashish Jangra 于今年 5 月发布。 数据集中包含 20 万张光头人像的图像,分为测试集、训练集、验证集 三个文件夹,每个文件夹也包括 Bald 和 NotBald 两种图像。 数据集样例截图 其中秃头人像数据集的来源,主要是欧美公众人物,包含政商界、娱乐圈、体育界人士。 Bald Classification Dataset 发布人员: Ashish Jangra 包含数量: 20 万张秃头人像 数据格式: JPG 数据大小: 1.3 G 发布时间: 2020 年 5 月 下载地址: https://hyper.ai/datasets/12385 数据集作者:发量惊人的印度小哥 发布者 Ashish Jangra 也是个停不下来的人。他是一位 95 后,2016 年开始就读于 Lovely Professional University(印度拉夫里科技大学)的计算机专业。 发量惊人的数据集作者,哼! 通过 Udacity