kaggle

各领域公开数据集下载

老子叫甜甜 提交于 2020-08-11 19:17:10
使用的数据集 THCHS30 是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开发中文语音识别系统。 为了感谢这几位大神,我是跪在电脑前写的本帖代码。 下载中文语音数据集(5G+): 1 2 3 4 5 6 7 $ wget http : / / data .cslt .org / thchs30 / zip / wav .tgz $ wget http : / / data .cslt .org / thchs30 / zip / doc .tgz $ wget http : / / data .cslt .org / thchs30 / zip / lm .tgz # 解压 $ tar xvf wav .tgz $ tar xvf doc .tgz $ tar xvf lm .tgz 在开始之前,先好好检视一下数据集。 训练 金融 美国劳工部统计局官方发布数据 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票 深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票 深证创业板日线数据,截止

重磅! 2020年最新计算机视觉学习路线教程

浪子不回头ぞ 提交于 2020-08-11 10:38:57
这篇文章主要是基于我自己的经验,侧重于计算机视觉学习资源的介绍,如果大家按照这个路线去学,相信这将在很大程度上促进提高你的计算机视觉知识水平。 在开始学习计算机视觉之前,我们先来了解有关机器学习和python基础知识。 框架(Frameworks) 虽然你不必从一开始就去考虑选择何种框架,但是实践应用新的知识是必要的。 对应框架并没有太多选择,主要为: pytorch 或 keras (TensorFlow)。Pytorch可能需要编写更多代码,但在返回方面具有很大的灵活性,因此我们可以先学习如何使用pytorch。此外,大多数深度学习研究人员也普遍使用pytoch。 Albumentation (图像增强库)和 catalyst (框架,pytorch顶部的高级API)在我们学习计算机视觉的过长中也是很常用的工具,我们也可以先学习和使用它们,尤其是第一个。 硬件 Nvidia GPU 10xx +:($ 300 +) Kaggle内核(免费) :每周仅30个小时 ( https://www.kaggle.com/kernels) Google Colab(免费):12小时的会话限制,每周限制的使用时长不定 ( https://colab.research.google.com/notebooks/intro.ipynb#recent=true) 理论与实践 在线课程

图像处理开源数据集

戏子无情 提交于 2020-08-11 09:02:54
(1)手写数字识别 训练集:60000个 测试集:10000个 下载链接: http://yann.lecun.com/exdb/mnist/ (2)猫狗分类 下载链接: https://www.kaggle.com/c/dogs-vs-cats/data (3)花卉识别 下载链接: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html (4)imageNet 下载链接: http://www.image-net.org/ 来源: oschina 链接: https://my.oschina.net/u/4311641/blog/4304712

全球大神集结,首届“马栏山杯”国际音视频算法大赛你最PICK谁?

大憨熊 提交于 2020-08-11 07:35:42
  经过一个多月的角逐,首届 “马栏山杯” 国际音视频算法大赛赛程接近尾声,竞争也进入白热化阶段。这场由中国工业与数学应用学会指导,湖南省互联网信息办公室、湖南省科学技术协会主办,中国(长沙)马栏山视频文创产业园、芒果 TV 承办的算法大赛,吸引了各路算法界的 “英雄豪杰” 纷至沓来。   大赛汇聚了来自麻省理工学院、卡耐基梅隆大学、加州大学圣地亚哥分校、哥伦比亚大学、北京大学、清华大学、上海交通大学、浙江大学、中国科学院等全球知名高校、重要科研院所、知名互联网企业团队的 1000 多支战队。   高手齐聚,谁能称王?这就为大家揭开部分战队的神秘面纱,一起围观他们都有哪些 “开挂技能” 驰骋算法江湖吧!    No.1      这是一位来自中科院自动化研究所的学霸——“ 豆豆大作战” 。他“静如处子动如脱兔”,静能输出学术论文,累计发表了包含 CCF 在内的 10 余篇论文;动能篮球、徒步、皮划艇,堪称动静皆宜、能文能武。    战绩:   VOT-2018 视觉目标跟踪挑战赛实时组第一名   DAVIS-2019 无监督视频目标分割挑战赛第二名   Youtube-VIS 视频目标分割挑战赛第二名   CCF-A 类论文 8 篇    No.2      身为海归的“ 炸米饼啊” ,拥有英国伦敦大学学院(University College London

七月算法机器学习 6 特征工程 小案例

三世轮回 提交于 2020-08-11 05:09:38
目录 加载数据 把datetime域切成 日期 和 时间 两部分 处理时间数据 统计一周各天的情况 一周各天的租赁情况 删除一些字段 特征向量化 标准化连续值特征 类别特征编码 把特征拼一起 Kaggle上有这样一个比赛: 城市自行车共享系统使用状况 。 https://www.kaggle.com/c/bike-sharing-demand 提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成 加载数据 #先把数据读进来 import pandas as pd data = pd.read_csv('kaggle_bike_competition_train.csv', header = 0, error_bad_lines=False) 把datetime域切成 日期 和 时间 两部分 # 处理时间字段 temp = pd.DatetimeIndex(data['datetime']) data['date'] = temp.date data['time'] = temp.time data.head() 处理时间数据 时间那部分,好像最细的粒度也只到小时,所以我们干脆把小时字段拿出来作为更简洁的特征 # 设定hour这个小时字段 data['hour'] = pd.to_datetime(data.time,

别犯这5个数据科学家常见错误,你就已经一只脚迈进FAANG了

给你一囗甜甜゛ 提交于 2020-08-11 02:59:14
你为最终成为一名数据科学家做了充分准备。你参加了Kaggle的比赛,疯狂地看了Coursera的课程。 你觉得自己准备好了,但事实将证明,作为一名现实生活中的数据科学家的工作与你可能预期的大相径庭。 这篇文章检验了早期数据科学家的5个常见错误。 榜单是由Sebastien Foucaud博士发布的,他在指导和领导学术界和工业界的年轻数据科学家方面有20年的经验。这篇文章旨在帮助你在现实生活中更好地准备你的工作。 让我们开始吧。 ‍ 1. 进入“Kaggle时代“ Source: http:// kaggle.com on June 30 18. 你已经参与了Kaggle挑战并练习了你的数据科学技能。 你可以把决策树和神经网络叠在一起,这很好。说实话,你不会像数据科学家那样做那么多的模型堆积工作。请记住,作为一般规则,你将花费80%的时间预处理数据,其余20%的时间构建模型。 成为“Kaggle时代”的一份子在很多方面都很有帮助。数据通常得到完美的清理,以便你可以花时间调整你的模型。但在实际工作中很少出现这种情况,因为在实际工作中,你必须使用不同格式和命名惯例从不同来源收集数据。 你将使用80%的时间做艰苦的工作和练习技能,数据预处理。 从API中抓取图像或收集它们。收集来自Genius的歌词。准备好解决特定问题所需的数据,然后将其输入笔记本,练习机器学习的生命周期

最新计算机视觉学习路线教程

前提是你 提交于 2020-08-10 14:12:32
这篇文章主要是基于我自己的经验,侧重于计算机视觉学习资源的介绍,如果大家按照这个路线去学,相信这将在很大程度上促进提高你的计算机视觉知识水平。 在开始学习计算机视觉之前,我们先来了解有关机器学习和python基础知识。 框架(Frameworks) 虽然你不必从一开始就去考虑选择何种框架,但是实践应用新的知识是必要的。 对应框架并没有太多选择,主要为: pytorch 或 keras (TensorFlow)。Pytorch可能需要编写更多代码,但在返回方面具有很大的灵活性,因此我们可以先学习如何使用pytorch。此外,大多数深度学习研究人员也普遍使用pytoch。 Albumentation (图像增强库)和 catalyst (框架,pytorch顶部的高级API)在我们学习计算机视觉的过长中也是很常用的工具,我们也可以先学习和使用它们,尤其是第一个。 硬件 Nvidia GPU 10xx +:($ 300 +) Kaggle内核(免费) :每周仅30个小时 ( https://www.kaggle.com/kernels) Google Colab(免费):12小时的会话限制,每周限制的使用时长不定 ( https://colab.research.google.com/notebooks/intro.ipynb#recent=true) 理论与实践 在线课程

(数据科学学习手札86)全平台支持的pandas运算加速神器

强颜欢笑 提交于 2020-08-10 03:19:01
本文示例代码已上传至我的 Github 仓库 https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   随着其功能的不断优化与扩充, pandas 已然成为数据分析领域最受欢迎的工具之一,但其仍然有着一个不容忽视的短板——难以快速处理大型数据集,这是由于 pandas 中的工作流往往是建立在单进程的基础上,使得其只能利用单个处理器核心来实现各种计算操作,这就使得 pandas 在处理百万级、千万级甚至更大数据量时,出现了明显的性能瓶颈。   本文要介绍的工具 modin 就是一个致力于在改变代码量最少的前提下,调用起多核计算资源,对 pandas 的计算过程进行并行化改造的 Python 库,并且随着其近期的一系列内容更新, modin 基于 Dask 开始对 Windows 系统同样进行了支持,使得我们只需要改变一行代码,就可以在所有平台上获得部分 pandas 功能可观的计算效率提升。 图1 2 基于modin的pandas运算加速    modin 支持 Windows 、 Linux 以及 Mac 系统,其中 Linux 与 Mac 平台版本的 modin 工作时可基于并行运算框架 Ray 和 Dask ,而 Windows 平台版本目前只支持 Dask 作为计算后端(因为 Ray 没有 Win 版本)

Kaggle上线arXiv完整数据集,以促进机器学习领域的发展

无人久伴 提交于 2020-08-09 11:44:18
  如果你是一个学术达人,经常搜索学术论文,那你一定知道 arXiv 这个网站。如果你爱好数据科学,专注于机器学习,Kaggle 就会是一个非常好的选择。   arXiv 是一个始于 1991 年、目前用于收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本网站。arXiv 的存在是造就科学出版业中所谓开放获取运动的因素之一。现今的一些数学家及科学家习惯先将其论文上传至 arXiv,再提交予专业的学术期刊。无论你是在自身研究领域迅速成长的研究生,还是致力于用科研为公众提供服务的研究者,arXiv 这一丰富的信息库都可以为你提供重要、甚至难以置信的帮助。   Kaggle 则是全球最大的数据竞赛平台,也是一个主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,创建于 2010 年,并于 2017 年被谷歌母公司 Alphabet 收购。在 Kaggle 这个平台上,不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)和想要解决的问题丢上去,请平台上的数据专家来帮忙解答。Kaggle 允许用户查找和发布数据集,在数据科学环境中开发和构建模型,用户也可以与其他数据科学家和机器学习工程师合作或一起参加竞赛。   如今,为使得 arXiv 上的资源更易访问和获取,arXiv 和 Kaggle 要 “强强联合” 了。近日

Read dataset from Kaggle

不羁的心 提交于 2020-08-09 08:13:33
问题 I am trying to download data into R from Kaggle using the below command. The datasets I am trying to download are located here. library(httr) dataset <- GET("https://www.kaggle.com/api/v1/competitions/data/download/10445/train.csv", authenticate(username, authkey, type = "basic")) The variable dataset is of type "application/zip" . Can someone help me get the csv file from inside the link?(I used http_type(train) Please let me know if my question is unclear Edit: Included library name based