kaggle

Embedding和Word2Vec实战

[亡魂溺海] 提交于 2020-08-05 05:06:59
在之前的文章中谈到了文本向量化的一些基本原理和概念,本文将介绍Word2Vec的代码实现 https://www.cnblogs.com/dogecheng/p/11470196.html#Word2Vec Word2Vec论文地址 https://arxiv.org/abs/1301.3781 1.Embedding 与one-hot编码相比, 词嵌入可以将更多的信息塞入更低的维度中 下面我们用 Keras 完成一个词嵌入的学习,Keras 的 Embedding 层的输入是一个二维整数张量 , 形状为(samples,sequence_length),即(样本数,序列长度) 较短的序列应该用 0 填充,较长的序列应该被截断,保证输入的序列长度是相同的 Embedding 层输出是(samples,sequence_length,embedding_dimensionality) 的 三维浮点数张量 。 首先,我们需要对文本进行分词处理,然后对分词结果进行序列化 再统一输入的序列长度,最后把统一长度的序列化结果输入到 Embedding 层中 整个过程可以用下面的图描述 从样本的角度看,我们可以用下面的图描述这个过程 示意代码如下 from keras.preprocessing.text import Tokenizer from keras.preprocessing

程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

半腔热情 提交于 2020-08-05 03:25:12
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结 作者:July--结构之法算法之道blog之博主。 时间:2010年10月-2018年5月,一直在不断更新中.. 出处: http://blog.csdn.net/v_JULY_v 。 说明:本博客中部分文章经过不断修改、优化,已 集结出版成书 《 编程之法:面试和算法心得 》。 前言 开博4年有余,回首这4年,自己的研究兴趣从最初的编程、面试、数据结构、算法,转移到最近的数据挖掘、机器学习之上,而自己在本blog上也着实花费了巨大的时间和精力,写的东西可能也够几本书的内容了。然不管怎样,希望我能真真正正的为读者提供实实在在的价值与帮助。 下面,敬请观赏。有任何问题,欢迎随时不吝指正(同时,若你也能帮助回复blog内留言的任何朋友的问题,欢迎你随时不吝分享&回复,我们一起讨论,互帮互助,谢谢)。 无私分享,造福天下 以下是本blog内的微软面试100题系列,经典算法研究系列,程序员编程艺术系列,红黑树系列,及数据挖掘十大算法等5大经典原创系列作品与一些重要文章的集锦: 一、 微软面试100题系列 横空出世,席卷Csdn--评微软等数据结构+算法面试100题 (微软面试100题系列原题+ 答案 索引) 微软100题 (微软面试完整第1-100题) 微软面试100题2010年版 全部答案集锦 (含下载地址)

一文读懂特征工程

杀马特。学长 韩版系。学妹 提交于 2020-08-04 12:49:04
一文读懂特征工程 作者:July 说明:本文是七月在线机器学习第九期第五次课 特征工程的课程笔记,课程主讲老师:寒小阳 加号 张雨石 Johnson,本笔记得到寒小阳等相关老师的校对。 时间:二零一八年七月三十一日。 0 前言 我所在公司七月在线每个月都是各种机器学习、深度学习、人工智能课程,通过三年半的打磨,内容质量已经足够精良,我也在这耳闻目染中不断被各种从传统IT成功转行转型转岗AI,然后拿到年薪30~50万的消息刷屏。 被刷的心痒痒不说,加上自己喜欢研究,擅长把艰深晦涩的东西通俗易懂的阐述出来,所以准备未来一个月三十篇ML课程笔记,平均每天一篇,类似之前的KMP SVM CNN 目标检测,发博客、公号、题库、社区。且联合公司的讲师团队确保专业,争取每个专题/模型 都成为每一个ML初学者必看的第一篇 ​​。 另外,每一篇笔记基本都将是带着beats耳机边用七月在线APP听课程边做笔记(恩,APP支持倍速1.5倍或2倍播放),为的是我确保通俗,讲授课程的讲师确保专业。还是那句老话,有何问题,欢迎在评论里留言指正,thanks。 1 什么是特征工程 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 但特征工程很少在机器学习相关的书中阐述,包括很多网络课程,七月在线还是第一个在机器学习课程里讲特征工程的课。但直到现在

如何通过腾讯、字节跳动、网易的面试?

别来无恙 提交于 2020-07-29 06:56:18
我是开心鸭: 我是2021年毕业、双非一本,在春招中拿到的 offer有: 腾讯、字节跳动、网易、京东、美团、大众汽车。 1.如何学习准备的 ? 学习路线: 了 解市场招聘需要哪些技术?了解常用的业务指标有什么? 了解 常用的分析方法 有哪些?简历上需要什么项目来证明自己? 学习的门槛在于如何入门。如果入门了,那么接下来的学习就会很容易。因为接下来的学习就是边做项目、边面试,你会发现你的能力会有很大提升。要知道,面试也是提升能力的一种手段。 面试前要刷常见的面试题,面试过程需要你能够手写SQL,所以面试前多锻炼在草稿纸上手写SQL的习惯。 做项目这里提一下,说一下我在面字节跳动的时候我做了两件事情,一件事情是了解抖音的业务指标并产出一篇报告,第二件事情是做一篇流媒体的分析报告。面试的时候游刃有余,非常主动。 做项目可以自行去阿里天池、 kaggle 上找相关行业的数据来做项目,能分析出有价值的东西,面试官就很喜欢了。 2.简历需要避免哪些坑? 简历一定要按照招聘职位要求去写, 重要的事情说三遍。很多人的简历写一堆有的没的,比如自我评价、 社团、无关的课程也放上去。其实人家面试官根部不看你这些。 如果你没有相关的能力,请自己先准备一个月,做个像样的项目出来放到简历上,然后再去面试,不然就是白白浪费自己的时间。 有奖学金写奖学金,但是写一个最高级别的就可以

Pandas入门1(DataFrame+Series读写/Index+Select+Assign)

旧时模样 提交于 2020-07-28 19:01:05
文章目录 1. Creating, Reading and Writing 1.1 DataFrame 数据框架 1.2 Series 序列 1.3 Reading 读取数据 2. Indexing, Selecting, Assigning 2.1 类python方式的访问 2.2 Pandas特有的访问方式 2.2.1 iloc 基于index访问 2.2.2 loc 基于label标签访问 2.3 set_index() 设置索引列 2.4 Conditional selection 按条件选择 2.4.1 布尔符号 `&,|,==` 2.4.2 Pandas内置符号 `isin,isnull、notnull` 2.5 Assigning data 赋值 2.5.1 赋值常量 2.5.2 赋值迭代的序列 learn from https://www.kaggle.com/learn/pandas 下一篇: Pandas入门2(DataFunctions+Maps+groupby+sort_values) 1. Creating, Reading and Writing 1.1 DataFrame 数据框架 创建 DataFrame ,它是一张表,内部是字典, key :[value_1,...,value_n] # % % # - * - coding : utf - 8 -

用Siamese和Dual BERT来做多源文本分类

旧街凉风 提交于 2020-07-28 07:25:40
作者:Marco Cerliani 编译:ronghuaiyang 正文共:2062 字 10 图 预计阅读时间:6 分钟 原文链接: 用Siamese和Dual BERT来做多源文本分类 ​ mp.weixin.qq.com 使用不同的方式来使用BERT模型。 在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为 transformers 的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。 作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。 我们使用了siamese结构,这是一个双路BERT ,用于多文本输入的分类。 数据 我们从Kaggle上收集数据集。新闻类别数据集: https://www. kaggle.com/rmisra/news- category-dataset 包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介

计算机专业不得不知道的几个赛事!!

时光总嘲笑我的痴心妄想 提交于 2020-07-26 23:21:48
众所周知,计算机专业、人工智能、智能识别技术在接下来较长一段时间内会是非常热门的专业,大公司对于这类强势的技术岗的需求永远不会饱和,大公司对于高学历、高技术的人才总是不惜以高薪相吸引。 小编也在网上常常看到在美国强势大学CS毕业的学生回国面试阿里巴巴,直接被聘用,而且年薪50万起,不得不令人咂舌。 然而,另一方面,我们也能看到,大量学生涌入计算机行业,导致计算机的强弱分化明显。几乎所有类型的院校都开设了计算机系,每年从CS专业出来等待就业的学生不计其数。有年薪50W的,也有堪堪只够得上温饱的程序员。 那么,想从程序员的浩瀚烟海中脱颖而出,就必须从各方面提升自己的软实力和硬实力。接下来,小编就梳理了计算机专业的孩子们职业发展的几个比赛,大家可以做参考。 一:Kaggle数据分析比赛 时间:全年 Kaggle应该是属于数据分析业内家喻户晓的比赛了。Kaggle成立于2010年,它主要提供的就是数据发掘、建模、预测类的服务,而最出名的就是它举办的一些数据分析项目。 部分公司会向Kaggle官方提供自己的数据集,设置一个建模预测类型的项目,向Kaggle的用户们开放,用户们可以自由组队进行比赛,而Kaggle则会根据提交的代码进行判分结算。 如果能在Kaggle的比赛中获得10%的好成绩,那足以成为简历上的亮点,至少能保证你通过初筛,直达HR面。即使达到50%

图像处理开源数据集

巧了我就是萌 提交于 2020-07-23 17:55:24
(1)手写数字识别 训练集:60000个 测试集:10000个 下载链接: http://yann.lecun.com/exdb/mnist/ (2)猫狗分类 下载链接: https://www.kaggle.com/c/dogs-vs-cats/data (3)花卉识别 下载链接: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html (4)imageNet 下载链接: http://www.image-net.org/ 来源: oschina 链接: https://my.oschina.net/u/4397965/blog/4304577

Data seems to be missing in Bigquery SEC Filing Dataset

不羁岁月 提交于 2020-07-23 06:18:11
问题 I was pleased recently to discover that Bigquery hosts a dataset of SEC filings. I am unable to find the actual text of the filings in the dataset however! This seems so obvious I must be missing something. As an example, the 2018 Microsoft 10-K filing on the SEC website itself can be seen to have the 10-K text in which Item 7 includes the phrase "Management’s Discussion and Analysis of Financial Condition and Results". I searched for this phrase in the Dataset. First, the following query

Data seems to be missing in Bigquery SEC Filing Dataset

给你一囗甜甜゛ 提交于 2020-07-23 06:17:06
问题 I was pleased recently to discover that Bigquery hosts a dataset of SEC filings. I am unable to find the actual text of the filings in the dataset however! This seems so obvious I must be missing something. As an example, the 2018 Microsoft 10-K filing on the SEC website itself can be seen to have the 10-K text in which Item 7 includes the phrase "Management’s Discussion and Analysis of Financial Condition and Results". I searched for this phrase in the Dataset. First, the following query