fasttext

Using Gensim Fasttext model with LSTM nn in keras

只谈情不闲聊 提交于 2020-12-31 14:52:51
问题 I have trained fasttext model with Gensim over the corpus of very short sentences (up to 10 words). I know that my test set includes words that are not in my train corpus, i.e some of the words in my corpus are like "Oxytocin" "Lexitocin", "Ematrophin",'Betaxitocin" given a new word in the test set, fasttext knows pretty well to generate a vector with high cosine-similarity to the other similar words in the train set by using the characters level n-gram How do i incorporate the fasttext model

Using Gensim Fasttext model with LSTM nn in keras

半腔热情 提交于 2020-12-31 14:47:54
问题 I have trained fasttext model with Gensim over the corpus of very short sentences (up to 10 words). I know that my test set includes words that are not in my train corpus, i.e some of the words in my corpus are like "Oxytocin" "Lexitocin", "Ematrophin",'Betaxitocin" given a new word in the test set, fasttext knows pretty well to generate a vector with high cosine-similarity to the other similar words in the train set by using the characters level n-gram How do i incorporate the fasttext model

AI助力短视频创作

为君一笑 提交于 2020-12-18 07:37:58
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。 文末了解《人工智能Mix》 AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。 - 大数据分析电影 这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。 实验结果: - 视频理解 主要是场景检测、自动切割、景深等任务。 - pyscenedetect 开源库 可以用来做视频摘要,自动剪辑之类的。 项目地址: https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io - AutoFlip 开源库 谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切

2020腾讯广告算法大赛:高分进阶

巧了我就是萌 提交于 2020-12-05 04:23:10
写在前面 最近腾讯赛分享成为“Coggle数据科学”的主推文章,从筹备竞赛到逐步上分之路的分享,助力大家取得优异成绩。当然,这也将延续到大赛结束。持续关注Coggle, 大家一起学起来~ 上回说到如何晋升到尊贵白金,发现很多同学在这个阶段遇到很多问题,在开启新的征程前,我们一起先来看看可能遇到的问题。 1. TF-IDF细节 第一个是内存问题,这里可以对参数做些调整,比如max_features=100000,最后仅选出100000列。 第二个是tfidf的id类特征选择,凡是id类的都可以进行tfidf,我连time都加进去了。 2. 五折交叉统计 这里可以考虑将年龄和性别进行one-hot,然后统计每一个类别的概率,主键可以是任意id类特征,当然也可以进行交叉组合后的id特征。 在本文中,Coggle的目标是带领大家突破1.42分,同时对于1.42之后的提升,比如1.43,或者1.43+,也会给出更多建议和思考方向。 每个分数阶段都有不同的知识点需要去学习,在这次历程中,我们一起探寻永恒钻石和至尊星耀的上分之路。 永恒钻石 分数达到1.41,更多特征工程技巧,后处理方法 梳理下我们还有哪些特征可以加的,我想到的其实并不多,对于有效的特征会进行一系列的扩展,比如提取用户行为序列中 creative_id 的向量表示,可以使用不同的embedding方式,基本的word2vec

Mxnet (38): 同类词和类比

北城以北 提交于 2020-10-11 18:03:45
1. 全局矢量词嵌入(GloVe) 使用常规的交叉熵损失函数有时会有一些问题: 让模型预测的成本 q i j q_{ij} q i j ​ 成为合理的概率分布需要将字典中所有项目作为分母,这样会导致过多的开销。 字典中经常会会有不常见的单词,这些单词很少出现在数据集中,在交叉熵损失函数中,对大量不常见单词的条件概率分布的最终预测可能不准确 GloVe为了解决上述问题而产生,相较于word2dev模型,它使用平方损失,并基于Skip-Gram模型做了如下三点改进: 使用非概率分布变量 p i j ′ = x i j p'_{ij}=x_{ij} p i j ′ ​ = x i j ​ 和 q i j ′ = exp ⁡ ( u j ⊤ v i ) q'_{ij}=\exp(\mathbf{u}_j^\top \mathbf{v}_i) q i j ′ ​ = exp ( u j ⊤ ​ v i ​ ) 并计算他们的log值。得到的平方损失为 ( log ⁡   p i j ′ − log ⁡   q i j ′ ) 2 = ( u j ⊤ v i − log ⁡   x i j ) 2 \left(\log\,p'_{ij} - \log\,q'_{ij}\right)^2 = \left(\mathbf{u}_j^\top \mathbf{v}_i - \log\,x_{ij}

数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院

可紊 提交于 2020-10-01 19:44:58
移动互联网打破了传统门户网站的交流屏障,社交软件则架起了信息之间无障碍沟通的桥梁。 根据《2019年社交行业研究报告》显示,目前市面上的社交软件一共有6000多个,包括内容社交、工具社交、场景社交三个方面。 现今,社交软件不仅仅是普通的交友软件,它本质上是一种传递信息的媒介,并具有极大的包容性、复杂性、广泛性。成千上万个社交软件散布在网络世界的各个角落,它所带来的改变足以带动整个互联网时代信息交流的变迁。 它容许并鼓励全球不同地域的用户注册登录,每一位用户都可以自由发言尽情创作,以信息分享为核心,进行个性交流、评论转发、在线直播、扩列交友、知识创作等操作,所以它是数字化信息传播的重要落地典范。但是这把双刃剑,同时也存在着很多令人头疼的安全风控隐患。 社交行业挑战升级 伴随着产业互联网数字化的不断推进,社交软件的容错性也越来越低。 以信息传播为载体的6000+社交软件在分类上成树状图分布。主要以知识性内容社交分享(知乎、CSDN、微博、抖音、快手等)、即时通讯社交聊天(微信、探探、陌陌等)、各行业垂直场景社交交流(脉脉、马蜂窝等)三类为主。 面对这些多场景多渠道社交形式,显而易见,有交流的地方一定会有文本内容,并且在某些社交平台上,却存在一些共性风控问题。如频繁出现暴恐、涉政、低俗、辱骂等违法违规内容,以及发布黑产广告导流等违规信息,这不仅违反了网络安全的和谐秩序