人工智能

面试:如何从 100 亿 URL 中找出相同的 URL?

廉价感情. 提交于 2021-02-08 08:52:03
点击“ 开发者技术前线 ”,选择“星标🔝” 在看|星标|留言, 真爱 来源: 8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。 “ 5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB 由于内存大小只有 4G,因此,我们不可能一次性把所有 URL 加载到内存中处理。对于这种类型的题目,一般采用 分治策略 ,即:把一个文件中的 URL 按照某个特征划分为多个小文件,使得每个小文件大小不超过 4G,这样就可以把这个小文件读到内存中进行处理了。 思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB。使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。那么接下来,我们只需要求出这

【论文介绍】MEAL V2

拜拜、爱过 提交于 2021-02-08 08:25:38
作者:Stan Kriventsov 编译:ronghuaiyang 转载自:AI公园 原文链接: https://mp.weixin.qq.com/s/001DpmGeapE3HECzFPVvEw ​ mp.weixin.qq.com 导读 一篇知识蒸馏+对抗训练的文章。 作者使用最近提出的MEAL技术(包括从多个大型老师网络使用蒸馏通过对抗学习得到更小的学生网络学习),使用224×224输入,在ImageNet上提升了ResNet-50的精度到80.67%, 没有外部训练数据和网络体系结构的修改。 从文章中我们能学到什么? 即使是一个相对较小的网络也可以通过训练用正确的方法达到大得多的网络的准确性。 在某种程度上,这并不奇怪,因为现代深层神经网络被设计成过参数化的,利用“彩票假说”描述的大量的随机初始化配置,一个更小的网络足以达到同样的性能,但是,在实践中可以实现还是非常了不起的。 先决条件(为了更好地理解论文,我们应该熟悉什么?) 知识蒸馏 对抗训练 讨论 集成技术,或集成学习,由多个ML模型的组合预测组成,是一种已知的提高预测精度的方法。它被广泛应用于Kaggle竞赛中,在这些竞赛中,即使以巨大的计算负载为代价,也要获得最佳的精度。然而,在大多数实际应用中,由于在预测期间运行每个模型所需的费用和时间,集成并不被广泛使用。 MEAL技术的想法,是从多个大型神经网络(教师

CRT&EXCRT 中国剩余定理及其扩展

自作多情 提交于 2021-02-08 06:37:04
前言: 中国剩余定理又名孙子定理。因孙子二字歧义,常以段子形式广泛流传。 中国剩余定理并不是很好理解,我也理解了很多次。 CRT 中国剩余定理 中国剩余定理,就是一个解同余方程组的算法。 求满足n个条件的最小的x。 看起来很麻烦。 先找一个特殊情况:$m_1,m_2,...m_n$两两互质。 这个时候,构造$M=m_1*m_2*...m_n$; 令$M_i=M/m_i$; 所以,构造$n$个数,其中第$i$个数是除$i$之外的其他所有数的倍数,并且第$i$个数$mod m_i =1$ 即:$M_i x = 1 ( mod m_i ) $求出这样一个x,就求出了 这个数。 因为$m$之间两两互质,所以对于$n$个这样的方程,$x$本质上就是$M_i$在$m_i$意义下的乘法逆元。 (不会$exgcd$?左转: EXGCD 扩展欧几里得 ) 因为互质,一定有解的。 用扩展欧几里得算就可以。 同理,构造$n$个数。$b_1,b_2....b_n$ 其中,$b_i=M_i \times x_i$ 那么,因为$b_i = 1 (mod m_i)$,所以$ b_i * a_i = a_i (mod m_i)$ 那么,原题目中的这个x就是:$x=(a_1\times b_1+a_2\times b_2+...+a_n\times b_n) $验证一下,是不是? 总得来说, 对于$mi$互质的情况

Kindle阅读产品体验报告-随时随地畅享阅读

点点圈 提交于 2021-02-08 06:09:11
产品入门-第一份产品体验报告 Kindle阅读-随时随地畅享阅读 时间:2018/11/18-11/22 Kindle阅读 一、产品概括 (1)体验环境 机型:荣耀8 系统: EMUI 8 .0( Android 8 .0) App版本:8 .12 .0 .59 体验时间:2018 .11 .18-11 .22 (2)产品概括   kindle阅读是一款由亚马逊(Amazon)团队2009年推出的免费电子书阅读软件,主打电子书阅读,通过Kindle阅读,只需一次购买Kindle电子书,即可在你的平板电脑、智能手机、Kindle设备或个人电脑间无缝切换,畅享阅读。在App Store上最新版本的kindle阅读的评分高达4.8分(4.4万次评分),Kindle阅读的书库包含了五十余万本出版文学电子书,包括小说、文学、经管、社科、少儿进口原版类畅销书。 (3)产品定位  产品定位:海量图书随身带,出版书电子化阅读。  产品Slogan:随时随地畅享阅读。 (4)主要功能 与其他的电子设备无缝切换,资源完全同步,畅享阅读。 阅读记录,智能同步。 海量书籍,超低价格,任君畅读。 内置词典,生词提示,外文直接查词。 优质出版图书,尽在kindle电子书店。 二、产品及需求分析 (1)市场与行业   近年来随着我国经济发展由粗放型向集约型转变,经济发展进入结构优化的常态。国民的人均收入逐步提高

蚂蚁金服:超大规模分布式计算系统 + 超大规模分布式优化算法

五迷三道 提交于 2021-02-08 05:51:44
人工智能大数据与深度学习 公众号: weic2c 近年来,随着“大”数据及“大”模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注。针对这一刚需,阿里集团和蚂蚁金服设计了自己的分布式平台——鲲鹏。鲲鹏结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题,不仅囊括了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了封闭好的、宜于调用的 API 供普通的机器学习者开发分布式算法,降低使用成本并提升效率。相关论文在本届 KDD 以口头报告的形式发表 (应用数据科学 Track)。 论文《鲲鹏:基于参数服务器的分布式学习系统及其在阿里巴巴和蚂蚁金服的应用》 (KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial),由蚂蚁金服人工智能部和阿里云团队的周俊,李小龙,赵沛霖,陈超超,李龙飞,杨新星,崔卿,余晋,陈绪,丁轶,漆远合作完成。 文中描述的实验在十亿级别的样本和特征数据上进行。结果表示,鲲鹏的设计使得一系列算法的性能都得到了极大的提升,包括 FTRL,Sparse-LR,以及 MART。此外,鲲鹏在阿里巴巴“双11”狂欢购物节及蚂蚁金服的交易风险检测中

如何获取高精度CV模型?快来试试百度EasyDL超大规模视觉预训练模型

房东的猫 提交于 2021-02-08 05:46:32
在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习。 它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,因其能够大量节约新模型开发的成本,在实际应用中被更广泛地关注。 基于此,百度EasyDL零门槛AI开发平台引入了超大规模视觉预训练模型,结合迁移学习工具,帮助开发者使用少量数据,快速定制高精度AI模型。 高质量数据获取难度高,迁移学习提升模型效果 在训练一个深度学习模型时,通常需要大量的数据,但数据的采集、标注等数据准备过程会耗费大量的人力、金钱和时间成本。 为解决此问题,我们可以使用预训练模型。以预训练模型A作为起点,在此基础上进行重新调优,利用预训练模型及它学习的知识来提高其执行另一项任务B的能力,简单来说就是 在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,这就是迁移学习(Transfer Learning) 。 迁移学习作为一种机器学习方法,广泛应用于各类深度学习任务中。在具体实现迁移学习时,有多种深度网络迁移方法,其中的Fine-tune(微调)是最简单的一种深度网络迁移方法,它主要是将已训练好的模型参数迁移到新的模型来帮助新模型训练。 针对一个具体的模型开发任务,我们通常会选择在公开的大数据集上训练收敛、且效果较好的模型

零基础Python学习路线图,Python学习不容错过

不羁岁月 提交于 2021-02-07 21:35:46
最近有很多人在问小编Python培训方面的问题,一开始小编还挺疑惑,后来特地请教了一下度娘,果真互联网行业的风向变了,近几年Python的受欢迎程度可谓是扶摇直上,当然了学习的人也是愈来愈多。一些学习Python的小白在学习初期,总希望能够得到一份Python学习路线图,小编经过多方汇总为大家汇总了一份Python学习路线图。 Python学习路线一:Python基础 必学知识:【Linux基础】【Python基础语法】【Python字符串】【文件操作】【异常处理】【Python面向对象】【项目实战】 路线讲解:该路线循序渐进,科学合理,帮助学习者建立正确的编程思想,具备基本的编程能力; Python学习路线二:Python高级编程 必学知识:【Python平台迁移Linux】【Python常用第三方库】【Python高级语法】【Python正则表达式】【网路编程】【系统编程】【数据结构与算法】【项目实战】 路线讲解:该路线强调数据结构和算法的学习,着重提升学习者的编程核心能力;使学习者能够熟练掌握Python高级用法及网络相关知识,能够独立承担Python网络相关的开发; Python学习路线三:web前端开发 必学知识:【HTML】【CSS】【UI基础】【JavaScript】【DOM】【事件】【jQuery】【混合开发】【项目实战】 路线讲解

世界上五个最不务正业的科学家!看完三观都碎了…

纵然是瞬间 提交于 2021-02-07 21:17:52
作者 | 王不二 来源 | 知乎 今天就和你一起来膜拜一下 科学家们在各种领域的乱入 前方高能 都是神一样的存在 受不了请绕道! 第五位 海蒂·拉玛 Hedy Lamarr 学术指数:87 不务正业指数:85 首先要说到了众多野生科学家的女神,容我喝口水先。 上图是海蒂·拉玛在1941年申请的一项专利技术,据说灵感来自于音符。其中的无线电跳频技术,成为今天 CDMA 和 WiFi 的基础。所以大家把拉玛亲切地称为:“CDMA 之母”、“WiFi 之母”。 听上去好像有点浮夸…… 可谁叫这位通讯专业出身的姑娘,不仅会写诗,会数学,会跳芭蕾,还胆敢长成这样呢: 1932年,18岁的拉玛出演了电影《神魂颠倒》(Ecstacy),成为人类史上首位全裸出镜的明星。 然而万恶的性别歧视,完全配不上这位女神。性感为她带来的不是赞美,而是诋毁。不仅在影坛被骂作花瓶,她的专利技术也得不到重视,被美国军方封存。尽管她的六任丈夫都自惭形秽,尽管她的680个香吻为反抗纳粹筹足1700万美元,但一切还是不可避免地走向了庸俗。 2014年,在诞辰一百周年之际,海蒂·拉玛终于入选了美国发明家名人堂。 她留给这个世界的一句嘲讽,至今依然适用: Any girl can be glamorous. All you have to do is stand still and look stupid.

对话京东科技算法科学家吴友政:回望2020,NLP技术发展速度强劲

戏子无情 提交于 2021-02-07 12:29:34
作为人工智能领域中热度最高、挑战最大的子领域之一,自然语言处理(NLP)在最近几年得到了飞速的发展。2020 年我们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的激烈讨论。短短一年时间,知识图谱的成熟度由萌芽期一跃达到预期膨胀高峰且非常接近最高点… 近日,京东科技算法科学家、高级技术总监吴友政博士受邀做客InfoQ《大咖说》直播间,与我们分享了NLP领域的2020年大事记,以及未来一年最值得期待的变化。 京东科技算法科学家、高级技术总监——吴友政 1.InfoQ:吴老师,您好,非常高兴有机会和您对话。先请您简单总结下NLP领域在2020年的进展。 吴友政: NLP技术2020年仍然在快速发展的车道上。内容生成方向,以GPT-3为代表的预训练技术不仅在NLP、甚至在整个AI领域都受到了广泛关注。GPT-3生成的文章连人类也难辨真假。生成式AI也首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。人机对话方向,谷歌去年初发布了Meena、Facebook后续发布了Blenderbot、以及Blenderbot和Pandora Kuki两个聊天机器人的“约会”遭全网围观,都极大地推动了人机对话技术的发展。此外,多模态智能、数字内容生成、图神经网络等技术都有非常大的进展。影响力上,NLP领域中的Transformer、预训练等技术在计算机视觉

来了来了!一份NLP&ML领域中文综述总结~

本小妞迷上赌 提交于 2021-02-07 12:22:35
转载自 | helloworldlh 原文链接: 来了来了!一份NLP&ML领域中文综述总结~ ​ mp.weixin.qq.com 综述类论文是指就某一时间内,针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。 对初学者而言,综述类文章可以便于读者在研究初期尽快掌握该方向的发展趋势。对综述类文章的搜索与阅读也因此成为了初学者进入相关研究领域前面临的第一个问题。 针对这一需要,东北大学自然语言处理实验室对自然语言处理领域与机器学习领域的中文综述类文章进行了收集和分类整理。将其按照不同研究领域进行分类,并提供了论文的获取网址,方便初学者获取相应领域的综述文章。 项目地址: https:// github.com/NiuTrans/CNS urvey 论文来源 在该项目中,所有文章均来源于《中文信息学报》、《计算机学报》、《软件学报》、《自动化学报》、《电子学报》、《计算机研究与发展》、《中国科学:信息科学》七个期刊。 共包含 251 篇综述文章,其中自然语言处理领域 145 篇,机器学习领域 106 篇,覆盖了各个期刊 电子化至今 的所有文章。 按照不同分类,项目中给出了各个文章的来源、年份、下载地址以及作者信息,如下图示例: 论文分类 为了方便使用者快速定位到自己想要了解的综述文章,项目根据各个研究领域对自然语言处理和机器学习分别进行了分类