大数据

蚂蚁金服:超大规模分布式计算系统 + 超大规模分布式优化算法

五迷三道 提交于 2021-02-08 05:51:44
人工智能大数据与深度学习 公众号: weic2c 近年来,随着“大”数据及“大”模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注。针对这一刚需,阿里集团和蚂蚁金服设计了自己的分布式平台——鲲鹏。鲲鹏结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题,不仅囊括了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了封闭好的、宜于调用的 API 供普通的机器学习者开发分布式算法,降低使用成本并提升效率。相关论文在本届 KDD 以口头报告的形式发表 (应用数据科学 Track)。 论文《鲲鹏:基于参数服务器的分布式学习系统及其在阿里巴巴和蚂蚁金服的应用》 (KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial),由蚂蚁金服人工智能部和阿里云团队的周俊,李小龙,赵沛霖,陈超超,李龙飞,杨新星,崔卿,余晋,陈绪,丁轶,漆远合作完成。 文中描述的实验在十亿级别的样本和特征数据上进行。结果表示,鲲鹏的设计使得一系列算法的性能都得到了极大的提升,包括 FTRL,Sparse-LR,以及 MART。此外,鲲鹏在阿里巴巴“双11”狂欢购物节及蚂蚁金服的交易风险检测中

如何获取高精度CV模型?快来试试百度EasyDL超大规模视觉预训练模型

房东的猫 提交于 2021-02-08 05:46:32
在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习。 它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,因其能够大量节约新模型开发的成本,在实际应用中被更广泛地关注。 基于此,百度EasyDL零门槛AI开发平台引入了超大规模视觉预训练模型,结合迁移学习工具,帮助开发者使用少量数据,快速定制高精度AI模型。 高质量数据获取难度高,迁移学习提升模型效果 在训练一个深度学习模型时,通常需要大量的数据,但数据的采集、标注等数据准备过程会耗费大量的人力、金钱和时间成本。 为解决此问题,我们可以使用预训练模型。以预训练模型A作为起点,在此基础上进行重新调优,利用预训练模型及它学习的知识来提高其执行另一项任务B的能力,简单来说就是 在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较好的识别效果,这就是迁移学习(Transfer Learning) 。 迁移学习作为一种机器学习方法,广泛应用于各类深度学习任务中。在具体实现迁移学习时,有多种深度网络迁移方法,其中的Fine-tune(微调)是最简单的一种深度网络迁移方法,它主要是将已训练好的模型参数迁移到新的模型来帮助新模型训练。 针对一个具体的模型开发任务,我们通常会选择在公开的大数据集上训练收敛、且效果较好的模型

rm删除文件之后,空间就被释放了吗?

走远了吗. 提交于 2021-02-07 21:23:28
点击上方 “ Java大数据修炼之道 ”, 选择“置顶或者星标” 你想要的优质技术好文第一时间送达! 来源 | 编程珠玑 在Linux,你是不是曾经天真的以为,使用rm删除一个文件,占用的空间就释放了?事情可能不是常常如人意。 产生一个指定大小的随机内容文件 我们先看一下当前各个挂载目录的空间大小: $ df -h /dev/sda11 454M 280M 147M 66% /boot 我这里挑选了其中一个结果展示(你可以选择任一挂载目录),接下来准备在/boot下生成一个文件。 首先我们产生一个50M大小的文件: $ dd if=/dev/urandom of=/boot/test.txt bs=50M count=1 至此,我们产生了一个50M大小的文件,再看boot下: $ df -h /dev/sda11 454M 312M 115M 74% /boot 这里你不用关心到底多了多少,你只需要关注,/boot下的文件增多了。 测试程序: # include<stdio.h> # include<unistd.h> int main ( void ) { FILE *fp = NULL ; fp = fopen( "/boot/test.txt" , "rw+" ); if ( NULL == fp) { perror( "open file failed" ); return

基因日签【20201116】​许可因子控制了真核生物的再复制

↘锁芯ラ 提交于 2021-02-07 19:00:27
2020 11/16 ☲☲☲☲☲ 基 因 日 签 许可因子控制了 真核生物 的再复制 from Genes X(中文版) 公众号 国家基因库大数据平台 NO .壹. 关键概念 每一个起始点都需要许可因子来起始复制。 NO .贰. 关键概念 它在复制前就在细胞核里存在,但是在复制中被删除、失活或破坏。 NO .叁. 关键概念 下一轮复制循环的起始只有在有丝分裂后,许可因子重新进入细胞核中才能进行。 往期日签可点击【阅读原文】获取。 文字及图片信息均来源于Genes X(中文版),如有侵权请联系删除。 THE END See ☲☲☲☲☲ Y O U ! 每日一签 碎片化学习基因基础知识 更多科研资讯,请关注【国家基因库大数据平台】 ▼ 本文分享自微信公众号 - 国家基因库大数据平台(close_3080908629)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4594634/blog/4720091

基因日签【20210111】双链断裂启动重组

北城以北 提交于 2021-02-07 17:08:51
2021 01/11 ☲☲☲☲☲ 基 因 日 签 双链断裂启动重组 from Genes X(中文版) 公众号 国家基因库大数据平台 NO .壹. 关键概念 通过在一条(受体)DNA双链体上产生双链断裂,就会启动重组的双链断裂修复(DSBR)模型。它与减数分裂和有丝分裂的同源重组相关。 NO .贰. 关键概念 外切核酸酶作用产生3‘单链末端,它能攻击其他(供体)双链体。 NO .叁. 关键概念 当一个双链体DNA的一条单链与相对应的另一双链体中的单链发生置换时,会产生一个称为D环的分叉结构。 NO .肆. 关键概念 链交换产生一条伸展的异源双链体DNA,两条单链分别来自父本和母本。 NO .伍. 关键概念 新合成的DNA代替被降解的部分。 NO .陆. 关键概念 通过退火捕获第二个DSB末端产生重组接合分子,此时两条DNA双链体由异源双链体DNA和两个Holliday连接体联系在一起。 NO .柒. 关键概念 接合分子可以通过在相接的链中切出切口,从而形成两条分开的双链体分子。 NO .捌. 关键概念 重组体是否形成取决于原来已发生交换的两条链或其他配对链在解开过程中是否被切出切口。 往期日签可点击【阅读原文】获取。 文字及图片信息均来源于Genes X(中文版),如有侵权请联系删除。 THE END See ☲☲☲☲☲ Y O U ! 每日一签 碎片化学习基因基础知识

基因日签【20210127】参与同源重组的真核生物基因

你离开我真会死。 提交于 2021-02-07 17:08:38
2021 01/27 ☲☲☲☲☲ 基 因 日 签 参与同源重组的真核生物基因 from Genes X(中文版) 公众号 国家基因库大数据平台 NO .壹. 关键概念 酵母中的MRX复合体、Exol蛋白和Sgs1/Dna2蛋白与哺乳动物细胞中的MRN复合体和BLM蛋白可切除双链断裂。 NO .贰. 关键概念 Rad51重组酶结合单链DNA,它需要中介体蛋白的协助,这种蛋白质可克服RPA蛋白的抑制效应。 NO .叁. 关键概念 单链入侵在酵母中依赖于Rad54蛋白和Rdh蛋白,而在哺乳动物细胞中依赖于Rad54蛋白和Rad54B蛋白。 NO .肆. 关键概念 酵母中的Sgs1蛋白和Mus81/Mms4蛋白与人类中的BLM蛋白和MUS81/EME1蛋白参与Holliday连接体的解开。 往期日签可点击【阅读原文】获取。 文字及图片信息均来源于Genes X(中文版),如有侵权请联系删除。 THE END See ☲☲☲☲☲ Y O U ! 每日一签 碎片化学习基因基础知识 更多科研资讯,请关注【国家基因库大数据平台】 ▼ 本文分享自微信公众号 - 国家基因库大数据平台(close_3080908629)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https:/

基因日签【20210205】锥虫中的抗原变异运用同源重组

安稳与你 提交于 2021-02-07 16:30:15
2021 02/05 ☲☲☲☲☲ 基 因 日 签 锥虫中的抗原变异运用同源重组 from Genes X(中文版) 公众号 国家基因库大数据平台 NO .壹. 关键概念 布氏锥虫中的可变表面糖蛋白(VSG)的转换可逃避宿主免疫。 NO .贰. 关键概念 VSG的转换需要重组事件将 VSG 基因转移到特定的表达位点。 往期日签可点击【阅读原文】获取。 文字及图片信息均来源于Genes X(中文版),如有侵权请联系删除。 THE END See ☲☲☲☲☲ Y O U ! 每日一签 碎片化学习基因基础知识 更多科研资讯,请关注【国家基因库大数据平台】 ▼ 本文分享自微信公众号 - 国家基因库大数据平台(close_3080908629)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4594634/blog/4949172

2021美赛D题翻译(仅供参考)

女生的网名这么多〃 提交于 2021-02-07 12:33:34
问题D:音乐的影响 2021美赛C题思路。2021美赛C题解法。2021美赛思路,2021美赛数学建模思路,欢迎加入秀儿为你弹奏东风破:752899821 自古以来,音乐就已成为人类社会的一部分,已成为文化遗产的重要组成部分。为了理解音乐在人类集体经验中所扮演的角色,我们被要求开发一种量化音乐发展的方法。在创作新音乐时,有许多因素会影响艺术家,包括其天赋的创造力,当前的社会或政治事件,使用新乐器或工具的机会或其他个人经历。我们的目标是了解和衡量先前制作的音乐对新音乐和音乐艺术家的影响。 一些艺术家可以列出十几个或更多他们认为对自己的音乐作品有影响的艺术家。还建议可以通过歌曲特征(例如结构,节奏或歌词)之间的相似程度来衡量影响力。音乐有时会发生革命性的变化,提供新的声音或节奏,例如何时出现新的流派,或者对现有流派(例如古典,流行/摇滚,爵士等)进行重新发明。这可能是由于一系列小变化,艺术家的合作努力,一系列有影响力的艺术家或社会内部的变化所致。 许多歌曲具有相似的声音,许多艺术家为音乐类型的重大转变做出了贡献。有时,这些变化是由于一位艺术家影响了另一位艺术家。有时,这是对外部事件(例如重大世界事件或技术进步)的响应而出现的变化。通过考虑歌曲的网络及其音乐特征,我们可以开始捕捉音乐艺术家之间的相互影响。而且,也许,我们还可以更好地了解音乐随着时间的流逝在整个社会中的发展。 集成集体音乐

TCP协议

感情迁移 提交于 2021-02-06 20:58:46
在前篇文章中介绍了TCP协议的三大特性,其中可靠性是依赖一系列的机制,如:校验和,分组发送,超时重传,流量控制得到保证。 一.数据交互 TCP在交互数据时,采用多种机制保证可靠性,同时也保证TCP的性能,主要是分组、延迟ACK等等。 1.分组确认 对于连续的数据传输有三种方式: 单个单个字节发送 将整个连续数据发送 将整个连续数据拆分成一个个的分组包,然后逐个发送 显然前两种方式都是比较极端,单个单个字节发送对于成块连续数据而言效率非常低,整块连续数据发送对于比较大的数据而言更不现实,TCP缓冲区有限,网络带框也是有限,对于过大数据不可能这样发送。 在TCP协议栈中,有发送缓冲区和接收缓冲区用于缓冲存储即将发送的数据和收到的数据。当应用需要发送连续数据时,TCP将应用的数据存储到缓冲区中,TCP会根据一定的机制将缓冲区数据发送出去,应用同时也将数据写入缓冲区。接收方TCP在收到数据后,存入接收缓冲区中,TCP根据一定机制再将缓冲区中数据提交给应用处理。 TCP将成块的数据发送分成一个个的分组报文发送出去,其中分组报文大小不会超过MSS(Max Segment Size,最大的报文段大小)。TCP对发送的每个字节都采用序号的方式进行标识追踪,序号在建立TCP连接时即已经确定。发送端发送第一个字节数据的序号为建立TCP连接时的SEQ + 1。序号在这里有以下几种作用:

「网工小白必备」全网最详细的网络基础知识之是IP协议

我怕爱的太早我们不能终老 提交于 2021-02-06 15:40:09
1.1. IP协议 1.1.1. 前言 1.1.2. IP报头结构 服务类型 PPP:定义包的优先级,取值越大数据越重要 000 普通 (Routine) 001 优先的 (Priority) 010 立即的发送 (Immediate) 011 闪电式的 (Flash) 100 比闪电还闪电式的 (Flash Override) 101 CRI/TIC/ECP(找不到这个词的翻译) 110 网间控制 (Internetwork Control) 111 网络控制 (Network Control) 当然我还有很多整理好的资料文档和视频文件,【 点这里 】 获得更多资料文档 往期教学视频,主要也是想给新手小白少走点弯路。 IP分片 当数据包比链路的MTU大时,就可以被分解为很多足够小片段的过程 TTL值 Time to Live,生存时间 防止IP数据包在网络内无休止地传输(环路) 每经过一次路由TLL值就会减1 当TTL=0的时候,丢弃数据包 可以利用TTL特性,可以实现路由跟踪技术,排错的重要方法之一 相关命令:ping -i或tracert -d 协议号 用于标识上层协议 Option(可选字段) 只有某些特殊的封包需要特定的控制才会利用到,这些选项通常包括: 安全和处理限制:用于军事领域 记录路径:让每个路由器都记下它的IP地址 时间戳:当IP包离开每个路由器的时候记录时间