falcon

使用FALCON对三代测序数据进行基因组组装

ぐ巨炮叔叔 提交于 2019-12-02 18:50:55
ALCON是PacBio公司开发的一款用于三代基因组 De novo 组装软件, 更适合于大基因组的组装。 FALCON的结果文件: 0-rawreads/ 该目录存放对raw subreads进行overlpping分析与校正的结果; 0-rawreads/cns-runs/cns_*/*/*.fasta存放校正后的序列信息。 1-preads_ovl/ 该目录存放对校正后reads进行overlapping的结果; 2-asm-falcon/ 该目录是最终结果目录,主要的结果文件是p_ctg.fa和a_ctg.fa。参考来源:http://www.chenlianfu.com/?p=2755 来源: https://www.cnblogs.com/bio-mary/p/11758416.html

新一代数据库TiDB在美团的实践

房东的猫 提交于 2019-12-02 07:57:29
1. 背景和现状 近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式。而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队,于 2018 年初启动了分布式数据库项目。 图 1 美团点评产品展示图 在立项之初,我们进行了大量解决方案的对比,深入了解了业界的 scale-out(横向扩展)、scale-up(纵向扩展)等解决方案。但考虑到技术架构的前瞻性、发展潜力、社区活跃度以及服务本身与 MySQL 的兼容性,我们最终敲定了基于 TiDB 数据库进行二次开发的整体方案,并与 PingCAP 官方和开源社区进行深入合作的开发模式。 美团业务线众多,我们根据业务特点及重要程度逐步推进上线,到截稿为止,已经上线了 10 个集群,近 200 个物理节点,大部分是 OLTP 类型的应用,除了上线初期遇到了一些小问题,目前均已稳定运行。初期上线的集群,已经分别服务于配送、出行、闪付、酒旅等业务。虽然 TiDB 的架构分层相对比较清晰,服务也是比较平稳和流畅,但在美团当前的数据量规模和已有稳定的存储体系的基础上,推广新的存储服务体系,需要对周边工具和系统进行一系列改造和适配,从初期探索到整合落地,仍然还需要走很远的路。下面将从以下几个方面分别进行介绍: 从 0 到 1 的突破,重点考虑做哪些事情。

关于pandas里gruoupby函数的理解

泄露秘密 提交于 2019-11-30 03:34:33
关于pandas里gruoupby函数的理解 最近在学习pandas库,pandas里面有很多好用的函数,今天来记录以下groupby函数。 数据准备 首先建立演示数据。 import pandas as pd df = pd . DataFrame ( { 'Animal' : [ 'Falcon' , 'Falcon' , 'Parrot' , 'Parrot' ] , 'Max Speed' : [ 380. , 370. , 24. , 26. ] , 'age' : [ 20 , 19 , 20 , 10 ] } ) print ( df ) 输出结果为 groupby函数 groupby ( self , by = None , axis = 0 , level = None , as_index = True , sort = True , group_keys = True , squeeze = False , observed = False , ** kwargs ) by参数 by参数可传入函数、字典、Series等,这个参数是分类的依据,一般传入离散的类别标签,然后返回DataFrameGroupBy对象,这个对象包含着多个列表,如下图。 https://www.jianshu.com/p/42f1d2909bb6 来自 例子1(传入1个列名): list

Mysql的4种事务隔离级别详解

为君一笑 提交于 2019-11-30 01:58:25
sql标准定义了4种隔离级别,包含了一些具体规则,用来限定事物内外的那些变化是可见的,哪些是不可见的。 低级别的隔离级一般支持更高的并发处理,拥有更低的系统开销。 1到4,4种隔离级别: Read Uncommitt(读取未提交的内容) Read Conmmitted(读取提交内容) Repeatable read(可重读) Serializable(可串行化) 查看事物隔离级别命令: SELECT @@tx_isolation; 修改事物隔离级别命令: set tx_isolation='read_committed' 脏读的含义:读取到未提交的数据。 新建一个表: CREATE TABLE tes( id INT PRIMARY KEY, num INT ) INSERT INTO tes VALUES(1,1),(2,2),(3,3); 启动一个事物修改事物级别为第一级别运行: start transaction; SELECT *FROM tes 再启动一个事物修改表中的数据: start transaction; update tes set num=10 where id=1; select * from tes; ROLLBACK; SELECT *FROM tes; 再在第一个事物中查询: 在第二个事物没有提交的情况下,第一个事物得到了第二个事物修改后的数据。

美团集群调度系统HULK技术演进

ぃ、小莉子 提交于 2019-11-29 21:43:05
本文根据美团基础架构部/弹性策略团队负责人涂扬在2019 QCon(全球软件开发大会)上的演讲内容整理而成。本文涉及Kubernetes集群管理技术,美团相关的技术实践可参考此前发布的 《美团点评Kubernetes集群管理实践》 。 一、背景 HULK是美团的容器集群管理平台。在HULK之前,美团的在线服务大部分部署都是在VM上,在此期间,我们遇到了很大的挑战,主要包括以下两点: 环境配置信息不一致:部分业务线下验证正常,但线上验证却不正常。 业务扩容流程长:从申请机器、资源审核到服务部署,需要5分钟才能完成。 因为美团很多业务都具有明显的高低峰特性,大家一般会根据最高峰的流量情况来部署机器资源,然而在业务低峰期的时候,往往用不了那么多的资源。在这种背景下,我们希望打造一个容器集群管理平台来解决上述的痛点问题,于是HULK项目就应运而生了。 HULK平台包含容器以及弹性调度系统,容器可以统一运行环境、提升交付效率,而弹性调度可以提升业务的资源利用率。在漫威里有个叫HULK的英雄,在情绪激动的时候会变成“绿巨人”,情绪平稳后则恢复人身,这一点跟我们容器的”弹性伸缩“特性比较相像,所以我们的系统就取名为”HULK“。 总的来讲,美团HULK的演进可以分为1.0和2.0两个阶段,如下图所示: 在早期,HULK 1.0是基于OpenStack演进的一个集群调度系统版本

重新认识微服务部署

試著忘記壹切 提交于 2019-11-29 04:29:13
by 何健 容器化技术的动机 随着人类软件活动的日益频繁,早期的瀑布式开发逐渐淡出主流开发模式的视野,敏捷逐渐占据主导。并且衍生出了持续发布模式,微服务架构等。这些对旧的部署模式是一个较大冲击,对部署的快速,敏捷,稳定性都有了较高的要求。 敏捷开发(迭代开发) 那么什么是"迭代开发"呢?迭代的英文是 iterative,直译为"重复",迭代开发其实就是"重复开发"。 对于大型软件项目,传统的开发方式是采用一个大周期(比如一年)进行开发,整个过程就是一次"大开发";迭代开发的方式则不一样,它将开发过程拆分成多个小周期,即一次"大开发"变成多次"小开发",每次小开发都是同样的流程,所以看上去就好像重复在做同样的步骤。 举例来说,SpaceX 公司想造一个大推力火箭,将人类送到火星。但是,它不是一开始就造大火箭,而是先造一个最简陋的小火箭 Falcon 1。结果,第一次发射就爆炸了,直到第四次发射,才成功进入轨道。然后,开发了中型火箭 Falcon 9,九年中发射了70次。最后,才开发 Falcon 重型火箭。如果 SpaceX 不采用迭代开发,它可能直到现在还无法上天。 迭代开发将一个大任务,分解成多次连续的开发,本质就是逐步改进。开发者先快速发布一个有效但不完美的最简版本,然后不断迭代。每一次迭代都包含规划、设计、编码、测试、评估五个步骤,不断改进产品,添加新功能。通过频繁的发布

猎鹰9(Falcon 9)

穿精又带淫゛_ 提交于 2019-11-27 08:28:38
翻译自:https://www.spacex.com/falcon9 使用了有道词典的翻译,以及本人的修正。   猎鹰9号是SpaceX公司设计和制造的两级火箭,用于可靠和安全地将卫星和“龙”号宇宙飞船送入轨道。 猎鹰9号是“地球上人类历史中”第一个能够复用点火的轨道级火箭。 SpaceX认为,火箭的可重用性是 降低进入太空成本、使人们能够生活在其他星球上所需的关键突破。   猎鹰9号在设计之初就以为复用为目的而开始设计的。 猎鹰9号简单的两级结构将分离事件的数量降到 了最低(相对于三级火箭来说)——同时,它有9个一级引擎,即使在其中一个引擎关闭(失效)的情 况下也能安全地完成任务。(备注:在有一次发射中,一个引擎爆炸了,然而并没有影响发射的成功)   猎鹰9号在2012年创造了历史,当时它将“龙”飞船送入与国际空间站会合的正确轨道,使SpaceX成为 第一家访问国际空间站的商业公司。 从那时起,“猎鹰9号”多次前往太空,将卫星送入轨道,并为美国宇航局(NASA) 从空间站运送和带回货物。 猎鹰9号和“龙”飞船从一开始就被设计用于将人类送入太空,根据与美国宇航局的协议, SpaceX正积极朝着这个目标努力。    载荷 猎鹰9号可以在“龙”号飞船上或复合整流罩内部搭载送往太空的有效载荷。 龙飞船 “龙”飞船可在其加压舱和非加压的后部身躯中搭载货物,后部的身躯中以容纳次要载荷。 未来

论文阅读 | Falcon: Balancing Interactive Latency and Resolution Sensitivity for Scalable Linked Visualizations

纵饮孤独 提交于 2019-11-26 14:22:38
作者: Dominik Moritz, Bill Howe, Jeffrey Heer 发表于CHI 2019, 三位作者都来自于University of Washington Interactive Data Lab 项目代码: https://github.com/uwdata/falcon 简介 Linked Visualization(链接可视化系统)是通过刷选、放缩等操作,在不同可视化视图上进行交互,链接(link)不同视图的操作,并更新视图的一种可视化方式。为了支持有效的探索,Linked Visualization必须提供快速响应来消除延迟敏感。在百万级以上的数据量时,传统可视化方法无法实现 实时 的探索,引出一系列问题。 本文提出falcon,一个大数据Linked Visualizations的低延迟方案,实现对十亿数据集的冷启动探索。falcon平衡交互延迟和视图精度,从查询和界面系统两方面对Linked Visualizations进行优化,降低刷选和链接(brushing and linking)的延迟。结合数据索引,数据预取和渐进式交互等方法,falcon系统使用加载数据子索引来优化刷选延迟,通过逐步加载交互式分辨率,以减少视图切换时间。实验表明,falcon实现了50fps的刷选交互延迟,无需昂贵的预计算和存储代价。 相关工作 Linked