并行处理 | 易学教程

Parallel Python实现python程序的并行及多cpu多核利用

阅读更多关于 Parallel Python实现python程序的并行及多cpu多核利用

为啥要这个模块： Python是解释型的语言,而Python解释器使用GIL(全局解释器锁)来在内部禁止并行执行,正是这个GIL限制你在多核处理器上同一时间也只能执行一条字节码指令. 听朋友说python 3.0 里面已经改进, 默认有了多处理器编程的库了. Python2.XX暂时还不支持。 Parallel Python 这个库,正是为支持smp多路多核多cpu而设计的, 而且它不仅可以多核处理器协同工作,还可以通过网络集群运行。官网： http://www.parallelpython.com/ pp模块的简介 PP 是一个Python模块，提供了在SMP(多CPU或多核)和集群(通过网络连接的多台计算机)上并行执行Python代码的机制。轻量级，易于安装，并集成了其他软件。PP也是一个用纯Python代码实现的跨平台，开放源码模块。下面是看起来很高端的功能介绍！ * 在SMP和集群上并行执行Python代码 * 易于理解和实现的基于工作的并行机制，便于把穿行应用转换成并行的 * 自动构造最佳配置(默认时工作进程数量等同于系统处理器数量) * 动态处理器分配(允许运行时改变工作处理器数量) * 函数的工作缓存(透明的缓存机制确保后续调用降低负载) * 动态负载均衡(任务被动态的分配到各个处理器上) * 基于SHA的连接加密认证 * 跨平台移植(Windows

并行计算：并行I/O服务器的操作参数

阅读更多关于并行计算：并行I/O服务器的操作参数

视频来源：新竹清华大学：并行计算与并行编程课程上图结论：随着年限，计算力的增长很快，而I/O近于平缓，二者之间的差距增大，带来不利的影响。需要一些方法来处理这较大的差距。解决方案： 1：I/O 内存等级：寻找新的硬件存储 2: 并行I/O：资源是分散式的，每一层最好是平行，可以发挥出最好性能。OST:存放目录索引数据，这里是Non-volatile内存。 3：Burst buffering： Buffering(传输资料时速度不同一，通过在中间增加一块内存进行缓和)，优点：由于是内存，速度快，前面部分burst,后半部分频宽很稳定。而且是non-volatile内存可以防止资料丢失。总结：来源： https://www.cnblogs.com/fourmi/p/11923598.html

Python核心技术与实战——十七|Python并发编程之Futures

阅读更多关于 Python核心技术与实战——十七|Python并发编程之Futures

不论是哪一种语言，并发编程都是一项非常重要的技巧。比如我们上一章用的爬虫，就被广泛用在工业的各个领域。我们每天在各个网站、App上获取的新闻信息，很大一部分都是通过并发编程版本的爬虫获得的。正确并合理的使用并发编程，无疑会给我们的程序带来极大性能上的提升。今天我们就一起学习Python中的并发编程——Futures。区分并发和并行我们在学习并发编程时，常常会听到两个词：并发(Concurrency)和并行(Parallelism)这两个术语。这两者经常一起使用，导致很多人以为他们是一个意思，其实是不对的。首先要辨别一个误区，在Python中，并发并不是只同一时刻上右多个操作(thread或者task)同时进行。相反，在某个特定的时刻上它只允许有一个操作的发生，只不过线程或任务之间会相互切换直到完成，就像下面的图里表达的在上图中出现了task和thread两种切换顺序的不同方式。分别对应了Python中并发两种形式——threading和asyncio。对于线程，操作系统知道每个线程的所有信息，因此他会做主在适当的时候做线程切换，这样的好处就是代码容易编写，因为程序员不需要做任何切换操作的处理；但是切换线程的操作，有可能出现在一个语句的执行过程中( 比如X+=1)，这样比较容易出现race condiiton的情况。而对于asyncio

Acvitivi网关(十一)

阅读更多关于 Acvitivi网关(十一)

1 排他网关 1.1 什么是排他网关排他网关（也叫异或（ XOR ）网关，或叫基于数据的排他网关），用来在流程中实现决策。当流程执行到这个网关，所有分支都会判断条件是否为 true ，如果为 true 则执行该分支，注意，排他网关只会选择一个为 true 的分支执行。 ( 即使有两个分支条件都为 true ，排他网关也会只选择一条分支去执行 ) 为什么要用排他网关？不用排他网关也可以实现分支，如下图：上图中，在连线的 condition 条件上设置分支条件。缺点：如果条件都不满足，不使用排他网关，流程就结束了 ( 是异常结束 ) 。如果使用排他网关决定分支的走向，如下：如果从网关出去的线所有条件都不满足则系统抛出异常。说明：经过排他网关必须要有一条且只有一条分支走测试没有排他网关的 //1.部署流程定义 public static void main(String[] args) { //1.创建ProcessEngine对象 ProcessEngine processEngine = ProcessEngines.getDefaultProcessEngine(); //2.得到RepositoryService实例 RepositoryService repositoryService = processEngine

Oracle 并行操作

阅读更多关于 Oracle 并行操作

SQL 语句缺省是在一个 CPU上串行（Serial）执行的，即便系统中有多个 CPU存在，一个 SQL 语句也无法利用它们。这样一来一个 CPU 所能使用的资源就决定了 SQL 语句的性能。这时提升性能的另一种方法就应运而生，也就是并行处理——同时利用多个 CPU进行工作。正统的理论界认为，企业的数据库有两种类型，OLTP 和 OLAP，前者用于业务处理，其特点是大量的运行时间很短的事务型 SQL 语句，并行操作在这种系统中作用有限。后一种用于数据分析，其特点是大量的查询型 SQL 语句，这里才是并行操作大展身手的舞台。但在实际的企业环境中，由于成本的制约，可能无法部署一台单独的 OLAP 数据仓库。功能界限的也就无法绝对切割，很多 7×24 的业务数据库也要支持数据统计分析功能，虽然理论上这些功能应该是在一个独立的数据仓库中完成。因此无论对于数据仓库还是 OLTP 系统，并行处理是一个非常有用的工具。 Oracle 的并行处理是从 1996 年的 Oracle 7.3 版本开始出现的，随着 Oracle 数据库的发展，这个功能也不断得到发展和提升。习惯上用户都觉得似乎只有数据仓库才能从并行能力中获益，其实这中理解并不全面。Oracle 的并行处理并不局限于查询功能（SELECT），DML 操作（INSERT、UPDATE、DELETE）、DDL 操作

Spark--大数据的“电光石火”

阅读更多关于 Spark--大数据的“电光石火”

Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名，展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方面，Spark很好地利用了Hadoop和Mesos（伯克利另一个进入孵化器的项目，主攻集群的动态资源管理）的基础设施。虽然很轻，但在容错设计上不打折扣。主创人Matei声称：“不把错误当特例处理。”言下之意，容错是基础设施的一部分。快：Spark对小数据集能达到亚秒级的延迟，这对于Hadoop MapReduce（以下简称MapReduce）是无法想象的（由于“心跳”间隔机制，仅任务启动就有数秒的延迟）。就大数据集而言，对典型的迭代机器学习、即席查询（ad-hoc query）、图计算等应用，Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍。其中内存计算、数据本地性（locality）和传输优化、调度优化等该居首功，也与设计伊始即秉持的轻量理念不无关系。灵：Spark提供了不同层面的灵活性。在实现层，它完美演绎了Scala trait动态混入（mixin）策略

并发编程模型

阅读更多关于并发编程模型

原文链接作者: Jakob Jenkov 译者: 林威建 [weakielin@gmail.com] 并发系统可以采用多种并发编程模型来实现。并发模型指定了系统中的线程如何通过协作来完成分配给它们的作业。不同的并发模型采用不同的方式拆分作业，同时线程间的协作和交互方式也不相同。这篇并发模型教程将会较深入地介绍目前（2015年，本文撰写时间）比较流行的几种并发模型。并发模型与分布式系统之间的相似性本文所描述的并发模型类似于分布式系统中使用的很多体系结构。在并发系统中线程之间可以相互通信。在分布式系统中进程之间也可以相互通信（进程有可能在不同的机器中）。线程和进程之间具有很多相似的特性。这也就是为什么很多并发模型通常类似于各种分布式系统架构。当然，分布式系统在处理网络失效、远程主机或进程宕掉等方面也面临着额外的挑战。但是运行在巨型服务器上的并发系统也可能遇到类似的问题，比如一块CPU失效、一块网卡失效或一个磁盘损坏等情况。虽然出现失效的概率可能很低，但是在理论上仍然有可能发生。由于并发模型类似于分布式系统架构，因此它们通常可以互相借鉴思想。例如，为工作者们（线程）分配作业的模型一般与分布式系统中的负载均衡系统比较相似。同样，它们在日志记录、失效转移、幂等性等错误处理技术上也具有相似性。【注：幂等性，一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同】

200G光模块最全解析

阅读更多关于 200G光模块最全解析

　　光模块市场正稳步向200G/400G发展，虚拟数据中心、物联网（IoT）和云计算不断普及，对更高带宽的需求推动了光模块市场的繁荣。而今，200G/400G的光模块也已出现，并有望在未来几年继续保持良好的势头。以下为您带来 200G光模块最全解析。　　下一代数据中心的主流：200G/400G 　　数据中心光互连市场的主要转变是从10G到40G以及更高的40G到100G，另一个可预见的趋势是逐步淘汰核心网络和数据中心的低速光模块。100G光器件的新发展为200G/400G光器件铺平了道路。下一代数据中心在2018年底部署200G/400G以太网，并在2019或2020年成为主流。　　总的来说，光模块市场正在向更高的速度，更低的功耗和更小的外形或尺寸发展。其中光模块封装多采用SFP-DD/QSFP-DD。　　SFP-DD小型自动可插拔双倍密度封装光模块，比SFP28或SFP56带宽（25G/50G）提高一倍，支持更高速率（50G/100G）的同时还保持SFP28或SFP56向后兼容性。　　QSFP-DD四通道小型可插拔双倍密度封装光模块，由QSFP-DD MSA组定义，比QSFP28或QSFP56的密度增加一倍，8个通道，每通道速率高达25G或50G，因此支持200G或400G光传输。　　Google、Facebook等互联网巨头数据中心内部流量每年增长幅度接近100

spark项目技术点整理

阅读更多关于 spark项目技术点整理

spark项目技术点整理 1.性能调优：　　 1>分配更多的资源：性能调优的王道就是分配和增加更多的资源。写完一个spark作业后第一个要是调节最优的资源配置，能够分配的资源达到你的能力范围的顶端后，才是考虑以后的性能调优。　　2>分配那些资源： executor,cpu per executor,memory per executor.,driver memory 　　3>在哪里分配：在提交spark作业时，用spark脚本，里面调整参数　　 /usr/local/spark/bin/spark-submit \ 　　--class.cn.spark.sparktest.core.WordCountCluster \ 　　--num-executor 3 \ 　　--driver-memory 100m \ 　　--executor-memory 100m \ 　　--executor-core \ 　　/usr/localSparkTest-0.0.1SNAPHOT-jar-with-dependencies.jar \ 　　 4>调节多大合适：　　spark standalone:根据公司集群配置，如每台可以提供4G内存，2个cpu core；20台机器：一个作业同时提交：executor:20,4g内存，2个cpu core ，平均每个executor。　

drools 决策引擎介绍、开发

阅读更多关于 drools 决策引擎介绍、开发

1. 背景介绍 1.1 何为规则引擎很多企业的IT业务系统中，经常会有大量的业务规则配置，而且随着企业管理者的决策变化，这些业务规则也会随之发生更改，为了适应这样的需求，IT业务系统应该能够快速且低成本的更新，通常做法是将业务规则的配置单独拿出来，使之与业务系统保持低耦合，实现这样功能的程序，叫做规则引擎。接受数据输入，解释业务规则，并根据业务规则作出业务决策，从而实现了将业务决策从应用程序中分离出来。 1.2 一个实际的例子银行贷款业务中，每种贷款类型都有不同的业务规则，并且这些规则也可能会根据实际应用情况进行调整，如觉得网贷产品类型有如下判定规则：如果公积金缴存基数大于6000则进入白领贷如果公积金缴存基数小于6000但单位性质是国家机关/事业单位也进入白领贷如果公积金缴存基数小于6000且单位性质为非国家机关/事业单位则进入市民易贷如果公积金缴存基数小于6000并且单位性质缺失则进入公积金贷如果在代码中处理这类业务逻辑，会有很多的IF/ELSE，并且如果规则发生变化，还需要重新编写代码、编译、部署才能上线。而通过规则引擎，可以方便的将这类业务强相关的逻辑放到规则引擎中执行 1.3 规则引擎的优点对系统的使用人员 l 把业务策略（规则）的创建、修改和维护的权利交给业务经理 l 提高业务灵活性 l 加强业务处理的透明度，业务规则可以被管理 l

订阅并行处理