RDKIT+postgresql做化合物数据存储与查找
RDKIT: rdkit的安装与使用,直接conda instal rdkit,不行的话,使用源码安装,将RDKIT源码下载解压到acaconda的pkg目录下,打开cmd,进入pkg下的 rdki目录使用python setup.py install ,就可以安装好RDKIT,顺便提一下RDKIT有点未知性。。有时候代码这台机器能用,那台机器不能用。。 本次使用RDKIT主要是mol文件转成smiles文件,画出化合物的2D结构图,主要用到Chem下面的几个函数。 RDKIT文档: http://www.rdkit.org/docs/index.html postgresql: postgresql是一款强大的开源数据库,对于原生的postgresql来说有很多强大的功能,比如自带分区,并行查询的功能。 postgresql也含有大量的插件,pg-xc,pg-pool,stado等,为postgresql的分布式部署提供了解决方案。 本次的数据是一个12TB 1E分子的化合物数据库,在我实践之下只选择了670M的数据。 整个项目的大体构思如下 数据库存储 关系型数据库,如MySQL,PostgreSQL 分布式存储 数据库查询 Map-Reduce分布式查询 PostgreSQL嵌入结构查询引擎,快速检索