cassandra

Unable to run cassandra

…衆ロ難τιáo~ 提交于 2020-04-07 06:22:08
问题 I downloaded cassandra binary from apache site, version 3.11.5. OS is Windows 10. But running command 'cassandra' in bin directory gives error: ERROR [MemtableFlushWriter:1] 2020-01-28 14:04:34,589 DefaultFSErrorHandler.java:92 - Exiting forcefully due to file system exception on startup, disk failure policy "stop" org.apache.cassandra.io.FSReadError: java.io.IOException: Invalid folder descriptor trying to create log replica C:\work\softwares\cassandra\apache\apache-cassandra-3.11.5\data

Unable to run cassandra

江枫思渺然 提交于 2020-04-07 06:21:35
问题 I downloaded cassandra binary from apache site, version 3.11.5. OS is Windows 10. But running command 'cassandra' in bin directory gives error: ERROR [MemtableFlushWriter:1] 2020-01-28 14:04:34,589 DefaultFSErrorHandler.java:92 - Exiting forcefully due to file system exception on startup, disk failure policy "stop" org.apache.cassandra.io.FSReadError: java.io.IOException: Invalid folder descriptor trying to create log replica C:\work\softwares\cassandra\apache\apache-cassandra-3.11.5\data

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第8章-应用数据库

风流意气都作罢 提交于 2020-04-06 09:24:11
python数据分析个人学习读书笔记-目录索引 第8章应用数据库   本章中,我们将为读者介绍各种数据库及其应用编程接口。这里所说的数据库包括关系型数据库以及非关系型(NoSQL)数据库。关系型数据库是由数据表汇集而成的,更重要的是,这些数据表中的数据是按照数据项之间的关系进行组织的。当然,这里所说的关系,也可以是某个数据表中的行数据与其他数据表中的行数据之间的关系。关系型数据库不仅涉及数据表之间的关系,首先,它要处理同一个数据表中不同列之间的关系(很明显,一个数据表内的各列毫无疑问是相关的);其次,它还要处理数据表之间的关系。   伴随着大数据和Web应用的流行,非关系型(Not Only SQL,NoSQL)数据库也开始野蛮生长。NoSQL系统将成为类SQL事实上的标准。NoSQL数据库的主旨在于,使用比关系模型更为灵活的方式来存储数据。这就可能意味着,无需数据库模式或者灵活的数据库模式。当然,灵活性和速度也是有代价的,例如无法始终保证事务的一致性。NoSQL数据库可以利用面向列的方法以字典的形式来储存数据,这些数据对象包括文档、对象、图、元组,甚至这些对象的组合体。本章将要介绍的主题如下。 基于sqlite3的轻量级访问 通过Pandas访问数据库 SQLAlchemy Pony ORM Dataset:懒人数据库 PyMongo与MongoDB 利用Redis存储数据

《python数据分析(第2版)-阿曼多.凡丹戈》读书笔记第8章-应用数据库

瘦欲@ 提交于 2020-04-06 08:32:15
python数据分析个人学习读书笔记-目录索引 第8章应用数据库   本章中,我们将为读者介绍各种数据库及其应用编程接口。这里所说的数据库包括关系型数据库以及非关系型(NoSQL)数据库。关系型数据库是由数据表汇集而成的,更重要的是,这些数据表中的数据是按照数据项之间的关系进行组织的。当然,这里所说的关系,也可以是某个数据表中的行数据与其他数据表中的行数据之间的关系。关系型数据库不仅涉及数据表之间的关系,首先,它要处理同一个数据表中不同列之间的关系(很明显,一个数据表内的各列毫无疑问是相关的);其次,它还要处理数据表之间的关系。   伴随着大数据和Web应用的流行,非关系型(Not Only SQL,NoSQL)数据库也开始野蛮生长。NoSQL系统将成为类SQL事实上的标准。NoSQL数据库的主旨在于,使用比关系模型更为灵活的方式来存储数据。这就可能意味着,无需数据库模式或者灵活的数据库模式。当然,灵活性和速度也是有代价的,例如无法始终保证事务的一致性。NoSQL数据库可以利用面向列的方法以字典的形式来储存数据,这些数据对象包括文档、对象、图、元组,甚至这些对象的组合体。本章将要介绍的主题如下。 基于sqlite3的轻量级访问 通过Pandas访问数据库 SQLAlchemy Pony ORM Dataset:懒人数据库 PyMongo与MongoDB 利用Redis存储数据

Spark Cassandra Connector Java API append/remove data in a collection fail

懵懂的女人 提交于 2020-03-26 03:16:27
问题 I am trying to append values to a column of type set, via the JAVA API. It seems that the connector disregards the type of CollectionBehavior I am setting, and always overrides the previous collection. Even when I use CollectionRemove, the value to be removed is added to the collection. I am following the example as shown in: https://datastax-oss.atlassian.net/browse/SPARKC-340?page=com.atlassian.jira.plugin.system.issuetabpanels%3Achangehistory-tabpanel I am using: spark-core_2.11 2.2.0

Cassandra最佳实践(3)配置篇

£可爱£侵袭症+ 提交于 2020-03-25 09:14:26
3 月,跳不动了?>>> 本篇文章我们主要介绍cassandra的相关配置,我把cassandra的相关配置中个人觉得相对比较重要的按照集群、节点这个横向维度进行介绍,可能有的配置我不会列在这里,那么具有见cassandra.yaml里面的详细介绍;如何配置cassandra,需要在集群启动的时候在conf目录下面的cassandra.yaml里面进行配置即可。此外我们的配置需要遵守yaml文件配置规则。本处以3.11.4进行介绍 集群维度 cluster_name: //集群的名字,默认是Test Cluster,用''括起来。不同的cluster name的节点无法组成一个集群 num_tokens: 256 //集群中单节点的的分配token数,因为使用vnode,也就是vnode的个数,每个token是随机生成的,此外如果不使用vnode的话,可以使用每个节点预分配一个初始的token,通过下面的配置下; initial_token: //如果集群不想使用vnode的话,需要手工给每个节点进行token配置,手工计算节点的token数,但是扩容的时候建议是成倍扩容。vnode不需要 partitioner: //集群的数据分配算法,也就是常见的一致性hash算法中计算hash的那个模块,其中默认使用org.apache.cassandra.dht

Cassandra 最佳实践系列(2)

99封情书 提交于 2020-03-25 09:05:18
3 月,跳不动了?>>> 本文会从cassandra的选型,机器基本配置,节点数,基本使用介绍方面进行基本的介绍; 机器基本配置选择 Cassandra的性能使用可以随着机器的硬件配置,以及集群的节点数的横向和纵向的升级而相应的有所提升。 CPU Cassandra内部会有很多地方使用多线程进行处理,一般配置里面对于读写而言,写操作是CPU bound,所以如果系统的写操作会相对多一点,对cpu的要求也会相对配置要好一点,一般至少是2c起步,如果是生产环境对写要求更高,相对的cpu核数应该更好。 内存 Cassandra使用java 语言编写,会用到jvm-on heap内存以及offheap内存,其中jvm预先想操作系统申请的内存大小是系统大小的1/2, 其中off-heap会使用于压缩元数据,bloom filter等等。官方建议生产环境内存不低于8G,但是具体可以视自己的需求再说,对于gc算法来说: 堆内存小于12G,推荐cms算法; 大于12G堆内存的话,可以使用G1 算法; 磁盘 对于cassandra而言有几个地方需要使用到磁盘,commitlog、hint、cache-file、sstable-file。其中对我们来说,我们需要重点关注commitlog的文件以及sstable的文件,因为写操作会先写commitlog,然后把数据丢到memtable

SQL、NoSQL 和 NewSQL,长江后浪推进浪!

时光毁灭记忆、已成空白 提交于 2020-03-25 09:05:07
3 月,跳不动了?>>> 作者:hiekay https://www.jianshu.com/p/ed55f20e736a SQL作为主要的数据存储方式已经超过40年,并且经历了至少两个指数扩张期:20世纪90年代Web应用程序崛起之后,以及在过去十年中由于移动设备爆炸引起的扩张。 因此,越来越小的公司开始发现使用数据库的好处,而像Google这样的互联网巨头则已经将数据单位上升到PB或甚至EB。 在SQL 的发展过程中,产生了许多迭代产品,其中最重要的是SQL,NoSQL和NewSQL — 它们一起负责绝大部分的数据库市场。 所以,如果你要选择一个数据库工具,你应该选择哪一个?其实,没有明确的答案。不同的人和公司选择不同,这更多地取决于他们对每个特定项目的偏好和相对优势,而不是其中一个对其他所有的直接优势。那么,这些优点和缺点是什么?让我们来看一下。 SQL SQL是关系型数据库管理系统(RDBMS),顾名思义,它是围绕关系代数和元组关系演算构建的。 70年代以来,它一直是主要的数据库解决方案,只是最近才有了其他产品的空间。不管有些人说什么,这意味着它一直能出色地执行广泛的任务。其主要优点如下: 不同的角色(开发者,用户,数据库管理员)使用相同的语言。 不同的RDBMS使用统一标准的语言。 SQL使用一种高级的非结构化查询语言。 它坚持 ACID 准则 (原子性,一致性,隔离性

Cassandra源码解析系列启动模块

瘦欲@ 提交于 2020-03-25 07:28:12
3 月,跳不动了?>>> 以3.11.4为基础 Cassandra 启动流程从bin下面的cassandra脚本开始进去看,会涉及到cassandra-env.sh进行进程启动的一些参数设置比如堆上内存分配,日志参数配置,基本环境设置等,我们直接看到启动的进程,也就是launch_service 这个函数,然后看到里面的exec 执行JAVA的进程,也就是class(launch_service参数传进来的classname为org.apache.cassandra.service.CassandraDaemon类);大概的流程是: cassandra -> lauch_service -> JAVA启动org.apache.cassandra.service.CassandraDaemon; 接下来就是看到org.apache.cassandra.service.CassandraDaemon这个类,直接在这个类里面通过main函数找到启动的入口: public static void main(String[] args) { instance.activate(); } 在active函数里面有3个主要要看的函数: // Do not put any references to DatabaseDescriptor above the

Cassandra 最佳实践系列(1)

可紊 提交于 2020-03-25 07:16:29
3 月,跳不动了?>>> Cassandra最佳实践细节(1)常见CQL使用(1) 数据类型 CQL_TYPE包含如下几类: native type; collection type; user defined type; tuple type; Custom type; native type 类型 变量可用类型 描述 ascii string ASCII 字符串 bigint integer 64位有符号long blob blob 任意字节 boolean boolean true、false counter integer counter 列(64位有符号) date integer、string 日期常量类型 decimal integer、float 可变精度小数 double integer、float 64位IEEE-754浮点 duration duratio 纳秒精确度的持续时间 float integer、float 32位IEEE-754浮点 inet string IP地址、ipv4或者ipv6,因为没有ip类型,所以用string作为输入 int integer 32位 有符号int smallint integer 16位有符号int text string UTF-8编码string time integer、string 纳秒精度的时间