数据库分区

2 Linux的一些基础知识1

安稳与你 提交于 2019-11-26 08:38:53
一、Linux中的一些注意事项 1、Linux严格区分大小写 2、Linux一切皆文件 3、Linux不靠扩展名区分文件类型而是靠权限位标识来确定文件类型的。   但是Linux中的一些特殊文件还是要求写“拓展名的”为了方便管理员判断文件的格式。 压缩包:常见的压缩文件名有:*.gz *.bz2 *.zip *.tar.gz *.tar.bz2 *.tgz 二进制软件包:Centos中二进制安装包为rpm包,使用.rpm结尾,目的也是为了让管理员一目了然 程序文件:shell脚本一般用*.sh c语言*.c 网页文件 *.html *.php 不过这是网页服务器的要求而不是linux的要求 4、Linux中所有的存储设备都必须在挂载之后才能使用。 5、window下的程序不能直接在Linux中使用 Linux中的三种时间:atime(访问时间),ctime(状态修改时间)和mtime(数据修改时间) 二、Linux的版本 分为内核版本和发行版本 内核版:www.kernel.org(Linux内核版官网) 发行版主要分为两个系列Redhat和debian 三、Vmware的三种网络模式 桥接模式:本地真实网卡与虚拟机通信 NAT模式:VMnet8与虚拟机通信 仅主机模式:VMnet1与虚拟机通信 四、分区知识 两种分区类型: 1、MBR分区表(主引导记录分区表):最大支持2

Spark SQL常见4种数据源(详细)

坚强是说给别人听的谎言 提交于 2019-11-25 23:05:22
通用load/write方法 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。 修改配置项 spark.sql.sources.default ,可修改默认数据源格式。 scala> val df = spark.read.load("hdfs://hadoop001:9000/namesAndAges.parquet") df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> df.select("name").write.save("names.parquet") 当数据源格式不是parquet格式文件时,需要手动指定数据源的格式。数据源格式需要指定全名(例如: org.apache.spark.sql.parquet ),如果数据源格式为内置格式,则只需要指定简称json, parquet, jdbc, orc, libsvm, csv, text来指定数据的格式。