Spark学习之路(十)―― Spark SQL 外部数据源
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/m0_37809146/article/details/91281766 一、简介 1.1 多数据源支持 Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从本仓库的 resources 目录进行下载 1.2 读数据格式 所有读取API遵循以下调用格式: // 格式 DataFrameReader.format(...).option("key", "value").schema(...).load() // 示例 spark.read.format("csv") .option("mode", "FAILFAST") // 读取模式 .option("inferSchema", "true") // 是否自动推断schema .option("path", "path/to/file(s)") // 文件路径 .schema(someSchema) // 使用预定义的schema .load() 读取模式有以下三种可选项: 读模式 描述 permissive 当遇到损坏的记录时