独孤九剑-Spark面试80连击(下)
By 大数据技术与架构 场景描述: 这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除! 再次感谢各位提供的资料,如果你有一定的 Spark 基础,但是经常在面试中表现不佳,那么这篇总结应该非常适合你! 关键词: Spark 面试题 书接: 《独孤九剑-Spark面试80连击(上)》 订正: 第37题题目应为:说说Spark的WAL(预写日志)机制? Spark SQL和Structured Streaming会另起专题介绍, 欢迎持续关注。 39. Spark的UDF? 因为目前 Spark SQL 本身支持的函数有限,一些常用的函数都没有,比如 len, concat...etc 但是使用 UDF 来自己实现根据业务需要的功能是非常方便的。Spark SQL UDF 其实是一个 Scala 函数,被 catalyst 封装成一个 Expression 结点,最后通过 eval 方法计根据当前 Row 计算 UDF 的结果。UDF 对表中的单行进行转换,以便为每行生成单个对应的输出值。例如,大多数 SQL 环境提供 UPPER 函数返回作为输入提供的字符串的大写版本。 用户自定义函数可以在 Spark