Jupyter Notebook

如何在本地调试你的 Spark Job

给你一囗甜甜゛ 提交于 2020-08-14 03:52:54
生产环境的 Spark Job 都是跑在集群上的,毕竟 Spark 为大数据而生,海量的数据处理必须依靠集群。但是在开发Spark的的时候,不可避免我们要在本地进行一些开发和测试工作,所以如何在本地用好Spark也十分重要,下面给大家分享一些经验。 首先你需要在本机上安装好了Java,Scala和Spark,并配置好了环境变量。详情请参考官方文档或其他教程。 spark-shell 本地运行Spark最直接的方式就是在命令行里面运行spark-shell,成功后你将看到如下信息: 首先可以仔细阅读一下命令行的提示信息, Picked up _JAVA_OPTIONS: -Xmx512M -Xms512M // _JAVA_OPTIONS是我在系统环境变量里面设置的值 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties // 告诉你log4j使用配置 Setting default log level to "WARN". // log级别 To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). // 如何调整log级别 Spark context

淘宝口红爬虫入门+数据分析(超详细)

有些话、适合烂在心里 提交于 2020-08-14 00:36:25
大家可以先下载代码,这是我的github地址 起因: 刚好高中学金融同学遇到课程要对进行商品爬虫和分析的,自己实在没办法的情况下找到了我。自己对爬虫也是一头雾水,数据分析倒是有一定的基础,也只能硬着头皮上了。 开始 自己尝试先在csdn和github找能够爬虫的代码,好像都碰到挺多问题的,大多数都不能跑,要不就是代码太多人跑了链接被封了,要不就是环境问题。能找到要不就是爬的数据太简陋了,只有商品名称和价格。 import requests from bs4 import BeautifulSoup import urllib import xlsxwriter headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36" } def get_good_urls ( word ) : url_str = urllib . parse . quote ( word ) urls = ( "https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&offset=4&page={

个人总结

泄露秘密 提交于 2020-08-13 08:43:33
回望4个月的软件工程实践走过的路 1)你做了哪些作业 1、个人作业 链接: 第一次博客作业 第二次个人作业 总结: 在个人作业当中,首先是对于寒假期间的小作业,那时候是一个突如其来的信息, 上大学来收到的第一份假期作业,那个时候个人是在迷茫当中的,在疫情期间, 这无疑是一次最好缓解压力的一件事,对大多数同学来说这无疑是一次最好的放松, 对于很多被封锁在自家门户里无法出去的人是再好不过的了, 在这期间,我重新对之前所学过的Python、C、java等一些语言进行了一次小小的复习 对之前使用的软件重新使用了一下;在此之后,就开始了软件工程这门课程的学习, 在学习期间完成了大部分课上的作业,在这个期间,以UML图形的设计最为突出。 2、结对作业 链接: 第一次结对作业 第二次结对作业 总结: 结对作业这一部分,主要是以二人合作的方式进行交流学习和实现,在这个环节还是挺开心的, 作业的主要内容是对疫情期间网课学习的一些调查,然后进行可视化呈现出来,收集数据环节, 我们主要是采取了问卷调查的方式进行了数据的收集,不得不说在这个阶段还是挺不容易的, 先不说数据的可行性,就当说找到对应的人填写问卷就是很难的一件事情,如果不是认识的人, 可以说没有多少人会愿意给你动手,之后在团队作业我们也做了问卷,虽说这是最实时的数据, 但是收集起来实在不易。 本次作业最主要的还是可视化环节

使用Jupyter定制个性化python

♀尐吖头ヾ 提交于 2020-08-13 01:47:40
现阶段python在人工智能及数据分析中得到了很多的实践成果。而python的编辑器也有很多种,如:pychram、N++、jupyter……其中jupyter以web的形式来进行编辑的工具。接下来讲下如何使用睿江云服务来部署jupyter这强大的工具。 一、环境配置 1.centeos7 2.python3 二、安装jupyter notebook 安装jupyter 安装Jupyter Notebook 通过pip安装Jupyter Notebook #安装jupyter notebook python3 -m pip install jupyter #安装完会在python3的包管理器,创建一个软连接以便在任何地方都可以直接执行 ln -s /usr/local/python3/bin/jupyter /usr/bin/jupyter 通过jupyter notebook命令启动Jupyter服务器,验证是否安装成功 [root@instance-hrnebyqu bin]# jupyter notebook --allow-root [I 11:26:22.273 NotebookApp] JupyterLab beta preview extension loaded from /root/anaconda3/lib/python3.6/site-packages

基础服务系列-Jupyter Notebook 支持Java

邮差的信 提交于 2020-08-12 05:45:45
A Jupyter kernel for executing Java code. The kernel executes code via the new JShell tool. Download zip wget https://github.com/SpencerPark/IJava/releases/download/v1.3.0/ijava-1.3.0.zip unzip unzip ijava-1.3.0.zip install python3 install.py --sys-prefix install.py:169: DeprecationWarning: replace is ignored. Installing a kernelspec always replaces an existing installation replace=args.replace Installed java kernel into "/usr/local/share/jupyter/kernels/java" [root@iZm5ebatmxqsalaxch02a7Z ~]# jupyter kernelspec list Available kernels: java /usr/local/share/jupyter/kernels/java python3 /usr

Pycharm安装并配置jupyter notebook的实现

匆匆过客 提交于 2020-08-11 10:10:01
一: 安装命令jupyter: pip install jupyter 如果缺少依赖,缺啥装啥 二: 运行 jupyter notebook 首先,查看一下自己是否已经安装成功,在终端输入: jupyter notebook 如果运行成功,结果如下: [I 09:03:15.177 NotebookApp] JupyterLab beta preview extension loaded from /home/winddy/anaconda3/lib/python3.6/site-packages/jupyterlab [I 09:03:15.177 NotebookApp] JupyterLab application directory is /home/winddy/anaconda3/share/jupyter/lab [I 09:03:15.182 NotebookApp] Serving notebooks from local directory: /home/winddy [I 09:03:15.182 NotebookApp] 0 active kernels [I 09:03:15.182 NotebookApp] The Jupyter Notebook is running at: [I 09:03:15.182 NotebookApp] http:/

如何在本地调试你的 Spark Job

梦想的初衷 提交于 2020-08-11 07:17:25
生产环境的 Spark Job 都是跑在集群上的,毕竟 Spark 为大数据而生,海量的数据处理必须依靠集群。但是在开发Spark的的时候,不可避免我们要在本地进行一些开发和测试工作,所以如何在本地用好Spark也十分重要,下面给大家分享一些经验。 首先你需要在本机上安装好了Java,Scala和Spark,并配置好了环境变量。详情请参考官方文档或其他教程。 spark-shell 本地运行Spark最直接的方式就是在命令行里面运行spark-shell,成功后你将看到如下信息: 首先可以仔细阅读一下命令行的提示信息, Picked up _JAVA_OPTIONS: -Xmx512M -Xms512M // _JAVA_OPTIONS是我在系统环境变量里面设置的值 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties // 告诉你log4j使用配置 Setting default log level to "WARN". // log级别 To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). // 如何调整log级别 Spark context

阿里大神总结了,Python语言介绍及编译器选择,让小白少走弯路

拈花ヽ惹草 提交于 2020-08-11 06:45:36
Python (英国发音:/ˈpaɪθən/ )是一种广泛使用的解释型、高级编程、通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年。相比于C++或Java,Python让开发者能够用更少的代码表达想法。比如,完成同一个任务,C语言要写1000行代码,Java只需要写100行,而Python可能只要20行。代码少的代价是运行速度慢,C程序运行1秒钟,Java程序可能需要2秒,而Python程序可能就需要10秒。 Python支持多种编程范式,包括面向对象、命令式、函数式和过程式编程。其本身拥有一个巨大而广泛的标准库。提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容。用Python开发,许多功能不必从零编写,直接使用现成的即可。除了内置的库外,Python还有大量的第三方库,也就是别人开发的,供你直接使用的东西。当然,如果你开发的代码通过很好的封装,也可以作为第三方库给别人使用。 Python发展方向 1、WEB开发 Python拥有很多数据函数库、网页模板系统,以及与web服务器进行交互的库,可以支持web开发。Python中有各类框架,无论是简单的还是功能复杂的都应有尽有。而现在知乎、豆瓣等网站都是python提供的web服务器,证明web开发在国内发展还是不错的。目前最火的Python web框架Django, 它的优势在于性能优秀

Python排序算法(一)——快速排序

瘦欲@ 提交于 2020-08-11 04:45:34
有趣的事,Python永远不会缺席! 如需转发,请注明出处: 小婷儿的python https://www.cnblogs.com/xxtalhr/p/10768593.html   排序算法(Sorting algorithm)是计算机科学最古老、最基本的课题之一。要想成为合格的程序员,就必须理解和掌握各种排序算法。其中”快速排序”(Quicksort)使用得最广泛,速度也较快。它是图灵奖得主C. A. R. Hoare(托尼·霍尔)于1960时提出来的。 一、快速排序(Quicksort)   快速排序(quick sort)的采用了分治的策略。由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以 递归 进行,以此达到整个数据变成有序 序列 。 1、原理 在数列之中,选择一个元素作为”基准”(pivot),或者叫比较值。 数列中所有元素都和这个基准值进行比较,如果比基准值小就移到基准值的左边,如果比基准值大就移到基准值的右边 以基准值左右两边的子列作为新数列,不断重复第一步和第二步,直到所有子集只剩下一个元素为止。 举个例子,假设我现在有一个数列需要使用快排来排序:[11, 99, 33 , 69, 77,