Jupyter Notebook | 易学教程

如何在本地调试你的 Spark Job

阅读更多关于如何在本地调试你的 Spark Job

生产环境的 Spark Job 都是跑在集群上的，毕竟 Spark 为大数据而生，海量的数据处理必须依靠集群。但是在开发Spark的的时候，不可避免我们要在本地进行一些开发和测试工作，所以如何在本地用好Spark也十分重要，下面给大家分享一些经验。首先你需要在本机上安装好了Java，Scala和Spark，并配置好了环境变量。详情请参考官方文档或其他教程。 spark-shell 本地运行Spark最直接的方式就是在命令行里面运行spark-shell，成功后你将看到如下信息：首先可以仔细阅读一下命令行的提示信息， Picked up _JAVA_OPTIONS: -Xmx512M -Xms512M // _JAVA_OPTIONS是我在系统环境变量里面设置的值 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties // 告诉你log4j使用配置 Setting default log level to "WARN". // log级别 To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). // 如何调整log级别 Spark context

淘宝口红爬虫入门+数据分析（超详细）

阅读更多关于淘宝口红爬虫入门+数据分析（超详细）

大家可以先下载代码，这是我的github地址起因：刚好高中学金融同学遇到课程要对进行商品爬虫和分析的，自己实在没办法的情况下找到了我。自己对爬虫也是一头雾水，数据分析倒是有一定的基础，也只能硬着头皮上了。开始自己尝试先在csdn和github找能够爬虫的代码，好像都碰到挺多问题的，大多数都不能跑，要不就是代码太多人跑了链接被封了，要不就是环境问题。能找到要不就是爬的数据太简陋了，只有商品名称和价格。 import requests from bs4 import BeautifulSoup import urllib import xlsxwriter headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36" } def get_good_urls ( word ) : url_str = urllib . parse . quote ( word ) urls = ( "https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&offset=4&page={

个人总结

阅读更多关于个人总结

回望4个月的软件工程实践走过的路 1）你做了哪些作业 1、个人作业链接: 第一次博客作业第二次个人作业总结: 在个人作业当中，首先是对于寒假期间的小作业，那时候是一个突如其来的信息，上大学来收到的第一份假期作业，那个时候个人是在迷茫当中的，在疫情期间，这无疑是一次最好缓解压力的一件事，对大多数同学来说这无疑是一次最好的放松，对于很多被封锁在自家门户里无法出去的人是再好不过的了，在这期间，我重新对之前所学过的Python、C、java等一些语言进行了一次小小的复习对之前使用的软件重新使用了一下；在此之后，就开始了软件工程这门课程的学习，在学习期间完成了大部分课上的作业，在这个期间，以UML图形的设计最为突出。 2、结对作业链接: 第一次结对作业第二次结对作业总结: 结对作业这一部分，主要是以二人合作的方式进行交流学习和实现，在这个环节还是挺开心的，作业的主要内容是对疫情期间网课学习的一些调查，然后进行可视化呈现出来，收集数据环节，我们主要是采取了问卷调查的方式进行了数据的收集，不得不说在这个阶段还是挺不容易的，先不说数据的可行性，就当说找到对应的人填写问卷就是很难的一件事情，如果不是认识的人，可以说没有多少人会愿意给你动手，之后在团队作业我们也做了问卷，虽说这是最实时的数据，但是收集起来实在不易。本次作业最主要的还是可视化环节

使用Jupyter定制个性化python

阅读更多关于使用Jupyter定制个性化python

现阶段python在人工智能及数据分析中得到了很多的实践成果。而python的编辑器也有很多种，如：pychram、N++、jupyter……其中jupyter以web的形式来进行编辑的工具。接下来讲下如何使用睿江云服务来部署jupyter这强大的工具。一、环境配置 1.centeos7 2.python3 二、安装jupyter notebook 安装jupyter 安装Jupyter Notebook 通过pip安装Jupyter Notebook #安装jupyter notebook python3 -m pip install jupyter #安装完会在python3的包管理器，创建一个软连接以便在任何地方都可以直接执行 ln -s /usr/local/python3/bin/jupyter /usr/bin/jupyter 通过jupyter notebook命令启动Jupyter服务器，验证是否安装成功 [root@instance-hrnebyqu bin]# jupyter notebook --allow-root [I 11:26:22.273 NotebookApp] JupyterLab beta preview extension loaded from /root/anaconda3/lib/python3.6/site-packages

基础服务系列-Jupyter Notebook 支持Java

阅读更多关于基础服务系列-Jupyter Notebook 支持Java

A Jupyter kernel for executing Java code. The kernel executes code via the new JShell tool. Download zip wget https://github.com/SpencerPark/IJava/releases/download/v1.3.0/ijava-1.3.0.zip unzip unzip ijava-1.3.0.zip install python3 install.py --sys-prefix install.py:169: DeprecationWarning: replace is ignored. Installing a kernelspec always replaces an existing installation replace=args.replace Installed java kernel into "/usr/local/share/jupyter/kernels/java" [root@iZm5ebatmxqsalaxch02a7Z ~]# jupyter kernelspec list Available kernels: java /usr/local/share/jupyter/kernels/java python3 /usr

5 分钟入门 IPython 和 Jupyter Notebook

阅读更多关于 5 分钟入门 IPython 和 Jupyter Notebook

来源： oschina 链接： https://my.oschina.net/u/4348626/blog/4273475

Pycharm安装并配置jupyter notebook的实现

阅读更多关于 Pycharm安装并配置jupyter notebook的实现

一：安装命令jupyter： pip install jupyter 如果缺少依赖，缺啥装啥二：运行 jupyter notebook 首先，查看一下自己是否已经安装成功，在终端输入： jupyter notebook 如果运行成功，结果如下： [I 09:03:15.177 NotebookApp] JupyterLab beta preview extension loaded from /home/winddy/anaconda3/lib/python3.6/site-packages/jupyterlab [I 09:03:15.177 NotebookApp] JupyterLab application directory is /home/winddy/anaconda3/share/jupyter/lab [I 09:03:15.182 NotebookApp] Serving notebooks from local directory: /home/winddy [I 09:03:15.182 NotebookApp] 0 active kernels [I 09:03:15.182 NotebookApp] The Jupyter Notebook is running at: [I 09:03:15.182 NotebookApp] http:/

如何在本地调试你的 Spark Job

阅读更多关于如何在本地调试你的 Spark Job

阿里大神总结了，Python语言介绍及编译器选择，让小白少走弯路

阅读更多关于阿里大神总结了，Python语言介绍及编译器选择，让小白少走弯路

Python （英国发音：/ˈpaɪθən/ ）是一种广泛使用的解释型、高级编程、通用型编程语言，由吉多·范罗苏姆创造，第一版发布于1991年。相比于C++或Java，Python让开发者能够用更少的代码表达想法。比如，完成同一个任务，C语言要写1000行代码，Java只需要写100行，而Python可能只要20行。代码少的代价是运行速度慢，C程序运行1秒钟，Java程序可能需要2秒，而Python程序可能就需要10秒。 Python支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。其本身拥有一个巨大而广泛的标准库。提供了非常完善的基础代码库，覆盖了网络、文件、GUI、数据库、文本等大量内容。用Python开发，许多功能不必从零编写，直接使用现成的即可。除了内置的库外，Python还有大量的第三方库，也就是别人开发的，供你直接使用的东西。当然，如果你开发的代码通过很好的封装，也可以作为第三方库给别人使用。 Python发展方向 1、WEB开发 Python拥有很多数据函数库、网页模板系统，以及与web服务器进行交互的库，可以支持web开发。Python中有各类框架，无论是简单的还是功能复杂的都应有尽有。而现在知乎、豆瓣等网站都是python提供的web服务器，证明web开发在国内发展还是不错的。目前最火的Python web框架Django, 它的优势在于性能优秀

Python排序算法（一）——快速排序

阅读更多关于 Python排序算法（一）——快速排序

有趣的事，Python永远不会缺席！如需转发，请注明出处：小婷儿的python https://www.cnblogs.com/xxtalhr/p/10768593.html 　　排序算法（Sorting algorithm）是计算机科学最古老、最基本的课题之一。要想成为合格的程序员，就必须理解和掌握各种排序算法。其中”快速排序”（Quicksort）使用得最广泛，速度也较快。它是图灵奖得主C. A. R. Hoare(托尼·霍尔)于1960时提出来的。一、快速排序（Quicksort）　　快速排序(quick sort)的采用了分治的策略。由C. A. R. Hoare在1962年提出。它的基本思想是：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。 1、原理在数列之中，选择一个元素作为”基准”（pivot），或者叫比较值。数列中所有元素都和这个基准值进行比较，如果比基准值小就移到基准值的左边，如果比基准值大就移到基准值的右边以基准值左右两边的子列作为新数列，不断重复第一步和第二步，直到所有子集只剩下一个元素为止。举个例子，假设我现在有一个数列需要使用快排来排序：[11, 99, 33 , 69, 77,

订阅 Jupyter Notebook