数据分析

python数据分析学习(6)输入载入,存储及文件格式(1)文本格式数据的读写

你说的曾经没有我的故事 提交于 2020-04-05 23:14:24
目录 一:文本格式数据的读写   pandas可以进行数据输入和输出,有以下几种类型:读取文本文件及硬盘上其他更高效的格式文件,从数据库中载入数据,于网络资源进行交互(比如Web API)。   下面进行不同文本文件的读取和写入操作讲解,首先进行文本格式数据的读写讲解。 一:文本格式数据的读写   将表格型数据读取为DataFrame对象是pandas的重要特性。下面介绍一下一些方法。   pd.read_csv():将csv文件数据读入一个DataFrame。   pd.read_table():将csv文件数据读入一个DataFrame,可以用sep指定分隔符,一般为",",可以针对不同的分隔符号用正则表达式分隔。   有时候文件并不包含表头行,就需要选择一些选项,用header=None可以自动分配默认列名,或者可以自己用names指定列名。   如果想要指定某一列作为索引,可以直接指定,或者将该列的列名传给参数index_col。 在index_col里面可以用列表作为参数,形成一个分层索引。   使用skiprows可以跳过某些行,且使用isnull可以检测数组中的缺失值。   使用na_values选项可以传入一个列表或一组字符串来处理缺失值。或者用字典指定列的缺失值标识。 来源: https://www.cnblogs.com/ITXiaoAng/p/12639044

自如网杭州市租房数据分析(2)

亡梦爱人 提交于 2020-04-04 08:40:01
自如网杭州市租房数据分析 经过 数据爬取 和 数据清洗 后,终于到了数据分析的部分。具体从探索型数据分析和验证型数据分析两部分进行。探索型数据分析是主要为了了解属性的分布、属性之间的相关性,验证型数据分析则用来预测租金价格。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline sns.set_style("darkgrid") #绘图风格 sns.set_context("talk") plt.rcParams['font.sans-serif']=['SimHei'] 1.探索型数据分析 (1)首先看一下数值型属性的统计情况 rent_data=pd.read_csv('rent_data_clean.csv',encoding='gbk') rent_data.describe() 房间价格分布图 plt.hist(rent_data['price'],bins=20,edgecolor='w',color='lightskyblue') 房间面积分布图 plt.hist(rent_data['size'],bins=27,edgecolor='w',color='orange')

为什么很多人入门选择Python爬虫?

天大地大妈咪最大 提交于 2020-04-03 18:37:58
  随着人工智能、大数据时代的到来,Python这门编程语言也出现在大家的视野之中,更多人都开始关注Python。Python语法易懂、编写简洁,拥有丰富的库,作为人工智能的首选语言,Python是非常值得学习的。那么学Python做爬虫有前途吗?为大家介绍一下。   为什么很多人入门选择爬虫?   其实原因很简单,是因为Python领域中最容易入门的方向就是爬虫,为什么爬虫呢?   市场需求旺盛,大数据时代到来,除了大公司有能力生产数据之外,其他公司都是依靠爬虫来获取数据,第二爬虫的技术比较要求低,只要稍微有一定的基础,认真学习一段时间之后,就可以做主流爬虫技术,需求大,简单易学,自然会成为大家的首选。   其实说句实在话,爬虫这个行业只会越来越难做的,并且门槛会变得更高。因为发爬技术会变得更加强烈,需要掌握主动权,随时随地改变策略。在人工智能时代,很多网站开始收集个方面行为,通过机器学习进行判断。   未来爬虫行业,会出现很多爬虫技术人员,甚至爬虫人员也可以转行做数据分析。爬虫最终目的就是提供数据,数据分析基础就是数据,所有数据分析天然成为爬虫进阶方向之一。   Python领域最容易入门的就是爬虫,做爬虫也可以说是非常具有前途的。因为它可以让很多人进入互联网行业,未来更多可能性,当然无论做哪行,能够持续提升自己都是非常重要的。 来源: 51CTO 作者: 老男孩IT 链接:

满足更多数据分析需求,Yonghong Z-Suite V8.8 发布!

自闭症网瘾萝莉.ら 提交于 2020-04-03 18:33:40
每一次蜕变,不再是简单的功能提升,而是更好地满足客户场景需求。 专注于为客户提供更敏捷、更快速、更强大的大数据解决方案,永洪科技拥有完全自主知识产权的大数据分析应用软件Yonghong Z-Suite,通过集成Dashboard、Reporting、Data Mart、Self-Service Modeler、Advanced Analytics等内核,为客户带来完整的数据分析体验。 Yonghong Z-Suite V8.8全新亮相,再一次蜕变。相较之前版本,V8.8在自服务数据准备、可视化、企业级管理、大数据、移动端等众多方面,实现了20余项功能的新改变。现在,让我们一起感受V8.8所带来的新力量。 Yonghong Z-Suite V8.8 亮点功能概览 ◆ 表达式功能增强与易用性提升 ◆ 编辑界面交互优化 ◆ 支持图表(Chart)与普通表/交叉表的智能切换 ◆ 日期格式功能增强:支持日本和历日期格式 ◆ 地图组件支持匹配日本邮政编码 ◆ 图表(Chart)标记组支持多维度标记,可对不同的度量进行不同标记 ◆ 支持用户批量导入导出 ◆ 业务人员使用数据集时方便入集市 一、表达式功能增强与易用性提升 为了提高表达式功能的使用效率,新版本对表达式功能和易用性做了增强优化。包括表达式功能入口统一为“新建计算列”,用户无需再区分细节表达式、聚合表达式;对计算列函数重新分类整理

香港累计确诊近700例,全球单日新增已超6万|3月31日疫情播报

隐身守侯 提交于 2020-03-31 12:32:08
#永洪科技今日疫情播报#截至3月31日9:00,我国累计确诊82545例,现有确诊3006例,现有疑似183例,累计治愈76225例 ,累计死亡3314例。新增境外输入病例48例,累计报告境外输入确诊病例771例。 全球累计确诊已超过70万例,达782274例,特别是欧美确诊人数快速增长,疫情在短期内控制的可能性越来越小。 钟南山团队强调无症状患者作为人传人重要传染源的可能,因此必须重视新冠肺炎的早期诊断以及隔离确诊病例。我国香港累计确诊达682例,并出现社区传播的现象。疫情防控“外防输入,内防扩散”都需严格管控。 数据来源国家及各省市卫健委,各国官方通报和权威媒体 从国内疫情发展、数据分析与预测到国外疫情数据分析和跟踪,永洪科技每日疫情播报已陪伴大家60多期了。 作为国内领先的大数据分析厂商,永洪科技肩负起社会责任,发挥自身的数据分析能力和产品优势,在疫情发展之初,就着手推出每日疫情播报,希望帮助广大群众及时掌握疫情动态和发展趋势,时刻做好疫情防护工作。 从各地区疫情数据收集、数据加工整理、图表分析、可视化呈现,1个人就可以轻松搞定。这得益于Yonghong Desktop简单易用、功能强大、秒级响应等产品特点,支持在线、离线多场景数据分析模式,满足企业疫情期间远程办公需求,Yonghong Desktop还内置了丰富的图表组件,也让每日疫情播报图更加多样化。制作好的报告模版

数据分析

我的未来我决定 提交于 2020-03-30 19:20:58
数据分析 数据分析的编辑工具: ipython pip3 install ipython 本质上就是Python命令行的加强版 jupyter notebook pip3 install jupyter 启动:jupyter notebook 安装anaconda软件 包含了jupyter ,numpy,pandas 等200个数据分析包 pycharm和anaconda就是两个不一样的编辑器。Pycharm 是开发喜欢用的编辑器。而anaconda是数据分析人员喜欢用的编辑器 jupyter notebook快捷键 命令行模式:鼠标不闪动,单元格颜色变成蓝色 编辑模式:鼠标闪动,单元格颜色绿色 编辑模式切换到命令行模式,按ESC键即可 快捷键使用: 1.运行当前单元格,并选中下一个单元格: shift+enter 2.只是运行当前单元格: crtl+enter 3.在当前单元格的上方添加一个单元格:按esc进入命令行模式,然后按 a(above) 即可 4.在当前单元格的下方添加一个单元格:按esc进入命令行模式,然后按b(below) 即可 5.删除当前的单元格:按esc进入命令行模式,按dd即可 6.代码模式和markdown的切换:按esc进入命令行模式,按M进入markdown模式 来源: https://www.cnblogs.com/baohanblog/p

华为联手永洪科技推出数仓+BI严选解决方案,助力政企云上数据价值分析

空扰寡人 提交于 2020-03-30 13:43:48
从2018年初华为云推出严选商城后,严选模式吸引了大批优质合作伙伴加入,共建云上生态。现已拥有包括工业互联网、容灾备份、智慧城市、视频云等多个解决方案。 在助力企业云上数据分析,华为联合永洪科技推出数仓+BI严选解决方案,搭配永洪科技一站式大数据分析平台,打通企业整体数据流程,提升数据分析的能力和效率,提高上下游协同效率,让数据成为生产力,直触需求,让企业无忧上云。 华为云&永洪科技大数据BI严选解决方案三大优势 1、企业级大数据平台: 极致易用、自服务、高性能、稳定安全、开放灵活、报表调度全程监控 2、解决方案配套能力: 华为云DWS数仓服务、CDM数据迁移服务 3、提供驻场咨询、培训指导服务: 帮助企业成功培养数据分析师 永洪科技大数据BI严选解决方案,将BI、云主机、以及MRS/DWS,按照用户不同的数据量及用户量需求场景进行不同梯度的套餐包进行打包。由华为云平台对客户提供MLS服务,包括数据批量接入、流处理、大容量的数据存储和分析服务,而永洪BI则基于存储在华为云平台上的数据提供可视化展现服务,让企业实现云上数据分析与数据价值挖掘。 该解决方案已在多个大数据场景应用,针对此次疫情,永洪科技联合华为推出的疫情监控大数据分析平台就是其中之一。该解决方案也获得企业客户的青睐,如在电动车行业中,首批以某知名公司作为行业标杆,通过华为云平台的助力

北京上海境外输入全国最多,意大利死亡高达10779例 | 3月30日疫情播报

旧时模样 提交于 2020-03-30 13:37:25
#永洪科技今日疫情播报#截至3月30日8:30,我国累计确诊82447例,现有确诊3199例,现有疑似168例,累计治愈75937例 ,累计死亡3311例。新增境外输入病例30例,累计报告境外输入确诊病例723例。 意大利累计确诊97689例,死亡病例10779例,成为全球首个死亡病例超过1万例的国家。 我国现有确诊病例已降至3199例,本土疫情传播已基本阻断。但境外疫情输入依然严峻,北京累计境外输入162例,上海累计境外输入152例,在全国数量最多。当前要继续防范本土病例零星散发和境外输入病例传播的双重风险,及时发现、快速处置,精准防控。 数据来源国家及各省市卫健委,各国官方 从国内疫情发展、数据分析与预测到国外疫情数据分析和跟踪,永洪科技每日疫情播报已陪伴大家50多期了。 作为国内领先的大数据分析厂商,永洪科技肩负起社会责任,发挥自身的数据分析能力和产品优势,在疫情发展之初,就着手推出每日疫情播报,希望帮助广大群众及时掌握疫情动态和发展趋势,时刻做好疫情防护工作。 从各地区疫情数据收集、数据加工整理、图表分析、可视化呈现,1个人就可以轻松搞定。这得益于Yonghong Desktop简单易用、功能强大、秒级响应等产品特点,支持在线、离线多场景数据分析模式,满足企业疫情期间远程办公需求,Yonghong Desktop还内置了丰富的图表组件,也让每日疫情播报图更加多样化

当移动数据分析需求遇到Quick BI

风流意气都作罢 提交于 2020-03-26 11:49:02
3 月,跳不动了?>>> 我叫洞幺,是一名大型婚恋网站“我在这等你”的资深老员工,虽然在公司五六年,还在一线搬砖。“我在这等你”成立15年,目前积累注册用户高达2亿多,在我们网站成功牵手的用户达2千多万。目前我们的公司在CEO的英名带领下,为我国民生问题出点绵薄之力。 缘起 突然有一天,我主管说公司最近购买了阿里云的QuickBI专业版。说了一大堆要好好利用数据的道理。说Quick BI的高大上, 可以通过提供海量数据即席分析什么的、电子报表制作及拖拽式的可视化分析能力什么的,重塑数据生产的全链路什么的。我听得模模糊糊,只记得他强调一定要发挥好QuickBI的作用,让我们的数据给业务创造价值。反正上头的意思,就是要用QuickBI干活呗。 QuickBI初上手 作为主管的左膀右臂得力干将,我成为了公司里为数不多的QuickBI管理员。这也开启了与QuickBI的不解情缘。打开网站首页,发现首页清晰地展示了QuickBI的使用过程,四步曲还挺清晰的。不仅如此,还有快速入门视频、官方文档,甚至还有提供案例报表。 上手还挺快,我们公司一两个星期就用起来了。几个月过去了(此处省略一万字),QuickBI的可视化分析能力的确让我们看清楚了很多数据,也创造了很多价值,营收同比去年增加了8个百分点。在我给主管汇报的时候,都用QuickBI高颜值的可视化能力绘制图表,真是一图胜千言啊

4天增加10万,新冠肺炎全球大流行加快|3月25日疫情播报

僤鯓⒐⒋嵵緔 提交于 2020-03-26 11:14:30
#永洪科技今日疫情播报#截至3月25日8:30,我国累计确诊81846例,现有确诊4768例,现有疑似134例,累计治愈73791例 ,累计死亡3287例。新增境外输入确诊病例47例(上海19例,北京5例,广东5例,天津4例,福建4例,内蒙古2例,江苏2例,四川2例,吉林1例,浙江1例,山东1例,陕西1例),累计报告境外输入确诊病例474例。 新冠肺炎蔓延速度正在加快,全球确诊病例累计已超过40万,中国以外超过30万,从确诊首例新冠肺炎到全球病例数量达到10万花了67天时间,而达到第二个10万仅用了11天,第三个10万仅用了4天。 全球疫情的快速蔓延,也对我国疫情防控带来巨大挑战,境外输入病例不断增加。人类命运休戚与共,愿世界各国守望相助、风雨同舟、通力合作,早日战胜疫情! 数据来源国家及各省市卫健委 从国内疫情发展、数据分析与预测到国外疫情数据分析和跟踪,永洪科技每日疫情播报已陪伴大家50多期了。 作为国内领先的大数据分析厂商,永洪科技肩负起社会责任,发挥自身的数据分析能力和产品优势,在疫情发展之初,就着手推出每日疫情播报,希望帮助广大群众及时掌握疫情动态和发展趋势,时刻做好疫情防护工作。 从各地区疫情数据收集、数据加工整理、图表分析、可视化呈现,1个人就可以轻松搞定。这得益于Yonghong Desktop简单易用、功能强大、秒级响应等产品特点,支持在线、离线多场景数据分析模式