Python数据分析与爬虫
数据分析重要步骤: 1.数据获取 可以进行人工收集获取部分重要数据 可以在各个数据库中导出数据 使用Python的爬虫等技术 2.数据整理 从数据库、文件中提取数据,生成DataFrame对象 采用pandas库读取文件 3.数据处理 数据准备: 对DataFrame对象(多个)进行组装、合并等操作 pandas操作 数据转化: 类型转化、分类(面元等)、异常值检测、过滤等 pandas库的操作 数据聚合: 分组(分类)、函数处理、合并成新的对象 pandas库的操作 4.数据可视化 将pandas的数据结构转化为图表的形式 matplotlib库 5.预测模型的创建和评估 数据挖掘的各种算法: 关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等 6.部署(得出结果) 从模型和评估中获得知识 知识的表示形式:规则、决策树、知识基、网络权值 原网址: https://blog.csdn.net/qq_35187510/article/details/80078143 爬取网页数据步骤: 简介: (1)网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者): 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据