Apache Axis

今天整理了几个在使用python进行数据分析的常用小技巧、命令。

六眼飞鱼酱① 提交于 2020-04-18 12:07:11
提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行快速预览,拿我们使用过很多次的NBA数据集来说,导入数据集之后 一行代码就生成丰富的交互式数据EDA报告 可以看到,除了之前我们需要的一些描述性统计数据,该报告还包含以下信息: 类型推断:检测数据帧中列的数据类型。 要点:类型,唯一值,缺失值 分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围 描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度 最常使用的值 直方图 相关性矩阵 缺失值矩阵,计数,热图和缺失值树状图 文本分析:了解文本数据的类别(大写,空格),脚本(拉丁,西里尔字母)和块(ASCII) 02 使用cufflinks绘制图表 上一个神器Pandas Profiling可以快速帮助我们预览数据,那么这个神器cufflinks可以帮我们直接使用DataFrame快速绘制交互式图表。就像seaborn封装了matplotlib一样,cufflinks在plotly的基础上做了一进一步的包装,方法统一,参数配置简单。 对pandas熟悉的同学可能知道pandas可以直接调用.plot()绘图,我们来看看 df.plot()

Python 常用笔记

送分小仙女□ 提交于 2020-04-14 13:30:09
【推荐阅读】微服务还能火多久?>>> 记录 http://blog.sina.com.cn/s/ blog_73b339390102yoio.html PE:市盈率 = 股价 / 每股盈利 PEG:(市盈率相对盈利增长比率 /市盈增长比率) PEG=PE/(企业年盈利增长率*100 ) PB:市净率 =股价 / 每股净资产 PS:市销率 =股价 / 每股收入=总市值 / 销售收入 ROE:净资产收益率=报告期净利润/报告期末净资产 EPS:每股盈余 =盈余 / 流通在外股数 beta值:(贝塔系数):每股收益 =期末净利润 / 期末总股本 import math 年均投资收益率 = (pow(终值 /本金, 1/年限) -1)*100 投资收益本息 = pow((1+预期年收益率),年限)*本金 投资目标年限 = math.log(终值/本金)/math.log(1+预期年收益率) 时间转换 import time a = ' 2020-03-06 19:18:00 ' a1 = time.strptime(a, ' %Y-%m-%d %H:%M:%S ' ) # 格式化str为time格式 print (time.strftime( ' %Y%m%d ' ,a1)) # 格式化time格式为str print (time.asctime(time.localtime(time

python数据分析学习(7)数据清洗与准备(1)

一曲冷凌霜 提交于 2020-04-13 12:01:03
【今日推荐】:为什么一到面试就懵逼!>>> 目录 一:处理缺失值 1. 过滤缺失值 二:补全缺失值   关于文件的读写方面先放一下,接下来介绍数据清洗方面的知识。有时候数据对于特定的任务来说格式并不正确,需要转化为更加适合的数据形式。这里介绍数据清洗的有关基础知识,本篇博客先介绍如何处理缺失值。 一:处理缺失值   缺失数据在很多数据分析应用中都出现过,对于数值型数据,pandas使用浮点值NaN来表示缺失值。可以用isnull()对一直数组逐元素进行操作,返回布尔型判断结果,返回缺失值,而notnull相反。   在pandas中,用R语言中的编程惯例,将缺失值成为NA(not available),表示不存在的数据或者是不可观察的数据。而python内建的None值在对象数组也被当作NA处理。   可以用fillna填充缺失的数据,或使用'ffill'和'bfill'插值方法。 1. 过滤缺失值   用dropna过滤缺失值是非常常见的,它会返回Series中所有的非空数据及其索引值,和data[data.notnull()]是等价的。如下:   当处理DataFrame时,会复杂一点,dropna默认情况下会删除包含缺失值的行:   当传入参数how='all'时,将删除所有值均为NA的行:   想要用同样的方法删除列,传入参数axis=1即可:  

建水盒子

雨燕双飞 提交于 2020-04-12 12:24:06
1 MS( Materials Studio) 2 VMD( Visual Molecular Dynamic) 2.1 保存模型 1 直接保存在当前目录下的psf 和pdb文件 2 另存在其他路径下 (1) 然后执行保存命令即可。 (2) (3)VMD文件转存为Lammps文件 2.2 读取模型 (1)进入要读取模型的目录 (2)读取Lammps data文件 命令: (3)载入psf pdb模型 命令:mol load psf water30528.psf pdb water30528.pdb 2.3 TIP3P转TIP4P 将TIP3P模型导入(psf、pdb),转换成lammps data文件,然后执行以下命令给O和H赋值。 原子赋值后,进行保存,分别保存psf、pdb和data。 2.4 两个模型合并 source combine.tcl #combine.tcl文件需要自己提前编写 2.5 常用命令 (1)调整模型中原子位置 旋转:set all [atomselect top all] $all move [trans center {o o 28} axis y 90 deg] $all move [trans center {0 0 28} axis x 180 deg] 平移:$all move by {-20 0 0} (2)查看电荷和质量: 命令:set

Tony老师解读Kaggle Twitter情感分析案例

≯℡__Kan透↙ 提交于 2020-04-11 17:08:21
今天Tony老师给大家带来的案例是Kaggle上的Twitter的情感分析竞赛。在这个案例中,将使用预训练的模型BERT来完成对整个竞赛的数据分析。 导入需要的库 import numpy as np import pandas as pd from math import ceil, floor import tensorflow as tf import tensorflow.keras.layers as L from tensorflow.keras.initializers import TruncatedNormal from sklearn import model_selection from transformers import BertConfig, TFBertPreTrainedModel, TFBertMainLayer from tokenizers import BertWordPieceTokenizer 读取并解释数据 在竞赛中,对数据的理解是非常关键的。因此我们首先要做的就是读取数据,然后查看数据的内容以及特点。 先用pandas来读取csv数据, train_df = pd.read_csv('train.csv') train_df.dropna(inplace=True) test_df = pd.read_csv('test.csv')

DL之LSTM:tf.contrib.rnn.BasicLSTMCell(rnn_unit)函数的解读

房东的猫 提交于 2020-04-11 15:12:44
DL之LSTM:tf.contrib.rnn.BasicLSTMCell(rnn_unit)函数的解读 目录 tf.contrib.rnn.BasicLSTMCell(rnn_unit)函数的解读 函数功能解读 函数代码实现 tf.contrib.rnn.BasicLSTMCell(rnn_unit)函数的解读 函数功能解读 """Basic LSTM recurrent network cell. The implementation is based on: http://arxiv.org/abs/1409.2329. We add forget_bias (default: 1) to the biases of the forget gate in order to reduce the scale of forgetting in the beginning of the training. It does not allow cell clipping, a projection layer, and does not use peep-hole connections: it is the basic baseline. For advanced models, please use the full @{tf.nn.rnn_cell.LSTMCell} that

【机器学习】代价函数(cost function)

不问归期 提交于 2020-04-11 10:13:59
注 :代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加的正则化项也是加在代价函数后面的。在学习相关算法的过程中,对代价函数的理解也在不断的加深,在此做一个小结。 1. 什么是代价函数? 假设有训练样本(x, y),模型为h,参数为θ。h(θ) = θ T x(θ T 表示θ的转置)。 (1)概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ),如果有多个样本,则可以将所有代价函数的取值求均值,记做J(θ)。因此很容易就可以得出以下关于代价函数的性质: 对于每种算法来说,代价函数不是唯一的; 代价函数是参数θ的函数; 总的代价函数J(θ)可以用来评价模型的好坏,代价函数越小说明模型和参数越符合训练样本(x, y); J(θ)是一个标量; (2)当我们确定了模型h,后面做的所有事情就是训练模型的参数θ。那么什么时候模型的训练才能结束呢?这时候也涉及到代价函数,由于代价函数是用来衡量模型好坏的,我们的目标当然是得到最好的模型(也就是最符合训练样本(x, y)的模型)。因此训练参数的过程就是不断改变θ,从而得到更小的J(θ)的过程。理想情况下,当我们取到代价函数J的最小值时

使用Pandas库分析股票

拥有回忆 提交于 2020-04-09 18:41:55
原文地址: 使用Pandas库分析股票 Introduction 用 Pandas 等三方库,根据 Financial technology 相关程序,进行股票分析, Requirement This assignment builds on Lectures 7 to 9 and on Tutorials 6 and 7. You might want to consider using some of the Python code discussed in those lectures and tutorials to answer some of the questions below. Important: It is important that you do not change the type (markdwon vs. code) of any cell, nor copy/paste/duplicate any cell! If the cell type is markdown, you are supposed to write text, not code, and vice versa. Provide your answer to each question in the allocated cell. Do not create

ML之FE:特征工程中常用的一些处理手段(缺失值填充、异常值检测等)及其对应的底层代码的实现

孤者浪人 提交于 2020-04-08 17:47:14
ML之FE:特征工程中常用的一些处理手段(缺失值填充、异常值检测等)及其对应的底层代码的实现 目录 特征工程中常用的一些处理手段(缺失值填充、异常值检测等)及其对应的底层代码的实现 缺失值填充 fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) 特征工程中常用的一些处理手段(缺失值填充、异常值检测等)及其对应的底层代码的实现 缺失值填充 df = pd.read_csv('test01.csv') print(df['feature01']) df['feature02'] = df['feature01'].fillna(-1).astype(int) print(df['feature02']) fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) @Appender(_shared_docs['fillna'] % _shared_doc_kwargs) def fillna(self, value=None, method=None, axis=None, inplace

使用 Numpy 手动实现深度学习 -- 线性回归

浪尽此生 提交于 2020-04-07 14:03:32
概述 以房价预测为例,使用numpy实现深度学习网络--线性回归代码。 数据链接: https://pan.baidu.com/s/1pY5gc3g8p-IK3AutjSUUMA 提取码:l3oo 导入库 import numpy as np import matplotlib.pyplot as plt 加载数据 def LoadData(): #读取数据 data = np.fromfile( './housing.data', sep=' ' ) #变换数据形状 feature_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] feature_num = len( feature_names ) data = data.reshape( [-1, feature_num] ) #计算数据最大值、最小值、平均值 data_max = data.max( axis=0 ) data_min = data.min( axis=0 ) data_avg = data.sum( axis=0 ) / data.shape[0] #对数据进行归一化处理 for i in range( feature_num ):