scikit-learn | 易学教程

Keras文本分类实战（下）

阅读更多关于 Keras文本分类实战（下）

在上一节Keras文本分类实战（上），讲述了关于NLP的基本知识。这部分，将学会以不同方式将单词表示为向量。词嵌入（word embedding）是什么文本也被视为一种序列化的数据形式，类似于天气数据或财务数据中的时间序列数据。在之前的BOW模型中，了解了如何将整个单词序列表示为单个特征向量。下面将看到如何将每个单词表示为向量。这里有多种方法可以对文本进行向量化，比如：每个词语（word）表示的词语（words）作为向量每个字符（character）表示的字符（characters）作为向量 N-gram单词/字符表示为向量在本教程中，将使用单热编码和单词嵌入将单词表示为向量，这是在神经网络中处理文本的常用方法。独热码（one-hot encoding）将单词表示为向量的第一种方式是创建独热码，这是通过将词汇长度的向量与语料库中的每个单词的条目组合一起来完成。通过这种方式，对于每个单词，只要它在词汇表中存在，就会将该单词在相应的位置设置为1，而向量中其它的位置设置为0。但这种方式可能为每个单词创建相当大的向量，且不会提供任何其他信息，例如单词之间的关系。假设有一个城市列表，如下例所示： >>> cities = [ 'London' , 'Berlin' , 'Berlin' , 'New York' , 'London' ] >>> cities [

Python 机器学习：多元线性回归

阅读更多关于 Python 机器学习：多元线性回归

向AI转型的程序员都关注了这个号 👇👇👇 大数据挖掘DT机器学习公众号： datayx 接着上一次的一元线性回归 python机器学习：线性回归往下讲，这篇文章要讲解的多元线性回归。 1、什么是多元线性回归模型？当 y 值的影响因素不唯一时, 采用多元线性回归模型。例如商品的销售额可能不电视广告投入,收音机广告投入,报纸广告投入有关系,可以有 sales = β0+ β 1*TV+ β 2* radio+ β 3*newspaper. 2、使用pandas来读取数据 pandas 是一个用于数据探索、数据分析和数据处理的python库 import pandas as pd # read csv file directly from a URL and save the results data = pd .read_csv('/home/lulei/Advertising.csv') # display the first 5 rows data.head() 这里的Advertising.csv是来自http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv。大家可以自己下载。上面代码的运行结果： TV Radio Newspaper Sales 0 230.1 37.8 69.2 22.1 1 44.5 39.3

A--多元线性回归的python实现

阅读更多关于 A--多元线性回归的python实现

In [1]: import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt In [2]: # 创建一个矩阵 a = np.array([[1, 2], [3, 4 ]]) m = np.mat(a) m [2]: matrix([[1, 2], [3, 4]]) In [4]: # 矩阵运算回顾 # 矩阵转秩 m.T # 矩阵乘法 m * m a * a # 矩阵⾏列式 np.linalg.det(m) # 求逆矩阵 m.I # 转换成array m.A # 降维成一维 m.fattlen Out[4]: matrix([[-2. , 1. ], [ 1.5, -0.5]]) 假设输入数据为DataFrame格式，最后一列为标签值，在此基础上编写线性回归自定义函数(最小二乘） In [ ]: # 矩阵公式 w=(x.T * x).I * X.T * y In [53]: # 根据最小二乘法推导得 w=(x.T * x).I * X.T * y 注：如果(x.T * X)不满足可逆性,那么最小二乘无解，另不满足凸函数，也无解 # 又因为特征矩阵在存在多重共线性的情况下，特征矩阵不满足可逆性，所以在做回归之前，需要消除多重共线性 def

mapping back any sklearn result to the original dataframe

阅读更多关于 mapping back any sklearn result to the original dataframe

来源： https://stackoverflow.com/questions/41218816/mapping-back-any-sklearn-result-to-the-original-dataframe

Re-calculate similarity matrix given new documents

阅读更多关于 Re-calculate similarity matrix given new documents

来源： https://stackoverflow.com/questions/64442720/re-calculate-similarity-matrix-given-new-documents

Re-calculate similarity matrix given new documents

阅读更多关于 Re-calculate similarity matrix given new documents

来源： https://stackoverflow.com/questions/64442720/re-calculate-similarity-matrix-given-new-documents

Pre-randomization before random forest training in Scikit-learn

阅读更多关于 Pre-randomization before random forest training in Scikit-learn

来源： https://stackoverflow.com/questions/35423322/pre-randomization-before-random-forest-training-in-scikit-learn

目标检测：Anchor-Free时代

阅读更多关于目标检测：Anchor-Free时代

　　自从2018年8月CornerNet开始，Anchor-Free的目标检测模型层出不穷，最近达到了井喷的状态，宣告着目标检测迈入了Anchor-Free时代。　　其实Anchor-Free并不是一个新概念了，大火的YOLO算是目标检测领域最早的Anchor-Free模型，而最近的Anchor-Free模型如FASF、FCOS、FoveaBox都能看到DenseBox的影子。　　下面主要讲一下有代表性的Anchor-Free模型(包括DenseBox、YOLO、CornerNet、ExtremeNet、FSAF、FCOS、FoveaBox)，分成3个部分来介绍(早期探索、基于关键点、密集预测)，具体细节就不展开了~ 　　早期探索　　1 　　DenseBox 　　最早知道这篇文章，是在去年刚接触目标检测的时候，看了一篇地平线对DenseBox作者的采访，当时因为刚接触感触不深，但是从当前的时间节点回头看，DenseBox的想法是多么的超前啊。　　采访中说道，当年DenseBox其实早在2015年初就已经开发出来了，这比同期的Faster-RCNN系列提前数月，但是论文直到9月才在arxiv上发布。如果DenseBox能在2015年初就发表，那么最近几年目标检测的发展会不会是另外一番景象呢~ 　　两点贡献：　　1.证明单个FCN可以检测出遮挡严重、不同尺度的目标。　　2

TypeError: MinMaxScaler does not support sparse input. Consider using MaxAbsScaler instead

阅读更多关于 TypeError: MinMaxScaler does not support sparse input. Consider using MaxAbsScaler instead

来源： https://stackoverflow.com/questions/62994413/typeerror-minmaxscaler-does-not-support-sparse-input-consider-using-maxabsscal

Sklearn StackingClassifier: Adding features as inputs to the final estimator

阅读更多关于 Sklearn StackingClassifier: Adding features as inputs to the final estimator

来源： https://stackoverflow.com/questions/63974211/sklearn-stackingclassifier-adding-features-as-inputs-to-the-final-estimator