Extracting, transforming and selecting features

让人想犯罪 __ 提交于 2021-02-17 17:59:38

This section covers algorithms for working with features, roughly divided into these groups

本节介绍使用功能的算法,大致分为以下几组:

  • 提取: 从数据中抽取特征。
  • 转变: Scaling, converting, or modifying features
  • 选择: 在多个特征中挑选比较重要的特征。
  • 局部敏感哈希(LSH): 这类算法将特征变换的各个方面与其他算法结合起来。

Table of Contents

  • Feature Extractors 特征提取
    • TF-IDF
    • Word2Vec
    • CountVectorizer
  • Feature Transformers 特征变换
    • Tokenizer 分词器
    • StopWordsRemover 停用字清除
    • nn-gram
    • Binarizer 二元化方法
    • PCA 主成成分分析
    • PolynomialExpansion 多项式扩展
    • Discrete Cosine Transform (DCT-离散余弦变换) 
    • StringIndexer 字符串-索引变换
    • IndexToString 索引-字符串变换
    • OneHotEncoder 独热编码
    • VectorIndexer 向量类型索引化
    • Interaction 
    • Normalizer 范数p-norm规范化
    • StandardScaler  标准化  基于特征矩阵的列,将属性值转换至服从正态分布
    • MinMaxScaler  最大-最小归一化[0,1]
    • MaxAbsScaler 绝对值归一化[-1,1]
    • Bucketizer  分箱器
    • ElementwiseProduct Hadamard乘积
    • SQLTransformer SQL变换
    • VectorAssembler 特征向量合并
    • QuantileDiscretizer 分位数离散化
    • Imputer
  • Feature Selectors  特征选择
    • VectorSlicer 向量选择
    • RFormula R模型公式
    • ChiSqSelector 卡方特征选择
  • Locality Sensitive Hashing  局部哈希敏感
    • LSH Operations
      • Feature Transformation   特征转换
      • Approximate Similarity Join   近似相似联接
      • Approximate Nearest Neighbor Search   近似最近邻搜索
    • LSH Algorithms
      • Bucketed Random Projection for Euclidean Distance   欧式距离分桶随机投影
      • MinHash for Jaccard Distance 杰卡德距离

Feature Extractors

TF-IDF

频率逆文档频率(TF-IDF)是一种特征向量化方法,广泛用于文本挖掘中,以反映词语对语料库中文档的重要性。 用tt表示词语,用dd表示文档,用DD表示语料库。 词语频率TF(t,d)TF(t,d)是词语tt在文档dd中出现的次数,而文档频率DF(t,D)DF(t,D)是包含词语的文档数量 tt。 如果我们仅使用词语频率来衡量重要性,则很容易过分强调那些经常出现但几乎没有有关文档信息的词语,e.g. “a”, “the”, and “of”。 如果一个词语在整个语料库中经常出现,则表示该词语不包含有关特定文档的重要信息。 反向文档频率是一个词语提供多少信息的数字度量:

IDF(t,D)=log|D|+1DF(t,D)+1,

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!