顾名思义,这是对tersor格式的string进行操作的函数,并且返回的是稀疏矩阵
'''
注解小知识:
稀疏矩阵与稠密矩阵:
我们知道自然语言处理中有One-hot和词向量两个表示方法
绝大多数时候都是把one-hot转换为词向量。
这个One-hot就是稀疏矩阵,词向量就是稠密矩阵
'''
先拿官方函数说事
tf.string_split函数
tf.string_split(
source,
delimiter=' ',
skip_empty=True
)
'''
@函数意义:将基于 delimiter 的 source 的元素拆分为 SparseTensor. ---很晦涩
@source:需要操作的对象,一般是[字符串或者多个字符串]构成的列表;---注意是列表哦!!!
@delimiter:分割符,默认空字符串
@skip_empty:默认True,暂时没用到过
'''
官方非常含糊,其实这里的要点就只有一个:默认情况下,按空格(delimiter)切分我们的字符串(source),字符串必须是列表的格式传入函数。
我们自己举栗子看看:
# 当对象是一个字符串
a = 'we do it'
tf.string_split([a])
# 返回值如下
SparseTensorValue(indices=array([[0, 0],[0, 1],[0, 2]]),
values=array(['we', 'do', 'it'], dtype=object),
dense_shape=array([1, 3]))
# 当对象是多个字符串
b = 'we can do it'
c = [a,b]
tf.string_split(c)
# 返回值如下
SparseTensorValue(indices=array([[0, 0],
[0, 1],
[0, 2],
[1, 0],
[1, 1],
[1, 2],
[1, 3]], dtype=int64), values=array(['we', 'do', 'it', 'we', 'can', 'do', 'it'], dtype=object), dense_shape=array([2, 4], dtype=int64))
可以看到几个要点:
1.传入的元素是字符串,但是必须是列表包括进去,不然会报格式错误!
2.返回了稀疏矩阵(SparseTensorValue)的下标(indices),和值(value),以及类型,和输入数据的维度(dense_shape)
返回值有三个参数,一个是indices,一个是values,一个是dense_shape.
理解就在这一步了,这些返回值分别代表:
1. indices 表示分词后的词的下表,和values一一对应:
tf.string_split([a]) 返回 [[0, 0],[0, 1],[0, 2]] :
[0,0]代表了第一句的第一个词的坐标,即`we`;
[0,1]代表了第一句的第二个词的坐标,即'do';
[0,2]代表了第一句的第三个词的坐标,即'it';
同理, tf.string_split(c) 返回了如下:
[[0, 0], 第一句的第一个词的坐标,即`we`
[0, 1], 第一句的第二个词的坐标,即`do`
[0, 2], 第一句的第三个词的坐标,即`it`
[1, 0], 第二句的第一个词的坐标,即`we`
[1, 1], 第二句的第二个词的坐标,即`can`
[1, 2], 第二句的第三个词的坐标,即`do`
[1, 3]] 第二句的第四个词的坐标,即`it`
2. values.分割后的数据内容,返回的是一维向量!!经常可以用这个把一篇文档所有分词后的词扔入一个向量中
3. dense_shape.分割前的维度是多少,会按最长的那个句子填充!!!
来源:CSDN
作者:xinjieyuan
链接:https://blog.csdn.net/xinjieyuan/article/details/90698352