query padding mask and key padding mask in Transformer encoder

后端未结

关注

 0  1680

I\'m implementing self-attention part in transformer encoder using pytorch nn.MultiheadAttention and confusing in the padding masking of transformer.

The