由于GPT-3各种参数应用太强大,以至于深度学习之父Hinton都发推特表示,从GPT-3惊人的性能可以推测,生命、宇宙和万物的答案,只是4万亿个参数而已。
虽然都已经有了这些资料,但文摘菌还是花了很多时间通读了好几篇论文和博客才算是大概明白了 GPT-3的原理。
因此,本文目标非常简单明了:帮你尽可能详尽地了解GPT-3的架构。要是你嫌我说得太啰嗦的话(编者:真的啰嗦),也可以直接跳到最后的整体结构图,直接看整体结构。
论文原图
外推排名软 【QQ3201554341】
来源:oschina
链接:https://my.oschina.net/wtpm/blog/4489049