Manuel Gentile and Fabrizio Falchi
Bei Transformern handelt es sich um neuronale Netzmodelle, die entwickelt wurde, um die Beschränkungen rekurrenter neuronaler Netze bei der Analyse von Datensequenzen (in unserem Fall von Wörtern oder Token) zu überwinden1.
Insbesondere ermöglichen Transformer durch den Mechanismus der Selbst-Aufmerksamkeit die parallele Analyse von Datensequenzen und die Extraktion der Abhängigkeiten zwischen den Elementen dieser Sequenzen und den Kontexten, in denen sie auftreten.
1 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.