*Transformer — это архитектура нейронных сетей, основанная на механизме внимания, предложенном в статье 2017 года «Attention Is All You Need». Для обработки трансформером текст преобразуется в последовательность так называемых токенов, которые, в свою очередь, преобразуются в числовые вектора — эмбеддинги. Преимущество трансформаторов состоит в том, что они не имеют реккурентных модулей и, следовательно, требуют меньше времени на обучение по сравнению с такими архитектурами, как RNN, LSTM и т.п. за счет распараллеливания. Различные варианты трансформеров получили широкое распространение, как основа больших языковых моделей (LLM) - GPT, Claude, LLAMA и других.