
一文了解Transformer全貌(图解Transformer)
Sep 26, 2025 · 网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言, …
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017 …
Transformer模型详解(图解最完整版) - 知乎
May 8, 2024 · Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体 …
如何从浅入深理解 Transformer? - 知乎
如何从浅入深理解 Transformer? 学习路线应该是怎么样的? 后续进阶又该看哪些论文? 开始看论文以来一直有听说过 鼎鼎大名的 Transformer,最近终于开始学这个了,想知道各位前辈… 显示全部 关 …
深度学习中“Transformer”怎么翻译为中文? - 知乎
深度学习中“Transformer”怎么翻译为中文? 深度学习中Transformer在自然语言处理、计算机视觉大热,但是似乎还没有比较稳妥的中文翻译? 怎么翻译可以做到信雅达? 显示全部 关注者 196
挑战 Transformer:全新架构 Mamba 详解
Sep 23, 2025 · 而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性 …
transformer的损失函数如何定义? - 知乎
Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下: 第一 …
如何评价NeurIPS 2025论文Credal Transformer 对幻觉 ... - 知乎
如何评价NeurIPS 2025论文Credal Transformer 对幻觉问题的解决思路? 话题收录 NIPS2025 该论文针对现有 Transformer 架构可能导致LLM幻觉的问题提出了新的解决思路 [图片] 显示全部 关注者 130 …
transformer模型为什么要叫transformer? - 知乎
之所以叫Transformer其实有一个特别有意思且有深度的原因! 不卖关子!废话不多说,开始解读。。。 先从GPT的名词解释开始… 1. GPT 的名词解释 著名的 GPT 这个名字全称是 Generative Pre …
MoE和transformer有什么区别和联系? - 知乎
01. Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词的关系,而 …