AIGC 语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场 昨天,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了! 新智元 MetaTransformer大模型
AIGC 大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer 超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。 新智元 Transformer大模型技术架构
AI人工智能 拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」 DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。 新智元 TranNARTransformer算法推理
AI人工智能 大道至简:这一轮人工智能(AI)突破的原因其实很「简单」 大道至简,本文用通俗易懂的语言解释了Transformer的核心原理,对于我们这种没有基础的普通人,也是能快速理解的,也能对当前的大模型有更深入的认识。 南村小付 GPTTransformer技术原理
个人随笔 还在卷长文本?谷歌最新论文直接把文本干到…无限长了 最近一段时间,有关长文本能力的探讨被摆到了台面上,而就在人们比拼上下文窗口时,谷歌发布了一篇论文,谈到团队发明了一种新的注意力技术,这项技术可以让transformer大模型在有限的计算资源条件下处理无限长度的输入。 硅星人 Transformer谷歌长文本
AI人工智能 马斯克的Grok-1为什么不采用经典Transformer? 前段时间,马斯克开源了大模型Grok-1的源代码。开源本来是件好事,不过很多人发现Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架构。这是为什么呢?本文尝试解答一下此类问题。 黄锐 Grok-1Transformer马斯克
AI人工智能 Transformer神经网络:GPT等AI大模型的基石 Transformer模型基于自注意力机制,摒弃了传统的RNN和CNN结构,在自然语言处理任务中取得了显著的成果,一定程度上是GPT的重要基石。这篇文章里,作者就对Transformer神经网络做了解读,一起来看一下。 AI小当家 GPTTransformer大模型
AI人工智能 AI基金年终盘点 | 一文看懂2024年AI趋势 时间跨入2024,在这一年,AI行业可能会迎来怎样的发展趋势?这篇文章里,作者结合机构们发布的报告与预测做了整理,一起来看看,或许可以帮你获得更多AI前瞻视野。 硅兔赛跑 A16ZAI趋势Transformer
AI人工智能 大模型套壳祛魅:质疑套壳,理解套壳 有关“套壳”的争论一直没有停止,那么,当我们在谈论套壳的时候,到底在谈论什么?怎么厘清大模型套壳的逻辑?这篇文章里,作者结合访谈与论文,尝试阐述哪些步骤、哪些环节存在套壳的空间。 甲子光年 GPTTransformer大模型
AI人工智能 Transformer能解释一切吗? Transformer的高内存消耗和高推理成本的局限性开始显现出来,替代者跃跃欲试。本篇文章详细利用各种数据介绍了Transformer的替代者以及各种理论知识,推荐想了解人工智能的同学阅读。 硅星人 3年Transformer中级