2023 年十大人工智能(LLM)必读论文(下)
阿法兔研究笔记
2024-01-01 14:09
订阅此专栏
收藏此文章
用读论文迎接新的一年,新年快乐!!!看到这篇的朋友 2024 运气爆棚,顺利满满!

欢迎大家点击在看,或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~
LLM

*本文 4400 字左右

作者:SEBASTIAN RASCHKA, PHD,原文名称:Ten Noteworthy AI Research Papers of 2023


2023 年,是机器学习和人工智能发展最为迅速的一年,这里和分享分享 10 篇笔者认为最值得关注的论文(今天是第二部分)


上一篇见:2023 年十大人工智能(LLM)必读论文(上)

当然,这里主要是以大语言模型(LLM)论文为主。选择标准可能也会稍显主观,但还是基于笔者个人特别喜欢或认为有影响力、值得关注的论文。( 注:这里的排序顺序是推荐阅读顺序,而不是根据质量或影响力排序)。

6)Mistral 7B
尽管 Mistral 7B 论文有些简短,但它提出的模式很有影响力:


决定将这篇论文列入这份名单,是因为 Mistral 7B 模型不仅在发布时非常受欢迎,而且还作为基础模型,促进了其他两个知名模型的进步:Zephyr 7B 与最新的 Mistral Mixture of Experts (MoE) 。而这些是我预见的 2024 年上半年小型 LLM 趋势的良好范例。


在讨论 Zephyr 7B 和 Mistral MoE 模型之前,先简单谈谈 Mistral 7B 本身:

简而言之,Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型,尽管它的规模相对较小,只有 70 亿个 Token,但在各种 benchmark测试中,它的表现却优于更大的同类模型,比如它的表现超过了 13B Llama 2 模型。( 除了比其大两倍的 Qwen 14B 之外,Mistral 7B 也是今年 NeurIPS LLM Finetuning & Efficiency 挑战赛获胜方案中使用的 base mode

来自 https://arxiv.org/abs/2310.06825 的注释图,Mistral 7B 和 Llama 13B 的性能比较


Mistral 7B 的性能为什么如此之好的原因尚不清楚,但很可能是和它的训练数据有关。Llama 2 和 Mistral 都没有公布训练数据,因此我们只能推测。

从架构上来看,Mistral 7B 与 Llama 2 共享了 group-query attention,虽然与 Llama 2 非常相似,但 Mistral 架构中的一个有趣的补充是 sliding window attention ,用以节约内存并提高计算吞吐量,从而加快训练速度。(Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020


Mistral 中使用的The sliding window attention mechanism,本质上是一个固定大小的注意力块 ( fixed-sized attention block),它只允许当前标记关注特定数量的前一个 Token( (instead of all previous tokens)如下图所示:


在 7B Mistral 的具体案例中, the attention block size是 4096 个 Token,研究人员训练模型时使用了多达 100,000 个 Token 的 context size。举一个具体的例子,在常规的自注意力机制中,处于第 50,000 个 Token 的模型可以关注之前的所有 49,999 个 token。而在sliding window self-attention 机制中,Mistral 模型只能关注从 45,904 至 50,000 的 Token(因为 50,000 - 4,096 = 45,904)


然而,sliding window self-attention主要用于提高计算性能。而 Mistral 性能优于更大的 Llama 2 模型,很可能不单单是因为sliding window self-attention

Zephyr 和 Mixtral


Mixtral Mistral 7B 之所以是有影响力的模型,原因在于它可以作为 Zephyr 7B 的base model,正如上一篇文章(2023 年十大人工智能(LLM)必读论文(上))在 DPO 部分提到的。Zephyr 7B 是第一个使用 DPO 训练并超越其他替代模型的流行模型,可能为 DPO 成为未来几个月内调整聊天模型的首选方法,铺平了道路。


另一个从 Mistral 7B 衍生出的值得注意的模型是最近发布的 Mistral Mixture of Experts (MoE) model,也称为 Mixtral-8x7B。这个模型在几个Public benchmarks中匹敌或超过了更大的 Llama-2-70B 模型的性能。
有关更多 Benchmark 测试,请参阅 Mixtral 的官方博客文章公告。Mixtra 团队还发布了经 DPO 调整后的 Mixtral-8x7B-Instruct 模型(但截至目前,尚无与 Llama-2-70-Chat 进行比较的基准测试数据,后者是经过 RLHF 调整的模型)。
也有传闻认为,GPT-4 是由 16 个 submodule组成的 MoE。据说这 16 个 submodule中的每一个都拥有 1110 亿个参数((for reference, GPT-3 has 175 billion parameters)。不知道 MoE 是否能在 2024 年将开源模型提升到新的高度,看起来 Mixtral 已经提前开始了这一趋势,相信这只是个开始。

Mixture of Experts 101

如果你对 MOE 还比较陌生,可以参考下面的解释:
上面的图表展示了 Switch Transformer 的架构,该架构对每个 Token 使用 1 个Expert ,总共有 4 个Expert。另一方面,Mixtral-8x-7B 由 8 个Expert组成,每个 Token 对应 2 个Expert

为什么选择 MoE?

结合起来,像 Mixtral 这样的 7B 模型中的 8 个Expert,总共有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ,而不是self-attention weight matrices。因此,它可能更接近 40-50B 个参数。请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用<14B 个参数(2x <7B,而不是全部<56B),因此与传统的非 MoE 方法相比,训练(尤其是 inference)将会更快。

如果想要了解更多关于 MOE 的内容,这里有一个 Sophia Yang推荐的阅读清单:
  • The Sparsely-Gated Mixture-of-Experts Layer (2017)
  • GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
  • MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)
  • Mixture-of-Experts Meets Instruction Tuning (2023)

此外,如果读者对尝试 MoE 和 LLM 感兴趣,也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM
地址:https://github.com/XueFuzhao/OpenMoE


其他小型但有竞争力的 LLM Mistral 7B、Zephyr 7B 和 Mixtral-8x7B 是 2023 年小型但功能强大的模型取得进展的优秀例子,这些模型具有公开可用的权重。另一个值得注意的模型,也是我最喜欢的论文列表中其中一个是微软的 phi 系列。phi 的优势在于训练高质量数据,这些数据是通过过滤网络数据获得的。phi 模型在 2023 年分阶段发布,包括 phi-1(1.3B parameters)、phi-1.5(1.3B parameters))和 phi-2(2.7B parameters)。phi-2 两周前刚刚发布,有说法已经与 Mistral 7B 匹敌甚至超过,尽管它的大小只有一半。

(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463)
更多关于 phi models 的资料:
  • Textbooks Are All You Need-- the phi-1 paper
  • Textbooks Are All You Need II: phi-1.5 Technical Report
  • The Phi-2: The Surprising Power of Small Language Models announcement

7) Orca 2: Teaching Small Language Models How to Reason

这是一篇相对较新的论文,因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。

收录这篇论文的原因在于:它融合了多个概念和观点:


其一,从 GPT-4 等大型、功能强大的模型中提炼数据,创建一个合成数据集来训练小型但功能强大的 LLM。这一想法在去年发表的《Self-Instruct》论文中有所描述。今年早些时候,Alpaca(根据 ChatGPT 输出 Finetune 的 Llama 模型)真正推广了这种方法。

它是如何工作的?简而言之,主要分为 4 个步骤:
  • 用一组人类编写的指令(本例中为 175 条)和示例指令建立任务池;(Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;
  • 使用预训练 LLM(如 GPT-3)确定任务类别;( Use a pretrained LLM (like GPT-3) to determine the task category
  • 给定新指令,让经过预训练的 LLM 生成响应(Given the new instruction, let a pretrained LLM generate the response
  • 收集、修剪和过滤回复,然后将其添加到任务池中(Collect, prune, and filter the responses before adding them to the task pool
注释图基于 Self-Instruct 论文,https://arxiv.org/abs/2212.10560
另一个思路可能并不出人意料,但值得强调:高质量的数据对于finetuning非常重要。例如,LIMA 论文 (https://arxiv.org/abs/2305.11206) 提出了一个由人类生成的高质量数据集,该数据集仅包含 1k 个训练示例,可用于微调,其效果优于在 50k ChatGPT 生成的回复上进行finetuning的同一模型。


LIMA 论文中的注释图,https://arxiv.org/abs/2305.11206
与以往严重依赖模仿学习来复制大型模型输出结果的研究不同,Orca 2 的目标是向 "小型"(即 7B 和 13B)LLM 传授各种推理技巧(如逐步推理、先召回再生成等),并帮助它们为每项任务确定最有效的策略。通过这种方法,Orca 2 的表现明显优于类似大小的模型,甚至可以与 5-10 倍大的模型相媲美。
虽然还没有看到这方面的广泛研究,但 Orca 2 方法或许还能解决《the The False Promise of Imitating Proprietary LLMs 》论文中强调的使用合成数据的问题。在这篇论文中,研究人员使用 Alpaca 和 Self-Instruct 等实例,研究了如何对较弱的语言模型进行微调,以模仿 ChatGPT 等较强的专有模型。最初,模仿模型显示出了可喜的成果,与 ChatGPT 相比,它们在遵循指令方面表现良好,并从人群工作者那里获得了有竞争力的评分。然而,更多的后续评估显示,这些模仿模型似乎只在人类观察者面前表现良好,但却经常产生与事实不符的回答。


8) ConvNets Match Vision Transformers at Scale


近年来,由于 Large language transformers 和 vision transformers (ViTs) 的良好性能,我使用它们的频率很高。


在过去的三篇论文中,我从语言模型论文转向了计算机视觉论文,计算机视觉变换器特别吸引人的地方在于,预训练的视觉变换器甚至比卷积神经网络更容易进行 Finetune。还有就是《ConvNets Match Vision Transformers at Scale》这篇论文,该论文显示,如果能够访问足够大的数据集,卷积神经网络(CNN)实际上与 ViTs 具有竞争力。


ConvNets Match Vision Transformers at Scale (https://arxiv.org/abs/2310.16764) 论文中的注释图


在这里,研究人员投入了多达 11 万 TPU 小时的计算预算,对 ViT 和 CNN 进行了公平的比较。结果表明,当使用与 ViTs 通常使用的计算预算类似的计算预算对 CNN 进行预训练时,CNN 的性能可以与 ViTs 相媲美。为此,他们在 JFT 的 40 亿张标注图像上进行了预训练,随后在 ImageNet 上对模型进行了 Finetuning。


9) Segment Anything

在图像和视频中的Object recognitionsegmentation,以及分类和生成建模,是计算机视觉的主要研究领域。

简要说明这两项任务之间的区别:Object recognition是预测边界框和相关标签;segmentation则是对每个像素进行分类,以区分前景和背景物体:
Object recognition(上图)与 Segmentation(下图)。
图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640)和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3)


Meta 的论文“Segment Anything”论文是开源和图像segmentation研究的一个重要里程碑。该论文介绍了图像segmentation的新任务、新模型和新数据集。随附的图像数据集是迄今为止最大的segmentation数据集,包含超过 10 亿个mask,构建在 1100 万张图像基础上。
SAM 旨在高效、基于提示的图像 Segmentation: 来自“Segment Anything”论文的标注截图,https://arxiv.org/abs/2304.02643


然而,罕见且值得称赞的是,研究人员使用了许可和尊重隐私的图像,因此该模型可以在没有重大版权问题的情况下开源。

The Segment Anything Model 三个主要组成部分,见https://arxiv.org/abs/2304.02643 稍微详细一点,这三个部分可以总结如下:


  1. An image encoder utilizing a masked autoencoder based on a pretrained vision transformer (ViT) that can handle high-resolution inputs. This encoder is run once per image and can be applied before prompting the model
  2. A prompt encoder that handles two types of prompts: sparse (points, boxes, text) and dense (masks). Points and boxes are represented by positional encodings combined with learned embeddings for each prompt type. And free-form text uses an off-the-shelf text encoder from CLIP. Dense prompts, i.e., masks, are embedded using convolutions and summed element-wise with the image embedding.
  3. A mask decoder maps the image embedding, prompt embeddings, and an output token to a mask. This is a decoder-style transformer architecture that computes the mask foreground probability at each image location.

图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内,该论文已经被引用超过 1500 次,并且已经有许多项目在这篇论文的基础上构建。

10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Emu 视频:通过显式图像条件分解文本到视频生成,是 Meta 研究部门的另一个值得注意的计算机视觉项目。

Emu 是一个可以从文本提示生成整个视频的文本到视频模型,虽然它不是第一个令人印象深刻的文本视频生成模型,但它与以前的作品相比有很大优势:
Emu 与其他文本到视频模型的性能比较,见https://arxiv.org/abs/2311.10709 正如作者所指出的,与之前的方法相比,Emu 架构的设置相对简单。


本论文作者所指出的,Emu 的架构设置相较于以往的方法来说相对简单。这里的一个主要思想是,Emu 将生成过程分解为两个步骤:首先基于文本生成图像(使用扩散模型),然后基于文本和生成的图像创建视频(使用另一个扩散模型)。


2022 年对于文本到图像模型(如 DALL-E 2、Stable Diffusion 和 Midjourney)来说是重要的一年。尽管文本到图像模型在 2023 年仍然非常受欢迎(尽管大型语言模型(LLMs)在这一年里获得了更多关注),但我认为文本到视频模型即将在在线社区中变得更加普遍。


笔者不是图像或视频设计师,目前我没有使用这些工具的用例;然而,文本到图像和文本到视频模型作为衡量计算机视觉进步的一般指标,仍然值得关注。


新年快乐!


新年快乐!2024 大展宏图,越来越好!

【阅读更多】


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

阿法兔研究笔记
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开