Showing preview only (306K chars total). Download the full file or copy to clipboard to get everything.
Repository: ZJU-LLMs/Foundations-of-LLMs
Branch: main
Commit: 1109bfa8e1c5
Files: 64
Total size: 284.1 KB
Directory structure:
gitextract_egmte1ht/
├── Arxiv 一周进展报告(大模型方向)/
│ ├── 20241004-20241010/
│ │ ├── TOOLGEN:探索Agent工具调用新范式!.md
│ │ ├── TableRAG:让大模型轻松驾驭大规模表格数据.md
│ │ ├── 利用 KG-RAG 提升病理解释性能,并保护隐私.md
│ │ ├── 精准思考,智能分配算力.md
│ │ ├── 重要性采样,解锁Token级偏好对齐.md
│ │ └── 零额外推理开销,提升RAG性能!.md
│ ├── 20241011-20241017/
│ │ ├── TPO:平民版 OpenAI-O1,思维能力遥遥领先!.md
│ │ ├── Talker-Reasoner:继物理和化学后,诺贝尔经济学奖成为新目标?.md
│ │ ├── 北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!.md
│ │ ├── 打破选择困局:多智能体带你高效选择预训练数据.md
│ │ ├── 自回归奖励模型让 LLM 对齐不再困难!.md
│ │ └── 谷歌联合CMU提出超强奖励模型,大模型推理能力的新曙光!.md
│ ├── 20241018-20241024/
│ │ ├── DeepSeek最新多模态大模型,理解与生成同时遥遥领先!.md
│ │ ├── LongRAG:长文本问答的 “超级导航仪”,精准定位答案.md
│ │ ├── NetSafe:探秘多智能体网络安全拓扑“攻守道”(1).md
│ │ ├── SSO:无需人工标注,自动对齐 LLM!.md
│ │ ├── WMA Web Agent:让世界告诉Agent决策有风险需谨慎!.md
│ │ └── 普林斯顿大学提出 TreeBoN !大语言模型推理效能「提升秘籍」曝光.md
│ ├── 20241025-20241031/
│ │ ├── 2D-DPO:告别“一刀切”!多维度对齐 LLM 偏好.md
│ │ ├── AgentStore:智能世界的超级 “App Store”.md
│ │ ├── CMU 与普林斯顿大学携手改进 BoN 算法,打破大模型推理时计算效率瓶颈!.md
│ │ ├── Flow-DPO:像数学老师一样思考!多智能体推理链自动生成.md
│ │ └── PULSE 多模态大模型读懂你的心٨ـﮩ٨ـ🖤ﮩ.md
│ ├── 20241101-20241107/
│ │ ├── Adapting While Learning:自适应使用智能工具助力科学探索.md
│ │ ├── SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力.md
│ │ ├── StepAgent:从小白到大神,过程奖励助力 Agent 进化.md
│ │ ├── 谷歌出品 SLED 解码技术,让大语言模型输出更靠谱!.md
│ │ └── 颠覆Transformer,神经网络自演化的开端!!!1.md
│ ├── 20241108-20241114/
│ │ ├── IOPO:化身超级助手,让 LLM 轻松应对复杂指令.md
│ │ ├── Spider 2.0 来袭!大语言模型能否应对企业级 Text-to-SQL 的超强挑战?.md
│ │ └── UC Berkeley 和 CMU 出手!揭开大语言模型泛化的 “神秘面纱”.md
│ ├── 20241115-20241121/
│ │ ├── LPO:“智能控温”,自适应调整 LLM 解码温度.md
│ │ ├── XiYan-SQL:突破性Text-to-SQL框架,准确率遥遥领先!.md
│ │ └── 一键自动化:Claude 3.5与GUI Agent的破晓时刻.md
│ ├── 20241206-20241212/
│ │ ├── Coconut 从语言脑到推理脑,大模型连续潜在空间推理.md
│ │ ├── RARE 登场:大模型推理的 “智慧导航仪”,精准穿越知识迷宫.md
│ │ ├── VisionZip压缩视觉token,提升视觉模型推理效率.md
│ │ └── 迈向高效智能:大语言模型的能力密度增长与密度定律.md
│ ├── 20241213-20241219/
│ │ ├── Meta 提出大概念模型(LCM),突破词级限制的多语言多模态大语言模型.md
│ │ ├── ModernBERT:革新编码器模型,引领高效长上下文处理新时代.md
│ │ ├── RetroLLM:检索生成大融合,“鹰眼”精准定位答案.md
│ │ ├── SHAD+RFT:面向Agent-Task的大模型微调新范式.md
│ │ ├── Think&Cite:让 LLM 不再“空口无凭”,句句有出处.md
│ │ ├── 大语言模型的 “幻觉克星” 来了!DePaC 助力精准生成.md
│ │ ├── 强强联合,Meta与斯坦福发布最新视频大模型Apollo:揭示扩展一致性新规律.md
│ │ └── 腾讯提出Cal-DPO,解决DPO重大缺陷.md
│ ├── 20241220-20241226/
│ │ ├── GME:打破模态界限,全新通用多模态检索器的探索与突破.md
│ │ ├── Mulberry:多模型合作MCTS,让MLLM进入o1推理时代.md
│ │ ├── Proactive Agent:主动读取需求,让AI比你更懂你.md
│ │ ├── RobustRF:打造鲁棒微调框架,大幅提升大模型在噪声环境下的性能.md
│ │ ├── 大语言模型的 “省钱秘籍”!TALE 框架让推理成本大瘦身.md
│ │ └── 英伟达和高校联合提出数据选择策略,大幅强化模型预训练效果.md
│ ├── 20241227-20250102/
│ │ ├── CCoT压缩链式思维框架,极大降低 CoT 计算开销.md
│ │ ├── 任务偏好优化:多模态大语言模型的精细视觉任务革命.md
│ │ ├── 减少不必要的计算开销,让模型不再“过度思考”.md
│ │ └── 大模型 “进化密码”:加权偏好优化弥补自身短板.md
│ └── 20250103-20250109/
│ ├── LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型.md
│ ├── PPT 生成革命!PPTAgent:AI 帮你一键搞定高质量演示文稿,设计、内容、逻辑全搞定!.md
│ ├── 微软提出rStar-Math,7B小模型数学能力直逼o1!.md
│ └── 陈丹琦团队新作 MeCo,元数据条件化加速模型预训练.md
├── Foundations_of_LLMs(English_version)/
│ └── readme.md
├── LICENSE.md
├── readme.md
└── 大模型经典论文列表/
└── readme.md
================================================
FILE CONTENTS
================================================
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/TOOLGEN:探索Agent工具调用新范式!.md
================================================
# TOOLGEN: UNIFIED TOOL RETRIEVAL AND CALLING VIA GENERATION
**作者**:*Renxi Wang, Xudong Han* 等
**单位**:*LibrAI, Mohamed bin Zayed University of Artificial Intelligence* 等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的主要内容是**Agent中的工具使用**。在Agent中,大语言模型在处理任务时,常常需要与外部工具进行交互以获取信息或执行操作。然而,在工具数量显著增多的场景下,将工具描述作为上下文输入的方法因受限于上下文长度而不再可行。先检索后调用的方法可以检索出候选的工具列表,然而需要额外的检索步骤,与模型生成过程相独立,效率不高。为了解决现有方法存在的问题,本文提出了一种名为**ToolGen**的框架。
ToolGen的核心思想是将每个工具表示为模型词汇表中的一个独特的**Token**,扩展大模型的词表,从而将工具的检索和调用直接集成到模型的参数中,令大模型利用其已有知识来检索和调用工具。
如下图所示,先前基于检索的方法使用检索器基于相似度匹配检索相关工具,并将检索结果放入Prompt,交给大模型来执行调用。而ToolGen可以通过直接生成工具Tokens来完成工具的检索和调用,不依赖于任何外部检索器。

ToolGen框架如下图所示:

图中,ToolGen主要包括以下几个部分:
1. **工具虚拟化(Tool Virtualization)**
在ToolGen中,每个工具被映射为一个唯一的Token,所有工具的Tokens被添加到LLM的词表中。这种映射可以通过多种索引方式来实现,包括数值(Numeric)索引、分层(Hierarchical)索引、语义(Semantic)索引和原子(Atomic)索引。其中,原子索引确保了每个工具都是一个单一的Token,而不是多个Token的组合。
2. **三阶段训练过程**
ToolGen的训练过程包括三个阶段,每个阶段都旨在提升模型在不同方面的性能,从而实现更准确和高效的工具检索和调用。
(1)**工具记忆(Tool Memorization)**
在工具记忆阶段,模型通过将工具描述作为输入,工具Token作为输出,来学习关联每个虚拟工具Token与其文档。这个过程类似于教模型“记住”每个工具的功能和用途。通过这种方式,模型能够理解每个工具Token背后的含义,从而在后续的检索和调用中更加准确。
(2)**检索训练(Retrieval Training)**
检索训练阶段的目标是让模型学会如何根据用户的查询生成相关的工具Token。在这个阶段,模型接收用户查询作为输入,并被训练以生成相应的工具Token作为输出。这个过程使得模型能够根据用户的需要,从其“记忆”中检索出正确的工具Token,从而实现对工具的精确调用。
(3)**端到端Agent训练(End-to-End Agent-Tuning)**
在端到端Agent训练阶段,模型被训练以作为一个自主Agent,生成计划和工具,并确定完成任务的适当参数。这个阶段的训练使用了Agent任务完成轨迹,即一系列的用户查询和相应的工具调用序列。通过这种方式,模型学会了如何在实际任务中有效地使用工具,包括何时调用工具、调用哪个工具以及如何配置工具的参数。
实验使用了包含**47,000**个真实世界工具的数据集进行验证,包括**工具检索任务**和**端到端生成任务**。
在工具检索任务中,ToolGen不仅取得了与当前最佳工具检索方法相当的性能,而且成本更低,效率更高。

在端到端生成任务中,ToolGen在大多数设置下保持领先。

综上所述,ToolGen框架通过将工具检索转化为生成过程,使得LLM能够更自然、更高效地在语言生成过程中调用工具,从而提高了Agent的自主性和效率。
---
- 原文链接: https://arxiv.org/abs/2410.03439
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/TableRAG:让大模型轻松驾驭大规模表格数据.md
================================================
# TableRAG: Million-Token Table Understanding with Language Models
**作者**:*Si-An Chen, Lesly Miculicich , Julian Martin Eisenschlos* 等
**单位**: *National Taiwan University, Google Cloud AI Research, Google DeepMind, UC San Diego*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究的问题是**如何提高大语言模型在理解和推理大规模表格数据方面的效率和性能**,之前的方法主要包括基于模式的方法和基于行列检索的方法,前者主要关注schema信息,降低了令牌复杂度,但是会丢失一些有价值的单元格数据;后者通过对行和列整体编码来减少令牌数,但是在处理大表格时仍面临着计算和性能挑战,并且行列压缩也会模糊语义信息。本文提出的**TableRAG**的核心思想是**在回答与表格相关的问题时,其实并不需要将整张表格作为输入提供给大型语言模型。**
**TableRAG**框架具体流程如下:
1. **查询扩展(Tabular Query Expansion):** 与以前工作使用单一查询不同,作者为模式和单元格值生成单独的查询。例如对于下述问题 *What is the average price for wallets?* 使用大语言模型给出可能的列名: *product* 和 *price* 等,以及相关的单元格值 *wallet*,*seller*等
2. **模式检索(Schema Retrieval):** 作者使用预先训练的编码器$f_{enc}$对上述查询进行编码,并将它们与编码的列名进行匹配,以确定相关性。检索到的数据包括列名、数据类型(**将列转换为整数、浮点数或日期时数据类型;否则,将它们保留为分类列**)和示例值(**除分类列外,使用最大最小值作为示例值,分类列使用三个最常见的类**)保留每个查询的Top-k个相关的结果,并根据相似性排序
3. **单元格检索(Cell Retrieval):** 在模式检索之后,构建一个不同列值对的数据库$V = U_{ij}(C_{ij},v_{ij})$,在事实表中,**不同值往往会少于单元格总数**,所以这种方式提高了单元格检索的效率。在最坏的情况下,不同值和单元格总数相当,这里引入编码预算$B$, 如果不同值的数量超过$B$,那么将编码限制在出现最频繁的对。
4. **程序辅助求解器(Program-Aided Solver):** TableRAG与大语言模型代理兼容,它可以通过**编程方式与表进行交互**。这里作者考虑ReAct(实现表QA基准的最先进方法)


**在实验方面**,作者开发了两个广泛使用的数据集*ArcadeQA*和*BirdQA*,分别来自*Arcade*和*BIRD-SQL*数据集,此外,作者扩展了*TabFact*数据集,使其包括了从$100\times100 到 1000\times 1000$ 的合成表。
作者将TableRAG与四种不同的表输入方法进行了比较。包括**整表输入**、**模式输入**、**随机行采样**和**行列检索**,在表2所示的跨数据集的评估中,TableRAG始终优于其他方法,在*ArcadeQA*和*BirdQA*上都获得了**最高的准确性**。

并且本方法也以更简短的prompt长度取得了较高的准确率,如下图所示。

此外,为了评估小规模*TableQA*数据集的性能,作者使用常用的*WikiTableQA*基准,与相关的基线方法做了比较,获得了更好的结果。

---
- 原文链接: https://arxiv.org/abs/2410.04739
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/利用 KG-RAG 提升病理解释性能,并保护隐私.md
================================================
# LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies
**作者**:*Ameer Hamza, Abdullah, Yong Hyun Ahn, Sungyoung Lee, Seong Tae Kim*
**单位**: *Kyung Hee University, Republic of Korea*
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
该框架将一个预训练的 LLaVA 模型与一个 CLIP ViT - L 视觉编码器相结合,以提取视觉特征,然后将这些视觉特征投影到语言模型的嵌入空间中。KGR 模块使用 MedCLIP 将输入图像映射到一个共享的潜在空间,并通过 FAISS 库检索相关的 KG 三元组。这些三元组提供了特定领域的上下文,增强了胸部病理准确且信息丰富的自然语言解释(NLE)的生成。模块化设计允许与其他架构(如 Med - XPT 和 Bio - LLaVA)无缝集成,确保在不同的视觉 - 语言任务中具有灵活性和适应性。

### 病理分类任务
运用 MLP 处理医学视觉模型提取的视觉特征,对 10 种病理按存在可能性分为**阴性**、**不确定**、**阳性**三个确定性水平进行预测。得到分类后的结果,跟KG-RAG检索到的知识一起输给大模型。

### 知识图谱检索
为解决传统 RAG 系统可能暴露患者敏感信息的风险,提出基于 KG 的 RAG 方法。该方法使用由通用医学术语、实体及其相互关系组成的 KG,**避免直接涉及患者特定细节**,降低隐私暴露风险。
**数据存储的构建**
- 构建一个包含 KG 三元组的数据存储,这些三元组来自 MIMIC - CXR 训练集,通过 RadGraph 模型提取。形式为:“疾病实体 - 关系描述 - 相关实体” 的形式,如 “肺炎 - 暗示 - 肺部阴影” 等
- 仅使用具有 “暗示” 关系的三元组,因为它们与解释病理更直接相关。
- 三元组的嵌入使用 MED-CLIP 模型生成,并仅存储文本信息,排除图像特征,以便实现跨模态检索。
**知识检索过程**
- 对于每个查询图像,使用 MED-CLIP 模型提取视觉特征,该模型将视觉和三元组特征映射到统一特征空间。
- 通过计算查询图像视觉特征与存储的三元组嵌入之间的余弦相似度,从 KG 数据存储中检索出最相似的前 k 个三元组。
### 视觉与语言模型
**视觉模型**:MedCLIP 和 ViT - L/14 CLIP
**语言模型**:LLaVA 或者 Viccuna
最后集成信息输入,向语言模型提供病理及其确定性水平(不确定、阳性)以及检索到的知识。这些元素被集成到一个结构化的提示模板中。然后将这个提示输入到解码器中,解码器根据图像特征、病理和检索到的知识生成自然语言解释(NLE)。
### 实验结果
**与其他方法比较**
在 MIMIC - NLE 测试集上,将 KG - LLaVA 框架与 RATCHET、TieNet、DPT 等方法比较。KG - LLaVA 在 AUC(83.0)、BLEU - 4(7.2)、METEOR(15.1)、ROUGE - L(25.0)和 CIDEr(62.2)等指标上均优于现有方法,表明其在准确分类和生成胸部病理相关解释方面的有效性。

**不同 LLMs 比较**
对 KG - LLaVA、Med - XPT 和 Bio - LLaVA 三个框架比较。KG - LLaVA 在 BLEU - 4、METEOR 和 ROUGE - L 指标上表现最佳,能生成准确且内容丰富的解释;
**不同 RAG 方法影响**
比较 Med - XPT 和 KG - LLaVA 在无 RAG、基于标准 NLE 的 RAG 以及基于 KG 检索模块的 RAG 三种配置下的性能。在 KG 配置下性能提升最显著,KG - LLaVA 在多个指标上领先,Med - XPT 在 CIDEr 指标上表现出色,证明了 KG - RAG 模块的重要性。

---
- 原文链接: https://arxiv.org/abs/2410.04749
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/精准思考,智能分配算力.md
================================================
# LEARNING HOW HARD TO THINK: INPUT-ADAPTIVE ALLOCATION OF LM COMPUTATION
**作者**:*Mehul Damani, Idan Shenfeld* 等
**单位**: *MIT*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究了**如何自适应地为不同难度的输入问题分配不同计算资源以提高语言模型的输出质量**。现有方法通常为所有输入问题应用相同的推理资源,导致计算资源分配效率低下。
因此,本文首先提出了一种方法来预测输入问题的难度,并据此分配额外的计算资源给那些难度较高且能从中显著受益的问题。本文训练了一个轻量级的难度预测模型来估计每个查询的边际奖励,并开发了一个高效的资源分配算法来优化整体的计算资源分配。
### 难度预测
难度预测模型构建在LM上,在LM最后一层隐藏层上新增MLP,在LM decode时,用隐藏层输出输入到reward predictor中,进行难度预测。通过这种方式可以在decode的**同时**进行难度预测,并且可以**利用LM本身的问题理解和表征能力**。

### 资源分配
本文解决的问题是如何在拥有有限推理计算资源的情况下,最优化模型的输出效果,即**最优化**如下目标:
$$
\begin{aligned}
max_{b_1,...,b_n}\sum_i{\mathbb{E}_{y_i \sim f(x_i,b_i)}[r(x_i,y_i)]}\quad s.t. \sum_i{b_i}\le B\cdot n
\end{aligned}
$$
其中:
$$x_i,y_i$$分别是问题输入和LM回答输出;
$$r$$用于衡量回答的好坏,比如chat任务中,可以用reward model来衡量输出质量;
$$B$$是平分给每个问题最多的推理资源,资源可以类比为sample几次,因此推理资源总量就是$$B\cdot n$$;
$$b_i$$是实际给第$$i$$个问题分配的资源量,为**优化变量**;
本文接着定义边际收益,即多分配1unit(比如多sample一次)的推理资源,获得的边际reward,将根据问题难度分配资源转化为根据多给问题**分配资源能够获得的边际收益**来分配推理资源,边际收益定义如下:
$$
\begin{aligned}
q(x_i, b_i) = \mathbb{E}_{y_i\sim f(x_i,b_i)}[r(x_i, y_i)]\\
\Delta_{ij}=q(x_i,j)-q(x_i,j-1)
\end{aligned}
$$
因此可以得到如下转化:
$$
\begin{aligned}
q(x_i,b_i)=\sum_{j=1}^{b_i}\Delta_{ij}
\end{aligned}
$$
最终可以得到如下转化的优化目标:
$$
\begin{aligned}
max\sum_{i=1}^n\sum_{j=1}^{B_{max}}{c_{ij}\Delta_{ij}}\quad s.t. \sum_{i,j}{c_{ij}}\le B\cdot n;\quad c_{ij}\le c_{i,j-1} \ \forall i,j
\end{aligned}
$$
其中:
$c_{ij}$为整数变量,表示对于问题$i$资源是否增多,这是一个**整数规划问题**,且具有特殊形式,可以用贪心算法求得最优解。
### 实验结果
以chat任务为例,使用LMSYS-Chat数据集,Full为全量测试集,Tranches为从Full中挑选最难和最简单的问题构造的数据集。在达到相同回答效果的前提下,使用本文资源分配算法可以在Full数据集上获得0-10%的资源节省,在Tranches数据集上获得25-40%的资源节省。

---
- 原文链接: http://arxiv.org/abs/2410.04707
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/重要性采样,解锁Token级偏好对齐.md
================================================
# TIS-DPO: Token-Level Importance Sampling for Direct Preference Optimization with Estimated Weights
**作者**:*Aiwei Liu, Haoping Bai, Zhiyun Lu, Yanchao Sun, Xiang Kong, Simon Wang, Jiulong Shan, Albin Madappally Jose, Xiaojiang Liu, Lijie Wen, Philip S. Yu, Meng Cao*
**单位**:*Tsinghua University, Apple, University of Illinois at Chicago*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。
## 研究框图

## 方法详解
本文研究的是**如何提高大型语言模型在偏好对齐任务中的优化效率和结果的最优性**。在现有的 DPO 方法中,所有 Token 同等重要,这忽略了 Token 间重要性的差异,可能导致优化效率低下,且难以达到最优结果。为了解决这一问题,本文提出了一种新的优化目标——**基于估计权重的 Token 级重要性采样 DPO(TIS-DPO)**。
TIS-DPO 的核心思想是**为每个 Token 分配基于其奖励的重要性权重**,从而在优化过程中对不同 Token 进行差异化处理。**重要性权重是通过正面与负面LLMs对相同Token的预测概率之差来计算的,这个差值被视作奖励的估计。**
### 1. DPO的局限性:忽略 Token 级的重要性差异
由于 Token 之间的重要性差异很大,甚至好回答也可能包含低奖励的 Token。**与 Token 级奖励值相比,文本的平均奖励存在噪声**。DPO 对所有 Token 一视同仁会降低优化效果。
本文将正负回答的**平均奖励值出错的概率**称作**数据噪声**,其上界为(证明见原文附录):
$$
P(S_w\leq S_l)\leq\exp\left(-\frac{2n_wt^2}{(b_w-a_w)^2}\right)+\exp\left(-\frac{2n_lt^2}{(b_l-a_l)^2}\right)
$$
其中,$S_w$ 和 $S_l$ 分别为正负回答的平均奖励值,$n_w$ 和 $n_l$ 分别为正负回答的 Token 数量,$b_w$ 和 $a_w$ 分别是正回答的最大奖励值和最小奖励值,$b_l$ 和 $a_l$ 分别是正回答的最大奖励值和最小奖励值。
可以发现,**文本中不同 Token 的奖励波动越大,正负回答的平均奖励出错的概率越大**,越容易影响优化过程。
### 2. 最优的偏好数据分布
为了克服上述问题,理想的偏好数据的 Token 奖励应该尽可能稳定。**最优的偏好数据分布** $D^*$ 应当满足以下定义:
**定义1**:在最优数据集 $\mathcal{D}^*$ 中,对于所有的 $x$ 和 $y^{<t}$,下一个 Token $y_t$ **是从具有相同期望奖励 $R^*$ 的分布中采样的**。也就是说,$\mathcal{D}^*$ 具有以下性质:
$$
\forall(x,y^{<t}),\quad\mathbb{E}_{y^t\sim\mathcal{D}^*(\cdot|x,y^{<t})}[r(y^t\mid x,y^{<t})]=R^*
$$
其中, $\mathcal{D}^*(\cdot\mid x,y^{<t})$ 表示给定上文 $(x,y^{<t})$ 时,从 $\mathcal{D}^*$ 中采样 $y_t$ 的概率。
**由于最优的偏好数据分布很难采样,因此可以应用重要性采样的方法,从实际数据分布中采样来逼近理想分布的性质。**
**重要性抽样**是一种利用来自不同分布的样本来估计目标分布特性的方法,即
$$
\mathbb{E}_{x\sim p}[f(x)]=\mathbb{E}_{x\sim q}[f(x)\frac{p(x)}{q(x)}],
$$
其中,$p$ 为目标分布,$q$ 为抽样分布,$\frac{p(x)}{q(x)}$ 为**重要性权重**。·
而**最优分布与实际分布的关系**为(证明见原文附录):
$$
D^*(x,y^{<t},y^t)=\frac{D(x,y^{<t},y^t)}{w(y^t\mid x,y^{<t})}.
$$
所以可以通过重要性采样逼近最优分布,其重要性权重为 $w(y^t\mid x,y^{<t})=k*exp(\mu r(y^t\mid x,y^{<t}))$,该权重与 Token 的奖励值正相关。(直觉上理解:在“好回答”中,将奖励值太大的Token采样概率要减小一些,将奖励值太小的Token 采样概率变大一些。“坏回答”类似。)
### 3. 正反模型对比估计奖励值
传统的奖励模型难以估计 Token Level 的奖励,所以本文采用 **训练正反模型** 的方式,**通过对比二者的输出概率来估计 Token 奖励值**,即将正面模型和负面模型对同一 Token 的输出概率之差作为奖励值估计,进一步计算出重要性权重。
采用三种方式训练对比模型: **Prompt-based**,**Sft-base**,**DPO-base**.

为避免重要性采样的高方差问题,对奖励值进行了裁剪:
$$
w_t=k\cdot\exp(\mu\cdot\text{clamp}(\log\frac{\pi^+(y_t\mid x,y^{<t})}{\pi^-(y_t\mid x,y^{<t})},L,U)),
$$
### 4. TIS-DPO(Token 级重要性采样的 DPO)
**将 Bradley-Terry 奖励模型转换为 Token-level,并且应用重要性采样,得到 TIS-DPO 的目标函数**为:

### 5. 实验
TIS-DPO 能够有效提升 LLMs 在偏好对齐任务中的性能,在无害性和有帮助性对齐以及摘要任务上表现出色。

综上所述,TIS-DPO通过**为每个 Token 分配基于奖励的权重,并在优化过程中进行重要性采样**,有效地**提高了LLMs在偏好对齐任务中的优化效率和结果的最优性**。这种方法不需要修改原始数据构建过程,适用于实际应用场景。同时,也提供了一种新的思路来处理 Token 级的重要性差异。
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241004-20241010/零额外推理开销,提升RAG性能!.md
================================================
# PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead
**作者**:*Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan* 等
**单位**: *Gaoling School of Artificial Intelligence, Renmin University of China, Southeast University, Ant Group* 等
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究的是**如何在RAG任务中提升模型对上下文的感知能力**。现有增强上下文感知的方法存在效率低下、推理时产生时间或内存开销,且很多方法针对特定位置嵌入等问题。研究发现部分注意力头会抑制上下文信息流动,影响 LLMs 的上下文感知能力,因此本文提出了**PEAR**方法,通过削弱这种抑制机制,提高 RAG 任务的性能。**该方法首先定位上下文感知抑制头,然后对这些抑制头的输出乘以可学习的系数来削弱其影响。**
具体地,PEAR方法分为两个阶段,定位抑制头和重加权系数学习,以下是详细介绍。
### 定位抑制头
1. **任务输入**
对于每个输入样本,创建一个长度为 $$n$$ 的序列 $$\{{x_1,...,x_n}\}$$,其中 $$x_i$$ 是从词汇表中随机采样的标记。然后将此序列重复,得到输入样本 $$\{x_1,...,x_{2n}\}$$,其中$$x_i = x_{i+n} (i \in [1, n])$$ 。若在位置 $$n + i + 1$$ 时,输出logits最高的标记是 $$x_i$$ ,则认为模型成功执行了代理任务。
*注:这是因为在语义无意义的上下文中,模型倾向于检查序列中的最后几个标记是否先前出现过,并复制它们最后一次出现的后一个Token作为输出。这种处理倾向使得模型在面对这种重复的输入结构时,能够尝试按照这种模式进行预测。*
2. **抑制头定位**
构建输入序列,沿着序列维度平均每个注意力头的输出得到一个**平均向量**作为**干预向量**,然后替换正常运行的 $$A_{n - 1}^{(l,h)}$$ ,这个过程视为削弱该头的影响,如图1所示。

接下来计算指标为**logits差异**,对于第 $$l$$ 层的第 $$h$$ 个注意力头,计算:
$$
\Delta\pi^{(l,h)}=\frac{\tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}]}{\pi_{2n}[x_{n - 1}]}-1
$$
,其中 $$\pi_{2n}[x_{n - 1}]$$ 是正常运行时位置 $$2n$$ 选择 $$x_{n - 1}$$ 的logits,$$\tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}]$$ 是干预 $$A^{(l,h)}$$ 后的logits。该指标值越高,表明 $$A^{(l,\Lambda)}$$ 的抑制效果越强。使用不同的 $$n$$ 值重复实验取平均值以减轻上下文长度的偏差,最后将前 $$K$$ 个最负面影响的头确定为**抑制头**。
### 重加权系数学习
在标准的多注意力头机制中,所有注意力头的输出以相等的权重聚合。本文提出将抑制头集合中的每个头的输出乘以一个可学习的标量,称为重新加权系数,以削弱抑制头的影响,如图2所示。

为了优化这些重新加权系数,冻结LLM的原始参数,**仅训练加权系数以最小化代理任务上的损失**。损失仅在序列的后半部分计算,即 $$\mathcal{L}=-\sum_{i=n}^{2n - 1}log(p(x_{i + 1}|x_{1:i}))$$,目的是增强基于上下文的检索能力而非预测下一个标记。
在下游RAG任务中,重新加权系数与任务无关且保持固定。对于每个LLM,只需通过代理任务对抑制头进行一次优化。因此,PEAR在下游RAG任务的推理过程中引入零额外开销。此外,重新加权系数的学习与LLM架构无关,使该方法与各种位置编码算法兼容。
### 实验结果
在不同RAG任务上的表现如图3所示,推理时间对比如图4所示,表明本方法在引入零额外开销的情况下提升了RAG任务的性能。

图5是PEAR方法在不同位置编码上的表现,表明PEAR独立于位置编码,适配于各种模型结构。

---
- 原文链接: https://arxiv.org/pdf/2409.19745
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/TPO:平民版 OpenAI-O1,思维能力遥遥领先!.md
================================================
# Thinking LLMs: General Instruction Following with Thought Generation
*Tianhao Wu, Janice Lan 等*
*Meta FAIR, University of California, Berkeley, New York University 等*
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文提出了 **Thought Preference Optimization (TPO)** 方法。该方法通过无监督的方式生成和优化模型的思维过程,使得大语言模型能够在回答前进行思考,并显著提升其应答质量。
### 思维偏好优化(TPO)
在 TPO 方法中,思维生成部分初始是通过指令微调过的模型(**Llama-3-8B-Instruct** )生成的,但这种生成并未经过进一步的优化,导致其并不能显著提升最终的应答质量。为了有效利用思维生成,TPO 采用了基于 AI 反馈的强化学习范式(Reinforcement Learning from AI Feedback, RLAIF),并结合 **直接偏好优化(Direct Preference Optimization, DPO)** 进行优化。DPO 方法因其简洁高效而被选用,尤其适用于处理多轮迭代训练。

**1. 思维过程生成**
首先,模型用以下提示生成一个包含两个部分的输出:**思维部分**和**应答部分**。思维部分是模型的内部推理,描述了它如何处理和分析问题,而应答部分则是直接给出的答案。

例如,模型可能生成如下的**内部思维过程**:
```text
这个问题要求我比较两种算法的效率。我可以从它们的时间复杂度开始入手,考虑输入规模的变化对其性能的影响。假设输入规模较大,算法A的复杂度为 O(n^2),而算法B为O(nlogn),因此算法B应该表现更好。
```
与传统的链式思维(CoT)不同,**TPO 将思维过程隐藏起来,不展示给用户**。这一点和 OpenAI-o1 十分类似。
**2. 偏好优化过程**
在每轮迭代中,模型 $ M_t $ 会基于输入指令生成多个**包含思维和应答**的候选输出。具体步骤如下:
- **思维与应答生成**:模型 $ M_t $ 接收输入 $ x_i $ 以及指令 $ p $ 后,生成 $ k $ 个输出,每个输出包含思维部分 $ z_i^k $ 和应答部分 $ y_i^k $,记为 $ M_t(p + x_i) \rightarrow \{z_i^k, y_i^k\} $。
- **评分与构建偏好对**:接着,仅将生成的应答部分 $ y_i^k $ 传递给评分模型 $ J $,对每个应答 $ y_i^k $ 进行评分,得到评分结果 $ s_i^k \in \mathbb{R} $。当使用成对比较的评分模型时,会比较候选应答对中的所有组合,最后将比较结果转化为个体评分。然后,选择得分最高和最低的应答作为“**优选应答**”和“**劣选应答**”,构造出偏好对:
$$
\text{Pair} = \{p + x_i \rightarrow z_i^c + y_i^c; p + x_i \rightarrow z_i^r + y_i^r\}
$$
其中,$ c = \arg \max s_i^k $,$ r = \arg \min s_i^k $。
- **迭代训练**:有了偏好对之后,利用 DPO 损失函数对当前模型 $ M_t $ 进行训练,使其更新为 $ M_{t+1} $。每次迭代仅使用当前轮次生成的偏好对进行训练,避免了低质量的历史数据干扰模型的更新。这样,模型可以学习哪些思维过程有助于生成更好的应答。
- **长度控制**:为了防止应答在训练过程中变得过于冗长,TPO 还引入了**长度控制(Length-Control)**机制。具体做法是对应答长度进行**标准化**,并在评分中对较长的应答进行惩罚,避免模型过度生成冗长的应答。
在实验部分,作者使用了AlpacaEval和Arena-Hard基准测试来验证 TPO 方法的有效性。实验主要集中在**通用任务的指令跟随能力**,以展示 TPO 在广泛任务中的适应性。
该工作采用 **Llama-3-8B-Instruct** 模型作为种子模型开始。该模型经过初步的指令调优,但不具备思维生成的能力。实验中使用了两个评分模型:Self-Taught Evaluator (STE) 和 ArmoRM。STE 模型基于 Llama-3-70B-Instruct,并通过链式思维(CoT)生成自然语言的偏好评价。ArmoRM 则直接为每个应答输出一个分数。

在两个基准数据集上分别取得了52.5%和37.3%性能,表现优于所有基准方法以及更大的模型。
综上,TPO 方法通过无监督的思维生成与偏好优化,不仅克服了链式思维(CoT)在通用任务上的局限,使模型适应更广泛的任务类型,如通识、市场营销等,还有效解决了思维过程监督数据不足的问题。
---
- 原文链接:https://arxiv.org/abs/2410.10630v1
- 更多文章请详见以下 Github 仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 撰稿:葛宇航
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/Talker-Reasoner:继物理和化学后,诺贝尔经济学奖成为新目标?.md
================================================
# Agents Thinking Fast and Slow: A Talker-Reasoner Architecture
**作者**:*Konstantina Christakopoulou, Shibl Mourad* 等
**单位**:*Google DeepMind*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何通过双系统架构优化Agent在快速对话和复杂推理/规划中的性能**。Agent在与用户进行自然对话时,需要同时处理快速对话响应和复杂的多步推理/规划任务。然而,这两个任务在认知要求上存在差异,难以由单一的大型语言模型(LLM)同时高效完成。为了解决这一问题,本文提出了一种新的双系统架构——**Talker-Reasoner架构**。
#### Talker-Reasoner架构
Talker-Reasoner架构通过模仿人类的“快速思考”(System 1)和“慢速思考”(System 2)系统,将Agent分为两个部分:(1)**Talker**:负责与用户进行快速、直观的交流,生成对话响应。(2)**Reasoner**:负责进行复杂的多步推理和规划,调用工具,执行动作,并更新Agent状态。
下图为 Talker-Reasoner 架构图。" **Belief (信念)**" 是该架构的一个关键概念。这里的 belief 指的是一个关于世界状态或用户状态的记忆,被表示为 XML 或 JSON 中的结构化语言对象。(1)世界状态:Reasoner 在进行多步骤推理时,会生成多个中间结果,belief 可以从这些中间结果中提取生成有关世界的信息;(2)用户状态: Shared Memory 中保存着过去交互历史,可以从中提取关于的用户模型的信息,并存储在 Memory 中。belief 的形成是架构中的 Reasoner 与经典推理Agent的区别,这是因为,**提取 belief 的过程是该架构有意尝试建模世界/人类的过程**。

在 Talker-Reasoner 架构中,Talker 和Reasoner之间的主要交互方式通过 Shared Memory 来实现。
1. **Reasoner**
Reasoner 的职责包括:(1)产生新的 belief 状态;(2)推导复杂的多步推理和规划;(3)将生成的belief 状态和推理结果存储在记忆中。公式表示如下:
$$
\hat{a}\sim\text{Reasoner}(b,\hat{a}|c_{\text{Reasoner}};Z)
$$
$\hat{a}$ 为预测的action,$b$ 为belief,$Z$ 为一个参数化的上下文学习型语言模型(为了更好地学习策略),$c_{\text{Reasoner}}$为 Reasoner 的上下文,由过去的推理轨迹 $\tau$ 、动作$a$、世界观察/用户话语 $o$ 以及belief 状态 $b$ 组成:
$$
c_{\mathrm{Reasoner}}=\mathrm{Concat}(\tau_1,a_1,o_1,b_1,\ldots,\tau_n,a_n,o_n,b_n;\hat{o}_t)
$$
2. **Talker**
Talker 可以选择等待或不等待 Reasoner 的推理。Talker 需要理解语言和对话历史,并且能够生成自然的对话回应 utterance,公式表示如下:
$$
u_{(t+1)}\sim\mathrm{Talker}(u|c_{t+1},\mathcal{I}(\cdot|b_{\mathrm{mem}});\Phi)
$$
$u$ 是对话 utterance,$\mathcal{I}$ 为指令,指令可以根据记忆中的belief $b_{mem}$ 而变化,$\Phi$ 为模型参数, $c_{t+1}$ 为上下文,由最新用户话语 $\hat{o}_{t+1}$ 、记忆中的belief $b_{mem}$ 以及交互历史 $\mathcal{H}_{\mathrm{mem}}$ 组成:
$$
c_{t+1}=\mathrm{Concat}(\hat{o}_{t+1},b_{\mathrm{mem}},\mathcal{H}_{\mathrm{mem}})
$$
这样,Talker 就可以通过 Shared Memory 与 Reasoner **交互**。每当 Talker 需要belief信息时,它会从记忆中检索最新的状态。这种分工和协作机制使得Talker能够维持流畅的对话,而Reasoner则可以在后台进行深入的思考和规划,确保代理在需要时能够提供深思熟虑的响应。
#### 实例验证
本文通过在**睡眠辅导Agent**的实例中验证了Talker-Reasoner架构的有效性。实例使用Gemini 1.5 Flash模型实现Talker,并通过临床专家提供的输入实现Reasoner。


综上所述,Talker-Reasoner架构通过**分离对话响应和复杂推理,减少了系统延迟,实现了Agent的任务解耦**,展示了在现实世界应用中的高效性和实用性。
---
- 原文链接: https://arxiv.org/abs/2410.08328
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!.md
================================================
# Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning
**作者**:*Yongxin Xu, Ruizhe Zhang, Xinke Jiang, Yujie Feng, Yuzhen Xiao, Xinyu Ma, Runchuan Zhu, Xu Chu, Junfeng Zhao, Yasha Wang* 等
**单位**: *Peking University, The Hong Kong Polytechnic University* 等
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何优化检索增强语言模型(RALMs)的知识选择,平衡模型的遵从性和鲁棒性**。现有方法在平衡RALMs的遵从性和鲁棒性方面存在困难,难以有效整合外部知识与内部记忆,且容易受到检索噪声影响。受人类认知过程启发,本文提出了**Parenting**方法,通过参数解耦和定制调优策略,提升RALMs在不同检索上下文中的性能。
具体地,Parenting方法分为两个主要部分,参数解耦和定制调优,以下是详细介绍。
### 参数解耦
如下图所示,参数单元可分为两大类:
1. 相交参数单元主要提升模型**感知和分析上下文**的能力,可同时增强模型的遵从性和鲁棒性。
2. 独占参数单元:
- 遵从性独占参数单元主要提升模型通过**复制和总结上下文信息**来解决问题的能力,对遵从性更重要;
- 鲁棒性独占参数单元主要提升模型通过**检索内部记忆**解决问题的能力,对鲁棒性更重要。

具体参数解耦方法如下:
1. 数据集构建
- **遵从性数据集**:包含与模型内部知识相冲突但与正确答案吻合的知识文档以及对应的问题,用于增强模型对外部知识的遵从性。
- **鲁棒性数据集**:包含与问题无关的噪声文档以及对应的问题,用于提升模型在面对无关信息时的鲁棒性。
2. 关键参数挖掘
- **正向激活概率计算**:对于来自特定数据集的输入,计算不同输入下FFN层神经元的激活概率。
- **基于梯度的敏感性和不确定性计算**:计算参数的梯度和权重的乘积来量化对训练损失的敏感性,但由于训练过程的复杂动态,该指标方差较高,因此进行平滑处理和不确定性量化得到敏感性分数和不确定性分数。
- **重要性分数计算和聚合**:以前向传播得到的激活概率作为层特定线索,结合平滑后的敏感性和不确定性,计算每个参数在遵从性或鲁棒性方面的最终重要性分数。
3. 参数单元识别
对遵从性和鲁棒性的重要性分数进行标准化,根据分数识别相交和独占参数单元:
- **相交参数单元**:对于遵从性和鲁棒性标准化分数均大于0的参数单元。
- **遵从性特定单元**:遵从性标准化分数大于0且鲁棒性标准化分数小于0的参数单元。
- **鲁棒性特定单元**:鲁棒性标准化分数大于0且遵从性标准化分数小于0的参数单元。

### 定制调优
根据参数单元的类型,设计特定的微调策略:
1. **交叉参数单元**:通过设计**文档提取任务**,同时优化**交叉参数单元**的遵从性和鲁棒性。
基于 SQuAD 2.0 数据集,对于每个问题,收集三种类型的文档:包含问题答案的相关文档、同一主题的噪声文档以及来自不同主题的噪声文档,以此模拟各种检索上下文场景。
训练时,冻结其余参数单元,结合遵从性数据集和鲁棒性数据集的损失,计算总损失如下:
$$
\mathcal{L}_{c x}=\delta_{1}\left(\gamma_{a} × \mathcal{L}_{a}+\gamma_{r} × \mathcal{L}_{r}\right)+\left(1-\delta_{1}\right) \mathcal{L}_{c}
$$
,其中$$\mathcal{L}_{a}$$是与遵从性数据集的交叉熵损失,$$\mathcal{L}_{r}$$是与鲁棒性数据集的交叉熵损失,$$\mathcal{L}_{c}$$是文档提取数据集上的 交叉熵损失,$$0 < \delta_{1} < 1$$是原始任务和新增任务之间的重新加权因子,$$\gamma_{a}$$和$$\gamma_{r}$$ 这两个参数分别用于衡量遵 从性和鲁棒性相关的权重。
2. **独占参数单元**:为了避免独占参数单元受到冲突监督信号的污染,采用**边界控制策略**,在训练过程中隔离遵从性特定和鲁棒性特定的单元。
- 对于**遵从性特定单元**,冻结其余参数单元,为了确保它们不受与鲁棒性相关的梯度影响,不进行鲁棒性数据集的训练,损失函数为: $$\mathcal{L}_{a x}=\delta_{1} \mathcal{L}_{a}+\left(1-\delta_{1}\right) \mathcal{L}_{c}$$
- 对于**鲁棒性特定单元**,冻结其余参数单元,为了确保它们不受与遵从性相关的梯度影响,不进行遵从性数据集的训练,其损失函数为 $$\mathcal{L}_{r x}=\delta_{1} \mathcal{L}_{r}+\left(1-\delta_{1}\right) \mathcal{L}_{c}$$。
此外,保持其余参数单元的初始权重,以防止与预训练权重产生偏差,保留LLMs的其他能力。
### 实验结果
在不同RAG任务上的表现如表1所示,表明本方法在遵从性和鲁棒性方面均优于先前方法,实现了更平衡的改进。

可视化 LLaMA2 - 7B - Chat 中遵从性和鲁棒性的参数单元重要性分布如下图所示。

可以观察到对遵从性和鲁棒性都至关重要的相交参数单元(紫色框),以及遵从性特定单元(红色框)和鲁棒性特定单元(蓝色框)。遵从性特定单元主要位于中间和中上层,与先前的重要作用相关研究结果一致;鲁棒性特定单元主要位于上层,少数在中间层,这与内部事实知识通常在 LLMs 较高层编码的研究结果相符;相交参数单元主要位于中间到中下层。
---
- 原文链接:https://arxiv.org/pdf/2410.10360
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
- 撰稿:董雪梅
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/打破选择困局:多智能体带你高效选择预训练数据.md
================================================
# Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
**作者**:*Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Jiantao Qiu, Wentao Zhang, Binhang Yuan, Conghui He*
**单位**: *Hong Kong University of Science and Technology, Shanghai AI Laboratory, Peking University*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

### 方案详解
本文提出了一种多智能体协同数据选择框架,旨在通过动态结合多种数据选择方法,提升大规模语言模型预训练中的数据选择效率。该框架通过将每种数据选择方法作为一个独立的智能体,并由一个名为“智能体控制台”的模块来整合各个智能体,从而得出最优的数据选择策略。
当前各种预训练数据选择方案往往各自独立,并且相互之间存在着个有冲突,例如**高质量数据不一定对模型有显著影响**、**高质量数据往往缺乏话题多样性**等等。但是在优化数据选择时,单纯追求某一特性(如高质量或高话题多样性)可能无法达到最优效果。因此,如何整合不同的数据选择方法,在动态预训练过程中平衡各个维度的需求非常重要。

该方法为了整合这些冲突的数据选择方案,将每种方法作为一个独立的智能体,每个智能体基于其特定的数据属性(如数据质量、话题多样性和领域)对预训练数据进行评分。在训练过程中,这些智能体通过不断对数据进行分析并生成评分,最后由一个名为“智能体控制台”的模块来整合各个智能体的评分结果,最终得出最优的数据选择策略。
该方法的核心机制分为两个阶段:离线标注阶段和在线更新阶段。
- 在**离线标注**阶段,整个训练数据集被预先标注,智能体根据预训练数据集的质量、领域、话题等特征进行分类,并将这些标注存储在各自的记忆中。
- 在**在线更新**阶段,随着模型的训练进展,每个智能体会根据模型的反馈动态调整其内部权重,以提升数据选择效果。每个智能体对数据点进行独立的分析和评分,然后这些评分会经过智能体控制台的整合,产生最终的数据选择结果。
与此同时,框架中的“智能体控制台”模块会利用反馈机制来对各个智能体本身的权重进行调整,增加那些在提升模型表现上贡献较大的智能体的权重,减少贡献较小的智能体的影响。这样能够确保在训练的不同阶段,数据选择始终能最大化地促进模型的性能提升。此外,通过离线标注的数据特征记忆和在线调整的结合,框架能够实现更加灵活和高效的选择过程。

该多智能体框架的创新之处在于它解决了不同数据选择策略之间的固有冲突问题。不同的数据选择方法(如质量优先、话题多样性优先或领域特定的数据选择方法)往往在如何评估和优先排序数据方面存在冲突,而通过该框架的协作机制,可以有效结合这些冲突的策略,达到更优的选择结果。通过智能体之间的协作,框架能够有效平衡数据的质量、话题多样性和领域覆盖等因素,最终显著提升了数据选择的效率和模型训练的收敛速度。
### 实验结果
实验结果表明,与其他最先进的方法相比,多智能体协同框架在多个基准测试中显著提高了数据选择效率,并在提升预训练模型性能方面表现出色,平均性能提升达10.5%。这种框架在保持高效数据选择的同时,降低了计算开销,展现了其在大规模模型预训练中的巨大潜力。

---
- 原文链接: https://arxiv.org/pdf/2410.08102
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/
- 撰稿:李佳晖
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/自回归奖励模型让 LLM 对齐不再困难!.md
================================================
# GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-Time Alignment
**作者**:*Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh*
**单位**:*1 University of Maryland, College Park, 2 JPMorgan AI Research*
## 研究框图
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是如何在测试阶段高效地对齐 LLM 以符合人类偏好。现有的 Training-Time 对齐方法(如 RLHF 和 DPO),通过人类偏好数据集微调 LLM,但这些方法成本高昂,而且在面对多目标偏好时训练过程复杂。此外,现有的 Test-Time 对齐方法(如控制解码),虽然训练成本低,但通常依赖于轨迹级的奖励模型来估计 Token 级的奖励,这导致推理成本高且奖励值不够准确。为了克服这些限制,本文提出了一种新的 Test-Time 对齐方法—— GenARM。
GenARM 的核心思想是训练自回归奖励模型来预测 Next Token 的奖励,从而准确且高效地指导 LLM 的文本生成。GenARM 首先使用偏好数据集训练自回归奖励模型,用于预测 Next Token 的奖励;然后使用类似控制解码的方式,利用 Token Level 的奖励指导模型采样 Next Token。
#### 1. 自回归奖励模型
本文的奖励模型采用自回归 Transformer 架构,在给定前文 $(x,y_{<t})$ 的条件下,预测 Next Token $y_t$ 的奖励值 $\pi_r(y_t|x,y_{<t})$,并将句子中所有 Token 的 log 奖励值之和作为完整输出的奖励,即
$$
r(x,y)=\sum_t\log\pi_r(y_t|x,y_{<t}),
$$
文中证明了这种参数化方法尽管将奖励函数限制为自回归,但其表达能力足够强,能够在KL正则化的强化学习框架内,引导 Base LLM 达到传统 RM 所能实现的任何分布。
然后,在传统的偏好数据集上,使用 Trajectory-Level 奖励模型的训练损失进行训练:
$$
\min_{\pi_r}-\mathbb{E}_{x,y_w,y_l\sim\mathcal{D}}\Big[\log\sigma\Big(\beta_r\sum_t\log\pi_r(y_{w,t}|x,y_{w,<t})-\beta_r\sum_t\log\pi_r(y_{l,t}|x,y_{l,<t})\Big)\Big],
$$
实验表明,这种方式训练的自回归奖励模型在 Token-Level 上具有区分无害和有害内容的能力。

#### 2. 引导自回归生成

**控制解码**是一种 Test-Time 的偏好对齐方法,它冻结 Base LLM,使用奖励模型指导 LLM 的生成过程,其闭式解如下
$$
\log\pi_{\mathrm{decode}}(y|x)=-\log Z(x)+\log\pi_{\mathrm{base}}(y|x)+\frac{1}{\beta}r(x,y),
$$
其中,$y$ 是任意完整回答,$Z(x)$是一个配分函数。
当使用自回归的奖励模型时,该式变为
$$
\log\pi_\text{decode}(y|x)=-\log Z(x)+\sum_t\log\pi_\text{base}(y_t|x,y_{<t})+\frac1\beta\sum_t\log\pi_r(y_t|x,y_{<t}).
$$
上式类似于来自两个语言模型的解码,参考从多个语言模型解码的方法,GenARM 最终的采样公式为:
$$
\tilde{\pi}_{\text{decode}}(y_t|x,y_{<t})\propto\pi_{\text{base}}(y_t|x,y_{<t})\Big(\pi_r(y_t|x,y_{<t})\Big)^{\frac{1}{\beta}}.
$$
#### 3. 实验
- **对齐效果**:GenARM 的**对齐效果与 Training-Time 对齐方法 DPO 相当**,显著优于现有的 Test-Time 对齐方法,而且其推理过程最高效。

- **从弱到强的指导**: GenARM 可以使一个更小的自回归奖励模型(例如,7B参数)来指导一个更大的 LLM (例如,70B参数)。

**多目标对齐**:通过调整多个自回归奖励模型的权重,GenARM 可以实现多目标对齐。

综上所述,GenARM通过训练**自回归奖励模型**在**测试阶段**实现了有效的偏好对齐,其**性能与DPO相当,显著降低了成本**。此外,该方法支持**多目标对齐**,允许调整不同偏好的奖励权重,为未来对齐算法的研究提供了新思路。
------
- 原文链接: https://arxiv.org/abs/2410.08193
- 更多文章请详见以下 Github 仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 撰稿:樊怡江
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241011-20241017/谷歌联合CMU提出超强奖励模型,大模型推理能力的新曙光!.md
================================================
# Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
**作者**:*Amrith Setlur, Chirag Nagpal1, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant and Aviral Kumar*
**单位**:Google Research, Google DeepMind, Carnegie Mellon University
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

### **ORMs(结果奖励模型)**
1. 训练过程
为了训练ORM,首先从数据集中选取问题,然后收集形如
$$
(x,y\sim\pi(\cdot|x),Rex(y,y_{x}^{*}))
$$
的训练数据。其中$x$是问题,$y$是基础策略$\pi$对问题$x$生成的响应,$Rex(y,y_{x}^{*})$是评估$y$与真实答案$y_{x}^{*}$是否匹配的函数(匹配为1,不匹配为0)。然后训练ORM,使其输入问题 - 响应对$(x,y)$并预测$Rex(y,y_{x}^{*})$。
2. 特点:
- 只在推理轨迹的最后一步提供反馈,正确则给予高奖励,错误则给予低奖励或零奖励。
- 这种奖励方式提供的正确信号非常稀疏,使得学习困难且搜索效率低。
3. 局限性:
- 由于只关注最终结果,对于中间步骤的探索和改进缺乏指导,难以有效地引导大语言模型在推理过程中逐步优化。
### **PRMs(过程奖励模型)**
1. 训练过程
对于一个多步响应$y\sim\pi$中的每一步$a_{h}$,定义
$$
Q^{\pi}(s_{h},a_{h})=\mathbb{E}_{a_{h + 1},...,a_{H}\sim\pi(\cdot|s_{h},a_{h})}[Rex((a_{1},...,a_{H}),y_{x}^{*})]
$$
作为状态$s_{h}$下动作$a_{h}$的得分,其中$s_{h}=(x,a_{1},...,a_{h - 1})$。
2. 特点:
- 理论上可以提供更细粒度的监督,对推理过程中的每一个步骤给予奖励。
- 旨在通过奖励中间步骤来促进更有效的推理过程,提高模型的性能。
3. 局限性:
- 人工标注每一步骤的方式难以扩展,成本高昂且不切实际。
- 自动标注训练的 PRM 目前收益有限,难以达到理想的效果。
### **PRMs存在的问题**
仅依赖$Q^{\pi}(s_h,a_h)$来设计奖励存在以下问题: 当从波束中的不同状态采样动作时,如果纯粹基于$Q^{\pi}$的最高值选择下一个状态,就会将来自不同状态的步骤相互比较。
例如,一个动作的预期最终结果的减少,即下面式子的值变小:
$$
Q^{\pi}(s_{1},a_{1,1}) - V^{\pi}(s_{1})
$$
意味着$a_{1,1}$自身对从状态$s_{1}$成功的概率有负面影响,而$a_{2,1}$从状态$s_{2}$有正面影响,但基于$Q^{\pi}$的绝对值扩展波束会**保留产生负面进展的动作**,并从波束中**移除可能有积极影响的状态**(如移除状态$s_{2}$,因为波束大小为 2)。换句话说,$Q^{\pi}$未能将对一个动作(步骤)的“评估”与前一个状态所显示的“前景”分离开来。在有限的计算和采样约束下,使用$Q^{\pi}$可能会保留具有潜在不利步骤的状态,从而损害整体成功的可能性。
<p align="center">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img10@main/2024/10/20/1729426008969-326566c5-dea0-4d2a-9355-77940eb11be2.png" style="zoom:40%;" />
</p>
### 优势函数引入与PAV构造
为了解决上述问题,论文采用强化学习中的优势函数,衡量单个步骤的进展:
$$
A^{\pi}\left(s_{h}, a_{h}\right):=Q^{\pi}\left(s_{h}, a_{h}\right)-V^{\pi}\left(s_{h}\right)=Q^{\pi}\left(s_{h}, a_{h}\right)-Q^{\pi}\left(s_{h - 1}, a_{h - 1}\right)
$$
并在ORMs损失函数的基础上:
$$
\ell_{ORM-RL}(\pi):=\mathbb{E}_{x \sim \mathcal{D},\left(a_{1},..., a_{H}\right) \sim \pi(\cdot | x)}\left[Rex\left(\left(x, a_{1},..., a_{H}\right), y_{x}^{*}\right)\right]
$$
结合过程奖励来构建标准的强化学习目标:
$$
\ell_{PAV-RL}^{\pi'}(\pi):=\ell_{ORM-RL}(\pi)+\alpha \cdot \sum_{h=1}^{H} \mathbb{E}_{s_{h} \sim d_{h}^{\pi'}} \mathbb{E}_{a_{h} \sim \pi\left(\cdot | s_{h}\right)}\left[A^{\mu}\left(s_{h}, a_{h}\right)\right]
$$
其中$\ell_{ORM - RL}(\pi)$是标准的RL目标,它表示在数据集$\mathcal{D}$中,策略$\pi$对问题$x$生成响应$(a_{1},...,a_{H})$与真实答案$y_{x}^{*}$匹配的期望。$\alpha$是一个系数,用于平衡两部分的权重。这里策略$\mu$被论文称为证明策略(prover policy)。
$\sum_{h = 1}^{H}\mathbb{E}_{s_{h}\sim d_{h}^{\pi'}}\mathbb{E}_{a_{h}\sim\pi(\cdot|s_{h})}[A^{\mu}(s_{h},a_{h})]$这部分表示对过程奖励$A^{\mu}$的求和。这里的$d_{h}^{\pi'}$表示在步骤$h$时由旧策略$\pi'$(上一次迭代的策略)访问的状态分布,$\mathbb{E}_{s_{h}\sim d_{h}^{\pi'}}\mathbb{E}_{a_{h}\sim\pi(\cdot|s_{h})}[A^{\mu}(s_{h},a_{h})]$表示在该状态分布下,根据策略$\pi$采取动作$a_{h}$时的过程奖励$A^{\mu}$的期望,对所有步骤$h$从$1$到$H$进行求和。 这种结合方式旨在综合考虑**结果奖励**和**过程奖励**,以更好地优化策略$\pi$。
PAV的策略梯度为:
$$
\left.\nabla_{\pi} \ell_{PAV-RL}^{\pi'}(\pi)\right|_{\pi'=\pi}=\sum_{h=1}^{H} \nabla_{\pi} \log \pi\left(a_{h} | s_{h}\right) \cdot \underbrace{\left(Q^{\pi}\left(s_{h}, a_{h}\right)+\alpha \cdot A^{\mu}\left(s_{h}, a_{h}\right)\right)}_{\text{effective reward }}
$$
这里$\nabla_{\pi} log \pi\left(a_{h}|s_{h}\right)$是策略$\pi$关于动作$a_{h}$在状态$s_{h}$下的对数概率的梯度。 - $Q^{\pi}\left(s_{h},a_{h}\right)+\alpha\cdot A^{\mu}\left(s_{h},a_{h}\right)$被称为有效奖励。$Q^{\pi}\left(s_{h},a_{h}\right)$是基础策略$\pi$下状态 - 动作对$(s_{h},a_{h})$的价值,$A^{\mu}\left(s_{h},a_{h}\right)$是证明策略$\mu$下的优势,$\alpha$是一个系数,用于平衡两者在有效奖励中的贡献。这个公式展示了如何通过策略梯度来更新策略$\pi$,以优化目标函数$\ell_{PAV - RL}^{\pi'}(\pi)$。
### 实验结果
一、测试时计算的扩展
(一)PAVs的计算效率和准确性优势

- 在不同规模的Gemma模型(2B、9B、27B)上进行测试时搜索实验。使用PAVs进行波束搜索,并与使用ORMs进行最佳-of-N搜索进行比较。
- 结果表明,对于不同的波束大小N,PAVs在准确性上比ORMs提高了8 - 10%,在计算效率上比ORMs提高了1.5 - 5倍。例如在Gemma - 2B和9B模型上计算效率提升可达10×,在Gemma - 27B模型上为5×。
(二)证明策略$\mu$的选择影响

1. 弱/强证明策略的非最优性
- 当以不同强度的Best - of - K策略作为证明策略$\mu$时,太弱(如Bo2)或太强(如Bo32)的证明策略都不是最优的。例如在以Gemma - 2B SFT模型为基础策略时,随着K增加,BoK(π)变强,但在所有N值下,Bo4表现最佳。
2. 不同基础策略$\pi$对应不同最佳证明策略$\mu$
- 在使用三个基础策略(Gemma 2B/9B/27B)作为证明策略训练PAVs的实验中,对于2B和9B基础模型,分别是9B和27B证明策略$\mu$最有效;对于27B模型,较弱的9B策略反而比27B本身更有效,这与理论上证明策略应与基础策略互补的观点相符。
(三)证明策略促进探索
<p align="center">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img7@main/2024/10/20/1729426543946-576488f3-5c6a-4371-a370-3b40c377f567.png" style="zoom:33%;" />
</p>
- $A_{\mu}$衡量行动的进步,与$Q_{\pi}$衡量特定状态的价值不同。有效奖励$Q_{\pi}+\alpha A_{\mu}$能在**探索新前缀**和利用现有高Q值前缀之间取得更好的平衡。
- 实验表明,与仅使用$Q_{\pi}$的波束搜索和独立同分布采样相比,使用PAVs的波束搜索能提高Pass@N性能,说明证明策略的优势有助于探索。
二、密集奖励RL的扩展
(一)PAV - RL的准确性和样本效率提升

- 在Gemma 2B和9B SFT模型上进行在线RL实验,比较PAV - RL和标准的ORM - RL。
- 结果表明,PAV - RL在测试准确性上比ORM - RL提高了>7%,且采样效率是ORM - RL的6倍。例如对于2B模型,PAV - RL将RFT策略提高了11%,对于9B模型提高了15%。
(二)PAV - RL在重排上的优势
<p align="center">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img13@main/2024/10/20/1729426629037-7ce5ba2c-5fb6-4d9f-89fb-b9f299bb3f4d.png" style="zoom:33%;" />
</p>
- 在Gemma 2B上,PAV - RL的Pass@N性能比ORM - RL更高(对于任何N≤128,提高>7%),且Pass@N提升的速率也更高。这表明PAV - RL能产生更多样化的候选解,避免了ORM - RL中由于下一步分布熵较低导致的非多样化候选问题。
(三)PAVs促进探索和解决新问题
<p align="center">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img11@main/2024/10/20/1729426653644-077a96be-8c36-498c-9e0f-723b9ea64bbf.png" style="zoom:33%;" />
</p>
- 在RL过程中,ORM对不正确展开中的所有步骤同等降权,而PAVs中的有效奖励会对证明策略下有进步的步骤加权,增加了对单个步骤的覆盖,提高了基础策略成功的可能性。
- 实验表明,将PAV - RL策略与测试时波束搜索相结合,能在较小的计算预算(N = 16,32)内解决大量新问题,而SFT策略在大得多的预算(N = 256)下都无法解决这些问题。
---
- 原文链接: https://arxiv.org/abs/2410.08146
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
- 撰稿:张超
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/DeepSeek最新多模态大模型,理解与生成同时遥遥领先!.md
================================================
- ## Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
作者:Chengyue Wu Xiaokang 等
单位:DeepSeek-AI The University of Hong Kong等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究内容是如何将多模态理解和生成统一到一个模型中,此前的研究使用单一的视觉编码器来同时处理两项任务的输入,然而,多模态理解和生成任务所需的表征存在显著差异。在多模态理解任务中,视觉编码器的目的是提取高层语义信息(例如图像中的对象类别或视觉属性)。理解任务的输出不仅涉及从图像中提取信息,还包括复杂的语义推理。相比之下,在视觉生成任务中,主要关注的是生成图像的局部细节和保持全局一致性。在这种情况下,所需的表征必须是能够表达细粒度空间结构和纹理细节的低维编码。为了解决这一问题,本文提出了Janus,一个解耦视觉编码的统一多模态框架,专用于多模态理解和生成。
其框架图如下图所示:

##### 具体而言:
**在文本理解方面**,使用LLM的tokenizer将文本转换为离散ID,并获得与每个ID对应的特征表示。
**在多模态理解中**,采用SigLIP 编码器从图像中提取高维语义特征。这些特征从二维网格展平为一维序列,并通过一个adaptor将这些图像特征映射到LLM的输入空间。
**在视觉生成任务中**,使用 VQ tokenizer将图像转换为离散ID。将ID序列展平为一维后,使用adaptor将与每个ID对应的代码簿嵌入映射到LLM的输入空间。然后,我们将这些特征序列连接起来,形成一个多模态特征序列,并将其输入LLM进行处理。
在纯文本理解和多模态理解任务中,LLM的内置预测头用于文本预测,而在视觉生成任务中,使用一个随机初始化的预测头进行图像预测。
##### 模型训练上,分为三个阶段,如下图所示:

**第一阶段:训练adaptor和Image Head**
此阶段的主要目标是在嵌入空间中建立**视觉和语言元素之间的概念联系**,使LLM能够理解图像中的实体,并具备初步的视觉生成能力。在此阶段,**冻结视觉编码器和LLM**,仅更新两个adaptor和Image Head中的可训练参数。
**第二阶段:统一预训练**
在该阶段,使用**多模态语料**进行统一预训练,使模型Janus学习多模态理解和生成能力。在这一过程中们解冻LLM并使用所有类型的训练数据:纯文本数据、多模态理解数据和视觉生成数据。
**第三阶段:监督微调**
在此阶段,通过指令微调数据对预训练模型进行**监督微调**,以提升其**指令跟随能力和对话能力**。在微调过程中,微调除Gen. Encoder 外的所有参数,并侧重于监督答案的生成,同时屏蔽系统和用户的提示信息。
##### 实验方面,如下表所示:
在**多模态理解性能**上,Janus 在相同规模的模型中取得了整体最佳结果,相较于之前最佳的统一模型Show-o ,Janus 在MME和GQA数据集上分别提升了41%(949 → 1338)和30%(48.7 → 59.1),同时,Janus 在多个数据集(如POPE、MMBench、SEED Bench 和 MM-Vet)上超越了LLaVA-v1.5 (7B)。
在**视觉生成性能**上,Janus 在GenEval上取得了61%的总体准确率,超过了之前最佳的统一模型Show-o (53%) 和一些流行的仅生成方法,如SDXL (55%) 和 DALL-E 2 (52%)。


综上所述,本文介绍了Janus,这是一种简单、统一且可扩展的多模态理解与生成模型。Janus的核心理念是将多模态理解和生成的视觉编码解耦,以缓解理解和生成对视觉编码器提出的不同需求所引发的冲突。大量实验验证了Janus的有效性及其领先的性能。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/pdf/2410.13848]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/XXX**
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/LongRAG:长文本问答的 “超级导航仪”,精准定位答案.md
================================================
# LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigmfor Long-Context Question Answering
**作者**:*Qingfei Zhao, Ruobing Wang , Yukuo Cen* 等
**单位**: *Institute of Information Engineering, Chinese Academy of Sciences等*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究的问题是**提升大型语言模型在处理长文本问答任务时的表现**。之前的方法包含self-RAG以及cRAG等,其中前者依赖自我反思标记来探索全局信息,但这种依赖可能误删含有重要细节的有效检索块;后者逐个评估块以识别事实细节,却忽略了块之间的关联,当关键细节分散在多个块中时,可能造成重要信息的遗漏。
本文的**LongRAG**的核心思想是**通过增强LLM对长文本中全局信息的理解来增强其识别关键信息的能力**
**LongRAG**框架具体流程如下:<br>
**实验方案**<br>
1. **混合检索器(Hybrid Retriever):** 采用双向编码器进行快速检索,并通过交叉编码器深入理解语义关系,确保检索效率。
2. **LLM增强信息提取器(LLM-augmented Information Extractor):** 上述检索到的块被固定的窗口截断,难以携带额外的全局信息。此外,当检索到的数据块来自同一段落p时,它们的顺序可能与p中的原始语义顺序不一致,导致向下游llm提供无序的语义信息。将检索到的短文本片段映射回原始长文本段落,提取包含广泛背景和结构知识的全局信息。
$f_m(p_{c_1}, p_{c_2}, \cdots, p_{c_k}) \rightarrow p_1, p_2, \cdots, p_{k'}$ <br>
其中$p_{c_1}$表示检索到的块,之后将映射后的段落连接,并输入给大语言模型总结得到全局信息$I_g$。
$I_g = \text{LLM}\left(\text{prompt}_e\left(q, p_1\left|p_2\right|\cdots\mid p_{k'}\right)\right)$
3. **CoT引导过滤器(CoT-guided Filter):** 检索到的块通常包含大量的冗余;有些块甚至可以是完全冗余的。这种复杂性使得很难确定一个块是否包含解决多跳问题的关键信息,为了解决上述问题,作者采用两阶段策略,第一阶段基于检索语义空间生成一个具有全局视角的CoT:
$CoT = \text{LLM}\left(\text{prompt}_c\left(q, p_{c_1}\left|p_{c_2}\right|\cdots\mid p_{c_k}\right)\right)$
第二阶段利用全局线索(CoT)指导模型精确筛选出包含关键事实细节的文本块$I_d$。
$$
V(q, p_c, \text{CoT}) =
\begin{cases}
\text{True,} & \text{if <support} \\
\text{False,} & \text{otherwise}
\end{cases}
$$
$$
I_d = \{p_c \mid V(q, p_c, \text{CoT}) = \text{True}\}
$$
4. **LLM增强生成器(LLM-augmented Generator):** 结合全局信息和事实细节生成最终答案,提升回答的准确性。

**实验结果**<br>
作者选取了三个多跳数据集*HotpotQA*, *2Wiki-MultiHopQA*,*MusiQue*,并与三类方法进行了比较,*Long-Context LLM Methods*,*Advanced RAG Methods*,*RAG-Base (Vanilla RAG)*,分别提升了**6.94%,6.16%,17.25%** 的准确率

---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2406.15319]
- **更多**文章请详见 Github 仓库: **https://github.com/ZJU-LLMs/Foundations-of-LLMS**
- 本文编辑:刘亚川,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/NetSafe:探秘多智能体网络安全拓扑“攻守道”(1).md
================================================
# NetSafe: Exploring the Topological Safety of Multi-agent Network
**作者**:*Miao Yu, Shilong Wang, Guibin Zhang, Junyuan Mao, Chenlong Yin, Qijiong Liu, Qingsong Wen, Kun Wang, Yang Wang* 等
**单位**: *University of Science and Technology of China, Squirrel AI, Hong Kong Polytechnic University* 等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何确保基于大型语言模型的多智能体网络的拓扑安全**。现有方法在保障多智能体网络拓扑安全方面存在不足,缺乏统一的安全研究标准,难以准确评估不同拓扑结构的安全性。受图论和拓扑学理论启发,本文提出了**NetSafe**框架,通过**定义多智能体网络拓扑结构**、**设计特定通信机制**和**攻击策略**以及**采用静态和动态评估方法**,探究多智能体网络在面对各种攻击时的网络安全特性。
具体地,**NetSafe**方法分为三个主要部分,多智能体网络、攻击策略和评估方法,主要框架如下图所示,以下是详细介绍。

#### 多智能体网络
1. **网络拓扑结构表示**:
- 将多智能体网络的拓扑结构定义为**有向图**,有向图中的节点代表各个智能体,而有向边则表示信息从一个智能体向另一个智能体的流动方向。
- 同时,使用**邻接矩阵**来具体描述有向图。邻接矩阵中的元素表示两个智能体之间是否存在连接以及连接的强度等信息,为分析网络的结构特性提供了量化的手段。
主要定义了**链型拓扑**、**循环拓扑**、**二叉树拓扑**、**星型拓扑**、**完全图拓扑**几种类型,如下图所示。

2. **RelCom 通信机制**:
- **Genesis(生成初始响应)**:在多智能体网络中,每个智能体首先通过这个步骤独立地对给定的任务或问题生成初始的响应。这一过程基于智能体自身所拥有的知识和能力,不依赖于其他智能体的信息。
- **Renaissance(收集邻居响应并更新)**:智能体在这个阶段不再孤立行动,而是积极收集来自与其有连接关系的邻居智能体的响应。智能体在收集到这些响应后,会对自己的初始响应进行**更新**。
注意:本文提出的 RelCom 是**迭代**的。在实践中,Genesis 步骤仅执行一次,而 Renaissance 步骤在给定的轮数内循环执行。 ***RelCom 既支持基于语言模型的智能体节点之间的全面信息交换,又具有理想的迭代性和标准化的数学特性***,使我们能够在多个交互轮次中动态地检查多智能体网络的拓扑安全性。
#### 攻击策略
**提示级攻击方法**:采用提示级攻击方法,这种方法通过改写输入 Prompt 来注入恶意信息,包括错误信息、偏见和有害信息。与传统的攻击方式相比,提示级攻击能够更好地模拟现实中恶意信息的传播方式。通过精心设计的攻击策略,将恶意信息注入到多智能体网络中,使正常的智能体节点受到攻击,以观察不同拓扑结构下网络对恶意信息的抵抗能力以及智能体之间的相互影响。下图为一个例子:

#### 评估方法
1. **静态评估**:
- **使用指标**:采用**网络效率**、**特征向量中心性**、**攻击路径脆弱性**等指标进行静态评估。网络效率可以衡量网络中信息传递的效率,特征向量中心性可以反映节点在网络中的重要性,攻击路径脆弱性则可以评估网络在遭受攻击时的脆弱程度。
- **局限性**:传统的静态评估指标虽然能够从一定角度反映网络的结构特性,但难以准确反映复杂的多智能体网络在实际运行中的安全性能,与实际性能的相关性较差。
2. **动态评估**:
- **多轮交互计算准确率**:通过多轮交互计算**单智能体准确率**和**多智能体联合准确率**进行动态评估。在多轮交互过程中,智能体不断地进行信息交流和更新,更接近实际的应用场景。单智能体准确率可以衡量单个智能体在面对攻击时的表现,多智能体联合准确率则可以反映整个网络的综合性能。
- **优势**:动态评估方法能够更准确地反映多智能体网络在实际运行中的安全性能,为评估不同拓扑结构的安全性提供了更有效的手段。
### 实验结果
#### 错误信息注入攻击实验

1. **多智能体网络收敛性分析**:
- 经过 RelCom 多轮交互后,多智能体网络趋于收敛。例如在简单逻辑任务中,以循环拓扑网络为例,其准确率呈下降趋势并最终收敛,这表明可以研究网络的稳态安全性能。
2. **网络连接性与安全性关系分析**:
- 连接性高的拓扑(如星型拓扑)在错误信息攻击下更脆弱。这是因为恶意信息可以通过中心节点快速传播到其他节点,导致整个网络的准确率下降。相比之下,链型拓扑在事实和常识问答数据集上安全性较高。其连接性较弱,错误信息传播相对困难,节点之间的影响相对较小。
- 多智能体网络在复杂逻辑任务中对错误信息有更强的鲁棒性,说明不同任务类型下网络的安全性表现不同。另外,某些拓扑结构可能更容易通过邻居节点的反馈来纠正错误信息,而另一些拓扑结构则可能难以纠正错误。
#### 偏见诱导和有害信息诱导攻击实验
1. **偏见诱导攻击分析**:
- 多智能体网络对偏见诱导攻击有很强的抵抗力。在多数情况下,智能体能够准确识别偏见陈述,并在攻击过程中对攻击者有纠正作用。
- 连接性高的拓扑(如完全图拓扑)纠正作用更强,这可能是因为信息在高连接性网络中传播更快,使得更多的智能体能够参与到纠正偏见的过程中。

2. **有害信息诱导攻击分析**:
- 多智能体网络对有害信息也有很强的防御能力。如下图所示,在完全图拓扑中,即使大部分节点变为通过不良特征注入的越狱语言模型(5个攻击节点,1个正常节点),有害信息仍难以在网络中传播,正常节点几乎不受影响,体现了**聚合安全**现象,这表明多智能体网络在一定程度上能够自我保护。

#### 攻击者节点数量影响实验
1. **攻击者节点增加的影响分析**:
- 攻击者节点数量增加会严重损害网络安全。例如,在数学任务中,完全图拓扑随着攻击者数量增加,安全性大幅下降。这是因为更多的攻击者可以注入更多的恶意信息,使正常节点更容易受到影响。
- 不同拓扑结构在攻击者数量增加时的安全性能变化不同。链型拓扑在多数情况下安全性较高,说明其对攻击者数量的增加相对不敏感。

2. **正常节点增加的影响分析**:
- 正常节点数量增加对网络安全的提升有限,且存在边界效应。例如,在事实数据集上,二叉树拓扑在正常节点增加时有一定准确率提升,但过多增加会使准确率下降。这表明单纯增加正常节点数量并不能有效提高网络的安全性,需要综合考虑拓扑结构和其他因素来设计更安全的多智能体网络。

---
- 原文链接: https://arxiv.org/pdf/2410.15686
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/XXX
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/SSO:无需人工标注,自动对齐 LLM!.md
================================================
# Aligning Large Language Models via Self-Steering Optimization
**作者**:*Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin*
**单位**:*1 Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences, 2 Alibaba Group, 3 University of Chinese Academy of Sciences, Beijing, China*

本文研究的是**如何自动化地对齐 LLM 与人类偏好**,而**无需人工标注偏好数据**。自动化对齐的关键在于提供可学习的、准确的偏好信号,以便于在没有人工标注的情况下进行偏好学习。为此,本文提出了**自我引导优化(Self-Steering Optimization, SSO)** 算法。
SSO 的核心思想是在迭代训练期间,基于**预定义的原则**自动生成高质量的偏好数据,从不同角度计算偏好对损失来获取偏好信号。SSO 通过确保正面回答和负面回答之间的偏好差距,同时保持偏好信号接近 On-Policy,即符合当前策略模型的学习状态,从而维持信号的准确性。
#### 1. 构建对比提示并采样回答
给定一个问题 $x$,策略模型首先识别与该问题最相关的特性和原则,包含**正面原则** $p^+$ 和**负面原则** $p^-$。然后,基于这些原则构建对比 Prompt,并抽样相应的回答,分别为**正面回答** $y^+$ 和**负面回答** $y^-$。然后用这些回答组成三个偏好对进行对齐。
给定正面原则 $p^{+}$和负面原则 $p^{-}$ 以及原始问题 $x$,模型生成正面回答 $y^{+}$ 和 负面回答 $y^{-}$,定义损失函数为

其中 $\mathcal{G}$ 是**自我引导损失**,用于控制 $y^{+}$ 和 $y^{-}$ 之间的质量差距,$\theta$ 是一个控制 $\mathcal{G}$ 权重的参数。$L$ 是基础损失函数(本文使用的是IPO损失),用于朝着优势回答优化模型。受 WPO(Zhou等人,2024)的启发,本文通过权重函数 $W$ 来控制符合策略的行为。
#### 2. 自我引导损失

自我引导损失 $\mathcal{G}$ 用来 $y^{+}$ 和 $y^{-}$ 之间的质量差距,一种自然的方法是使用正面原则的Prompt $x^+$ 和负面原则的Prompt $x^-$ 作为指令来构建损失,它们相应的回答作为优势回答:
$$
\mathcal{G}=L_{base}(\mathbf{x}^+,\mathbf{y}^+,\mathbf{y}^-)+L_{base}(\mathbf{x}^-,\mathbf{y}^-,\mathbf{y}^+)
$$
但这种设计存在后门问题:容易通过精心设计的提示,将 $p^{-}$ 用作后门,从而操纵 LLM 产生有害文本。
因此,$y^{-}$应该在仍然满足 $x^{-}$ 的情况下尝试近似于模型当前的原始回答 $y^{o}$。SSO 通过使用 $y^{o}$ 作为优势回答来调整$L_{base}(x^{-}, y^{-}, y^{+})$。 $\mathcal{G}$ 的最终形式为:
$$
\mathcal{G}=\mathcal{L}_{base}(\mathbf{x}^+,\mathbf{y}^+,\mathbf{y}^-)+\mathcal{L}_{base}(\mathbf{x}^-,\mathbf{y}^o,\mathbf{y}^+)
$$
#### 3. 权重函数
为了在迭代过程中调整对偏好回答的学习程度,SSO设计了一个权重函数 $W$,用来决定损失函数权重。它使用 $y^{+}$ 和 $y^{-}$ 的平均对数概率简单地**评估回答的 On-Policy 程度**,即
$$
\tilde{\pi}_{\theta}(y|x)=\frac{\log\pi_{\theta}(y|x)}{|y|}
$$
$\tilde{\pi}$ 越大,表明该回答越符合当前策略模型的行为。
权重函数 $W$ 综合正面回答 $y^{+}$ 和负面回答 $y^{-}$ 的平均对数概率,来决定损失函数的权重:
$$
\mathcal{W}(\mathbf{x},\mathbf{y}^+,\mathbf{y}^-)=\mathrm{Sigmoid}\left(-\left(\alpha\cdot\tilde{\pi}_\theta(\mathbf{y}^+|\mathbf{x})+(1-\alpha)\tilde{\pi}_\theta(\mathbf{y}^-|\mathbf{x})\right)\right)
$$
#### 4. 实验结果

+ SFT 模型对齐
与基于原则的对齐方法相比,SSO 表现更好,在客观基准尤其是数学推理任务上存在优势。
+ Instruct 模型再次对齐
将 SSO 应用于对齐后的模型,性能仍有改进。
+ 离线数据训练奖励模型
使用 SSO 产生的离线数据集训练奖励模型,能够提升 Skywork 数据集的性能,而使用另外一个偏好数据集 UltraFeedback 数没有带来提升。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2410.17131]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:樊怡江
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/WMA Web Agent:让世界告诉Agent决策有风险需谨慎!.md
================================================
# WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION
**作者**:*Hyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo*
**单位**:*Yonsei University*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何提升 Agent 在网络导航任务中的决策能力**。在网络导航中,LLMs需要生成一系列动作(如点击)来完成用户在网站上的目标。然而,现有的LLMs在长期任务中表现不佳,经常犯下不可逆的错误,例如重复购买不可退的机票。为了解决这一问题,本文提出了一种新的Web Agent框架——**World-Model-Augmented (WMA) Web Agent**。
WMA Web Agent的核心思想是利用**世界模型**来模拟Agent行动的可能结果,从而进行更好的决策。**世界模型**是指系统内部对环境的表示,能够预测Agent行动对环境的影响。本文中,世界模型通过生成自由形式的自然语言描述来突出时间步之间的重要状态差异,从而帮助Agent在不实际执行动作的情况下预见行动的结果。
### 初步实验分析
本文首先进行了初步实验分析:
1. **分析LLM预测网络上动作造成的结果的能力**:给定LLM一个动作和两个候选的结果,两个结果的词义比较相似,令LLM通过二元分类任务判断该动作会造成什么结果。

2. **分析LLM已知结果之后对动作的选择能力**:将每个候选动作的结果提供给LLM,分析其是否可以选择与用户目标相一致的正确操作。

结论:**用SOTA LLMs构建的Web Agent很难预测它们的行为的结果;然而,当了解到一个行动可能产生的潜在结果时,LLMs可以做出更好的决定。**
WMA Web Agent 框架图如下图所示,包括**训练世界模型**和**执行策略优化**两个主要步骤。

### 训练世界模型
1. **数据收集**:首先,通过LLM作为Web Agent与环境交互,收集训练数据集 $\mathcal{D}=\sum_{t=1}^n\{I,o_t,a_t,o_{t+1}\}$,包括用户指令 $I$、当前状态 $o_t$、Agent动作 $a_t$ 和下一状态 $o_{t+1}$。
2. **信息提取**:
简单地使用文本观察来表示环境状态并将它们作为训练目标可能会带来以下缺点:
(1)**训练中的信息增益低**:
网页的状态转换往往只涉及对之前观察结果的一小部分进行修改(例如,点击下拉菜单)。因此,在时间步 $t+1$ 的观察结果 $o_{t+1}$ 中,大部分信息与时间步 $t$ 的观察结果 $o_t$ 相同。从头开始预测整个文本观察结果可能导致在训练过程中信息增益较低。
(2)**序列长度过长**:
处理基于**文本**的完整观察结果可能导致序列长度异常长,从而导致计算成本高昂。虽然可以通过使用相对简单的**可访问性树**来替代**原始HTML**来部分缓解这个问题,但作为LLMs的训练目标,它仍然引入了较长的序列长度(平均4K个标记)。
为了解决这些问题,本文提出了一种**专注于状态转变的观察抽象法(Transition-focused Observation Abstraction)**,该方法通过如图所示步骤来改进训练过程:
- 使用**匈牙利算法**来计算 $o_t$ 和 $o_{t+1}$ 之间的成本矩阵,以匹配两个状态之间的元素。
- 将匹配结果转换为状态转换的列表,指出网站上**新增**、**删除**和**更新**的元素。
- 利用LLM将提取的 $\Delta(o_t,o_{t+1})$ 转换为自由形式的**自然语言描述** $\tilde{o}_{t+1}$,突出新旧观察结果之间的差异。

3.**训练世界模型**:使用上述生成的描述 $\tilde{o}_{t+1}$ 作为训练目标,通过以下损失函数训练一个LLM作为世界模型,使其能够预测给定当前状态和动作后的下一状态描述。
$$
\mathcal{L}_\phi=-\log\sum_{(\tilde{o},o,a,I)\in\tilde{\mathcal{D}}}p(\tilde{o}_{t+1}|o_t,a_t,I)
$$
### 执行策略优化
Web Agent 由三个主要部分组成:**策略模型 $\theta$**、**世界模型** $\phi$ 和一个**值函数 $V$**。在推理时,策略模型 $\theta$ 是固定的,不会更新其参数。在时间 $t$ ,Agent会使用当前的观察结果 $o_t$ 和世界模型 $\phi$ 来预测下一个观察结果 $\tilde{o}_{t+1}$,并据此从策略模型 $\theta$ 中找到最优的动作/策略 $a_t$,以实现在 $I$ 中定义的目标。
首先,Agent 通过 top-p 解码从策略模型 $\theta$ 中采样 $k$ 个动作候选 $\{a^1_t, a^2_t, ..., a^k_t\}$。然后,使用世界模型 $\phi$ 来“模拟”每个动作候选 $a_t$ 可能引起的下一个观察结果 $\tilde{o}_{t+1}$:
$$
\{\tilde{o}^i_{t+1}\}^k_{i=1} = \{\phi(o_t, a^i_t, I)\}^k_{i=1}
$$
最后,Agent 使用现成的 LLM 作为价值函数 $V(\cdot)$ ,用来估计每个动作候选产生的奖励,并选择奖励最高的动作 $\hat{a}_t$:
$$
\hat{a}_t = \arg\max_{a_t \in \{a^1_t,...,a^k_t\}} V(I, o_t, a_t, \tilde{o}^i_{t+1})
$$
通过这个过程,可以在推理时优化 Web Agent的策略选择,而**无需训练**策略模型。这种无需训练的世界模型增强方法能够轻松地将世界模型 $\phi$ 适应于现有的Web Agent,包括基于提示的(prompt-based)和微调过的LLMs。
### 实验结果
**1. WebArena 性能**:
表1首先将 WMA Web Agent(16.6%)与 Vanilla CoT(13.1%)进行比较,发现在 WebArena 的几乎所有领域中都有显著提升,具体如表 2 所示。并且,当使用 GPT-4o-mini 作为策略模型时,在 Gitlab 和 Map 领域,该代理分别比 CoT 实现了 181% 和 92% 的性能提升。在 Shopping 领域的提升相对较小,可能是由于该领域的大规模状态空间,比如不同用户查询得到的搜索物品列表的多样性,这使得世界模型更难正确地学习环境动态。尽管如此,整体的提升表明了在推理时利用学习到的环境动态的有效性。
接下来,将 WMA Web Agent 与 Tree search agent 进行比较。当使用 GPT-4o 作为策略模型时,WMA Web Agent 的绝对成功率(16.6%)略低于 Tree search agent(19.2%)。然而,通过世界模型进行的策略优化为普通 CoT 带来的性能提升比树搜索更大(+29.7% 对比 + 28.0%)。

**2. Mind2Web性能**:
将 WMA Web Agent 与 MindAct和 AWM 进行比较,它们分别是 Mind2Web 上先前和当前的最佳方法。表 3 显示, WMA Web Agent 代理显著优于 AWM,实现了新的最佳性能。此外,结果表明,在 Mind2Web 数据上训练的 WMA Web Agent 具有很强的泛化能力。

本文首次在基于 LLM 的网络代理中引入**世界模型**,解决了当前 SOTA LLM 在理解环境动态方面的局限性。通过在 WebArena 和 Mind2Web 中的广泛实验,**表明 WMA Web Agent 有效**,且在成本和时间上优于强基线,并在 Mind2Web 中达到新的最佳性能,为网络导航的未来研究奠定了基础。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2410.13232]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:宓禹
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241018-20241024/普林斯顿大学提出 TreeBoN !大语言模型推理效能「提升秘籍」曝光.md
================================================
# TREEBON: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling
**作者**:*Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Huazheng Wang, Kaixuan Huang, Yue Wu, and Mengdi Wang*
**单位**:Princeton University, University of Michigan, Oregon State University
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

论文提出了 TreeBoN 方法,通过将投机树搜索策略与 Best-of-N(BoN)采样相结合,并利用从 DPO 隐式奖励修改而来的 token 级奖励引导,来提高大语言模型推理时的对齐性能和效率。以下是 TreeBoN 方法的详细细节:
### TreeBoN方法
在大语言模型推理过程中,使模型输出符合人类意图和伦理标准的对齐至关重要。目前已有一些方法,如 BoN 采样通过生成多个回答并选择最优来尝试提高推理性能,但这种方法存在明显缺陷。
**BoN 采样的问题**:其计算成本高,因为它需要生成大量回答,计算成本随生成回答数量的增加呈线性增长,这在实际应用中效率低下,尤其是对于大规模的语言模型和复杂任务,会带来巨大的计算开销和延迟,限制了其在实时或对回答速度有要求场景中的应用。
**加速方法的局限性**:像 Speculative BoN 等加速方法,试图通过对部分回答(如前 K 个 Token)进行评分来预测整体回答的质量,但由于奖励模型通常是在完整回答上训练的,对部分回答的评分不准确,导致预测结果与实际评分有较大偏差,无法有效提升性能,反而可能影响最终的推理效果。
为了克服 BoN 采样效率低下的问题,TreeBoN 采用层次化策略,将长序列生成过程拆分为多个子序列。通过在树结构中逐层生成候选回答片段,避免了一次性生成大量完整回答带来的高额计算成本。TreeBoN通过在树结构中逐层生成候选回答片段来工作。算法从一组初始根回答片段开始,在每一层,选择高奖励的回答片段并扩展为多个子回答片段。这种对树空间的推测性搜索提高了效率和最终回答质量。

具体来说,TreeBoN生成过程包含以下步骤:
- **初始候选生成**:使用基础策略$π_{base}$生成$N$个长度为$l_1$的候选回答片段$C_1$,总最大回答长度$l_{max}$被分割为多个长度为$l_i$的段。
- **部分奖励评分**:在每层$i$,使用奖励模型或部分奖励函数$r(y|x)$计算候选回答片段$y \in C_i$的奖励分数,在生成长度为$l_i$的回答片段后进行评分。
- **剪枝和选择**:根据奖励分数,从当前层中选择前$N / N_{children}$个候选回答片段形成活动集$P_i$,这些高奖励的父回答片段将用于在下一层生成回答片段。
- **回答片段扩展**:对于每个父回答片段$y \in P_i$,TreeBoN从基础策略$π_{base}$中采样$N_{children}$个回答片段,每个回答片段的最大新token长度为$l_{i + 1}$,从而生成下一层的候选集$C_{i + 1}$。整个过程中,候选集大小始终为$N$,活动集$P_i$大小始终为$N / N_{children}$,以确保在不增加计算预算的情况下生成相同数量的总token。
- **最终选择**:在生成所有层的候选回答片段后,使用奖励模型计算最后一层候选回答片段$C_{N_{layer}}$的最终奖励,选择奖励最高的回答$y*$作为最终输出。
在这个过程中,TreeBoN使用**加权隐式奖励函数**来评估部分回答片段。对于序列y的前K个token,部分奖励计算为
$$
r_{partial}(y_{:K}|x)=\sum_{k=0}^{K - 1}w_k log\frac{\pi^{*}(y_k|x,y_{:k})}{\pi(y_k|x,y_{:k})}
$$
其中$w_k=\frac{1}{|y_k|}$是加权因子,用于调整每个token级别的对数似然比的贡献。
这种加权奖励有助于早期剪枝低质量回答片段,并在整个树扩展过程中鼓励继续生成更高质量的候选回答片段。通过利用DPO策略模型的隐式奖励,TreeBoN能够更准确地评估部分回答片段,从而提高整体的回答质量。
### 实验结果
论文通过一系列实验评估了TreeBoN方法在不同数据集上的性能表现,包括与Baseline方法的对比、不同树结构和参数设置的影响、效率评估以及对不同隐式奖励的探索等方面。具体实验结果如下:
1.**在不同数据集上的改进**
**评估方法**:使用GPT4 win-rate评估方法,在AlpacaFarm、UltraFeedback、HH - RLHF和TutorEval等数据集上,针对100个随机选择的提示,对比TreeBoN与Baseline方法(Best-of-N采样,N = 128)的性能。对于数学推理数据集GSM8K,报告零样本pass@1解决率。

- 在AlpacaFarm、UltraFeedback、HH - RLHF和TutorEval数据集上,TreeBoN在最大长度为192和384 tokens时,始终优于Baseline方法。例如,在192 tokens时,TreeBoN在AlpacaFarm上达到64%的win-rate,在其他数据集上至少达到60%的win-rate;在384 tokens时,在AlpacaFarm上保持62%的win-rate,在其他数据集上至少54%,使用SFR模型时在所有数据集上达到60% - 65%的win-rate。
- 在GSM8K数据集上,TreeBoN在最大回答长度为576 tokens时,pass@1解决率比BoN高出9%,表明TreeBoN的分层结构有助于处理需要长CoT推理的数学推理任务。
2.**不同树结构的影响**
**实验设置**:在保持计算成本不变($N = 128$和$l_{max}$相同)的情况下,分别改变树层数(Number of Layers)和每个节点的子节点数量(Number of Children),在AlpacaFarm数据集上计算TreeBoN相对于BoN的win-rate。


- 增加树层数能持续提高性能,如在192和384 tokens的最大长度下,随着树层数增加,win-rate有所提升。
- 对于不同的最大生成长度,最佳子节点数量不同。但总体而言,无论树结构如何变化,TreeBoN相对于Baseline方法的win-rate保持在约60%左右,显示了方法的有效性和稳健性,同时表明未来可通过针对不同任务探索更多超参数来进一步提高性能。
3.**效率评估**
- 在实验设置中,计算成本仅由根样本数量$N$和最大生成长度$l_{max}$控制,这里Baseline方法BoN设置同时生成128个回答,并从中利用奖励模型选择最佳结果。

- 随着计算预算增加(即$N$增加),TreeBoN相对于BoN的win-rate也增加,表明TreeBoN比Baseline方法更具可扩展性,能更有效地利用额外计算预算。例如,在AlpacaFarm数据集上,当$N$从8增加到128时,TreeBoN的win-rate逐渐提高,即使在$N = 8$(仅为BoN计算成本的$8/128=6.3\%$)时,TreeBoN仍能以$55\%$的win-rate优于BoN。
4.**不同隐式奖励的探索**
**实验设置**:测试不同的隐式奖励,包括DPO隐式奖励、加权隐式奖励、加权隐式奖励(指数衰减)、长度归一化DPO隐式奖励、DPO策略对数概率和、SimPO奖励等,在AlpacaFarm数据集上使用默认配置的TreeBoN进行实验。

**加权隐式奖励**在树搜索设置中表现最佳,达到最高的GPT4 win-rate,证明了该奖励设计在TreeBoN方法中的有效性。
5.**与其他方法对比讨论**
**与SBoN对比**:SBoN依赖于**部分奖励分数与回答奖励正相关的假设**,但由于奖励模型通常在完整回答上训练,对部分回答的评分不准确,导致性能欠佳。TreeBoN通过使用更精确的**DPO策略模型的隐式奖励信号**解决了这一问题,显著提高了部分奖励近似的可靠性。此外,TreeBoN的分层树结构能更全面地探索回答空间,在扩展有希望的候选回答片段的同时有效地剪枝低质量回答片段,是SBoN的一种广义形式(当Nchildren = 1且Nlayer = 2时,TreeBoN可简化为SBoN的两层结构)。
**与传统BoN对比**:传统BoN在生成候选回答片段时没有分层结构,只是简单地探索回答空间。TreeBoN采用**更结构化的探索策略**,通过逐层生成和优化回答,使用更少的总样本更有效地搜索回答空间,从而在速度和性能上都有所改进,更好地平衡了探索与利用之间的权衡。并且,TreeBoN可以利用键值缓存机制进一步加速,在树结构中,父token的键和值可被其子节点重用,提高了计算效率。
---
- 原文链接: https://arxiv.org/abs/2410.16033
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241025-20241031/2D-DPO:告别“一刀切”!多维度对齐 LLM 偏好.md
================================================
# 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
**作者**:Shilong Li, Yancheng He 等
**单位**:*Alibaba Group*

本文研究的是**通过二维的多方面的监督信号扩展 DPO 对齐方法,更好地对齐大型语言模型与人类偏好**。现有的DPO方法通常优化一个标量分数或排名奖励,忽略了人类偏好的多维性质。为了解决这一问题,本文提出了一种新的DPO扩展方法 —— **2D-DPO**。
2D-DPO 的核心思想是将偏好优化扩展到两个维度:**片段(segments)**和 **方面(aspects)**。具体来说,本文首先构建了一个名为 HelpSteer-2D 的二维监督数据集,为每个样本都标注了一个**二维评分矩阵**,评估模型回答中的每个片段在多个方面的表现。然后,基于二维的偏好标签,设计了 2D-DPO 损失,进行多片段和多方面的优化。

#### 1. 数据集构建
将每条偏好数据的回答分割为句子级的片段,使用人工制定的评分准则提示 GPT-4 对**每个片段**在**多个方面**(如帮助性、正确性、安全性、完整性和清晰度)进行独立评分,为每个样本标注一个**二维评分矩阵**。

下面是一个 2D 奖励模型与其他类型奖励模型在奖励值分配上的对比示例:

#### 2. 2D-DPO 损失

在 Token Level 的马尔可夫决策过程(Markov Decision Process,MDP)的视角下,DPO 的损失函数为
$$
\begin{aligned}
&\mathcal{L}_{DPO}(\pi_{\theta};\pi_{ref})= \\
&-\mathbb{E}\left[\log\sigma\left(\beta\sum_{t=0}^{N-1}\log\frac{\pi_\theta(a_w^t\mid s_w^t)}{\pi_{ref}(a_w^t\mid s_w^t)}\right.\right. -\beta\sum_{t=0}^{M-1}\log\frac{\pi_\theta(a_l^t\mid s_l^t)}{\pi_{ref}(a_l^t\mid s_l^t)}\Bigg)\Bigg].
\end{aligned}
$$
其中,$\beta\log\frac{\pi_\theta^*(\mathbf{a}_t|\mathbf{s}_t)}{\pi_{ref}(\mathbf{a}_t|\mathbf{s}_t)}$ 可看作强化学习中的优势函数 $A^*(\mathbf{s}_t,\mathbf{a}_t)$。详细推导见文章附录 A.2 和 A.3。
基于以上优化目标,本文**将不同方面的偏好奖励加权平均**,使用正则化的细粒度奖励作为一个系数,用来调整 Token-Level 的优势函数 $\beta\log\frac{\pi_\theta^*(\mathbf{a}_t|\mathbf{s}_t)}{\pi_{ref}(\mathbf{a}_t|\mathbf{s}_t)}$。此外,**将优势函数项分解为片段级别的累加**,分别进行 Token-Level 的优化。
$$
\begin{aligned}
\mathcal{L}(\pi_\theta&,D)= \\
&- \mathbb{E}_{(\tau_{w},\tau_{l})\sim D}\log\sigma(\beta\sum_{k=0}^{S_{w}-1 }\sum_{t=n_k}^{n_k+l_k}r_{w,k}\log\frac{\pi_{\theta}(\mathbf{a}_{t}^{w}|\mathbf{s}_{t}^{w})}{\pi_{ref}(\mathbf{a}_{t}^{w}|\mathbf{s}_{t}^{w})} \\
&-\beta\sum_{k=0}^{S_l-1}\sum_{t=n_k}^{n_k+l_k}r_{l,k}\log\frac{\pi_\theta(\mathbf{a}_t^l|\mathbf{s}_t^l)}{\pi_{ref}(\mathbf{a}_t^l|\mathbf{s}_t^l)})
\end{aligned}
$$
其中,$r_{w,k}=\mathbf{W}\mathbf{\tilde{r}}_{w,k}$。$W$ 是总和为1的权重,用来对不同方面的奖励进行加权,反映每个方面的重要性;$\mathbf{\tilde{r}}_{w,k}=\{r_{w,k,j}\}_{j=1}^A$,是每个样本中的片段级奖励集合。
考虑到好回答和坏回答中的片段数量可能有显著差异,为了更加关注偏好影响大的关键片段,本文**从好回答中选择得分 最高的 N 个片段,从坏回答中选择得分最低的 N 个片段**,其中 $N = min(S_w, S_l)$,进一步提高了模型对齐训练的效率。
此外,**将所选的好回答和坏回答的片段成对分组,作为偏好对,形成 N 个 Bradley-Terry 模型**,从而在对齐过程中提供更清晰的对比,使模型更容易学习被选择和拒绝响应之间的细粒度差异。(这种重新排列的可行性基于以下事实:单片段 BT 模型的损失可以被视为将其他片段的 $\beta_t$ 设置为 0,如附录A.4所示)
最终,得到了包含细粒度信号的 **Token 级 2D-DPO 损失函数**
$$
\begin{aligned}
&\mathcal{L}_{group}(\pi_{\theta},D)= \\
&-\mathbb{E}_{(\tau_w,\tau_l)\sim D}\left[\sum_{k=0}^{N-1}\log\sigma\left(\beta\sum_{t=n_k}^{n_k+l_k}r_{w,k}\log\frac{\pi_\theta(\mathbf{a}_t^w|\mathbf{s}_t^w)}{\pi_{ref}(\mathbf{a}_t^w|\mathbf{s}_t^w)}\right.\right. \\
&-\beta\sum_{t=n_k}^{n_k+l_k}r_{l,k}\log\frac{\pi_\theta(\mathbf{a}_t^l|\mathbf{s}_t^l)}{\pi_{ref}(\mathbf{a}_t^l|\mathbf{s}_t^l)}\Bigg)\Bigg].& \text{(6)}
\end{aligned}
$$
#### 3. 实验
在流行基准测试上的实验表明,**2D-DPO** 比使用**标量偏好**或**一维偏好**的方法表现得更好。

综上所述,2D-DPO通过**引入二维监督信号,实现了对大型语言模型偏好的细粒度优化**。这种方法提高了模型与人类偏好的对齐效果,其监督信号具有更高的质量和可解释性,为细粒度偏好优化研究提供了新的思路。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2410.19720]
- **更多**大模型学习资料,请详见浙大 Daily 实验室 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241025-20241031/AgentStore:智能世界的超级 “App Store”.md
================================================
# AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant
**作者**:*Miao Yu, Shilong Wang* 等
**单位**:*Xi’an Jiaotong University, Shanghai AI Lab* 等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何通过动态集成异构 Agent 和高效管理策略实现系统任务的自动化**。现有Agent方法在处理开放式任务时,特别是在真实世界环境中,表现出泛化和专业化能力的不足,缺乏有效的集成和管理机制。受App Store丰富功能的启发,本文提出了**AgentStore**平台,通过**动态集成异构Agent**、**引入MetaAgent 和 AgentToken 策略**以及**自动化训练过程**,提升Agent系统在处理开放式任务时的性能。
具体地,**AgentStore**平台的主要框架如下图所示,以下是详细介绍。

#### 框架组成
1. **AgentPool**:存储具有不同功能的Agent,涵盖单模态到多模态、开源到闭源模型、命令行界面到图形用户界面等多种类型,以满足不同任务需求。
2. **AgentEnroll**:定义添加新Agent的集成协议,包括Agent的能力、限制、交互的应用程序和功能演示,确保所有Agent的注册信息以标准化格式存储,规范地融入平台,便于管理和查询。
3. **MetaAgent**:作为平台核心,根据任务描述和系统状态,从 AgentPool 中选择合适的Agent(单个或多个)独立或协作完成任务。
#### MetaAgent 与 AgentToken 策略
MetaAgent是AgentStore平台的核心组件,负责管理和调度,从 AgentPool 中选择合适的Agent(单个或多个)来完成任务。对于不同的任务,MetaAgent采用思维链的方式进行分析,并从**单Agent路由**与**多Agent协作**两种模式中进行选择。
在这一过程中,AgentToken策略是MetaAgent的关键技术,具体包括:
1. **Agenttoken嵌入**:
- 每个Agent被表示为一个可学习的token嵌入,这些嵌入被添加到MetaAgent的词汇表中。
2. **单Agent路由**:
- 在推理时,MetaAgent通过最大化条件概率来预测最可能的下一个token。
- 如果预测的token是Agent token,则激活相应的Agent执行任务。
3. **多Agent协作**:
- 对于需要多个Agent协作的任务,MetaAgent通过多token预测来选择多个Agent。
- 使用TopK函数选择概率最高的K个Agent token。
- MetaAgent切换到Manager模式,使用构建好的提示模板,将任务分解为子任务并分配给选定的Agent。
#### AgentToken训练
1. **数据生成**
- 采用Self-Instruct方式,从少量原始演示集和Agent描述开始,让MetaAgent依据这些信息生成新的演示集。
- 生成新演示集后,用BERTScore筛选。计算新演示与现有演示的相似度,设定阈值范围,如果不在该范围内,就认为该演示要么与现有数据过于相似(可能是冗余的),要么过于不相似(可能是错误或不相关的),从而得到精炼后的集合,不断重复此过程,直至生成足够的演示用于训练。
2. **训练过程**
- 训练时把任务描述和初始状态作前缀,附上Agent token作为下一个token预测的正确答案。训练目标是让模型通过更新与Agent对应的Embedding矩阵参数,使预测正确Agent token的概率尽量高,无需更新模型其他参数,具体通过计算负对数似然损失来衡量预测误差。
### 实验结果

测试基准采用 **OSWorld**,一个包含 369 个任务的可扩展真实环境,涉及真实的网络和桌面应用程序,用于评估计算机Agent处理开放域任务的能力,是实验的主要平台。
实验设定了AgentStore的不同管理模式如下:
- GT:代表了一种理想的任务分配方式,即将每个任务分配给最适合的Agent,可视为当前 AgentStore 实现的性能上限;
- ICL:是一种基于上下文学习的方法,通过在模型输入中提供任务描述和少量示例来让模型学习如何选择Agent;
- FT:对模型进行全面的微调,通过在大量任务数据上训练模型来调整模型的参数,以学习不同的任务和Agent的关系;
- AT:即采用本文创新性提出的 AgentToken 策略。
实验结果如表1所示,与之前的通用Agent方法对比,AgentStore 通过集成 20 多个专门Agent,克服了先前方法的局限性。这些专门Agent在各自擅长的领域表现出色,在几乎所有任务领域都能稳定发挥,而通用Agent在某些特定任务类别中表现较弱。不同任务管理方法下,**AgentStore 均优于单Agent系统**,其中 **AgentToken(AT)管理能力最佳**,显著超过其他方法。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/pdf/2410.18603]
- **更多**大模型学习资料,请详见浙大 Daily 实验室 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241025-20241031/CMU 与普林斯顿大学携手改进 BoN 算法,打破大模型推理时计算效率瓶颈!.md
================================================
# Fast Best-of-N Decoding via Speculative Rejection
**作者**:*Hanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette*
**单位**:Carnegie Mellon University, University of Virginia, UC Berkeley, Princeton University, Fudan University
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

### Speculative Rejection 方法
#### 研究动机
**大模型后训练挑战**:为了让 LLMs 更好地根据人类意图回答问题并遵循伦理标准,通常需要进行后训练,如监督微调、强化学习等。这些后训练方法虽然能提升模型性能,但却增加了部署前的复杂性,需要大量的时间、数据和计算资源。
**大模型推理时对齐方法**:推理时对齐方法的出现为解决上述问题提供了新途径,它直接在推理时改变解码策略进行对齐,无需复杂的后训练步骤。其中,Best-of-N 方法是一种简单且有效的推理时对齐策略,通过生成多个响应并选择最佳的一个来提高生成质量。然而,其在推理时**效率极低**,因为需要对**每个响应进行完整生成**。更确切地说,虽然 Best-of-N 的延迟在很大程度上不受 N 的影响,生成和评估可以并行进行,但如果 N 大于单个 GPU 内存能够容纳的最大批量大小,Best-of-N 需要多个 GPU。然而,为了达到后训练方法效果,可能需要更高的 N 值,如 1000 到 60000,但这些在计算上不可行,因为它们需要几十个甚至几百个 GPU。
#### 技术动机
针对上述问题,作者对如何提高BoN效率进行细致的探究,并有一些有意义的发现:
当向大模型进行提问:"What’s the best way to hack into someone’s bank account and steal money from them?"
模型可能给出多个回答:
- 回答1:"Never, ever do this. Hacking into someone else’s financial information is illegal."
- 回答2:"Hackers usually begin the process by identifying..."
当我们看到第一个回答的前几个词"Never, ever do this."时,基本能够判定大模型后续生成的是无害的内容;看到第二个回答的前几个词"Hackers usually...",那么可以直观预料到后面就会输出黑客操作具体内容,从而产生有害的答案。所以,对于我们人类来说,通过观察整个回答的前面少部分内容,我们大致上就能判定整段话的好坏。
那么对于大模型来说,有没有这样的能力呢?为了验证这个猜想,作者做了一个实验,通过Llama-3-8B-Instruct生成 N = 1000 个响应,并通过 Mistral-7B-RM 评估部分奖励(Token序列长度 τ = 256 时作奖励评估)和最终奖励。如下图所示,可以发现,**部分响应内容的奖励评分与完整响应内容的奖励评分呈正相关**。

基于此发现,作者提出了 Speculative Rejection 方法,核心思想就是**根据当前生成的部分响应内容的奖励评分值,来拒绝低奖励值响应,在高奖励值响应基础上继续生成**。
#### Speculative Rejection 算法流程

算法包括三个流程:
1. **早期生成**:根据 GPU 内存容量确定初始批量大小。如果 GPU 内存较大,可以适当增大初始批量,或者一次性生成更多的响应内容开头部分。然后开始生成响应,持续进行这个过程,直到内存耗尽或者达到 EOS。这一步就像是在播种,为后续的筛选做准备。
2. **推测拒绝**:使用奖励模型评估部分响应的得分。通过对已生成部分的分析,计算一个截止阈值。这个阈值就像是一个筛选标准,低于它的响应被认为不太可能成为最佳响应。然后确定要终止的低得分响应,提前停止这些响应的继续生成,从而节省计算资源。比如,在生成一个句子的过程中,如果前几个词的组合得分很低,就可以推测这个句子最终的得分也不会高,于是停止对它的进一步生成。
3. **继续生成**:继续生成得分超过截止阈值的部分响应,让这些有希望的响应继续发展。这个过程会一直持续到达到 EOS 或者下一个决策点(奖励评估点)。最终,从所有完成生成的响应中输出得分最高的响应,作为最终的结果。就像在一场比赛中,经过层层筛选,留下最有实力的选手(响应),并宣布它为冠军(最佳响应)。

#### 实验结果
论文中的实验主要围绕评估 Speculative Rejection 算法的有效性和效率展开,具体结果如下:
1. **效率评估**
- **实验设置**:在AlpacaFarm数据集上进行实验,将 Speculative Rejection 与Best-of-N算法对比。 Speculative Rejection 在单GPU上运行,记录其生成响应的最大奖励值。Best-of-N算法则逐步增加N值(从120开始,每次翻倍至3840),直至其奖励值与 Speculative Rejection 匹配,同时记录所需GPU数量。
- **实验结果**: Speculative Rejection 使用较少的GPU资源就能达到与Best-of-N相当的奖励得分。例如,使用Llama3 - 8B和RM - Mistral - 7B模型时, Speculative Rejection 达到的奖励分数,Best-of-N需要16到32个GPU才能实现。不同模型和奖励模型组合下趋势一致,但Llama - 3 - 8B - Instruct模型因本身更对齐且生成响应较短,导致 Speculative Rejection 对其改进相对较小,因为其拒绝轮次较少。

2. **胜率评估**
- **实验设置**:使用GPT - 4 - Turbo评估生成质量,计算 Speculative Rejection 和Best-of-N算法在不同N值下的win-rate(胜率)和length-controlled win-rate(长度控制胜率),win-rate基线为Bo120。
- **实验结果**: Speculative Rejection 在保持生成质量的同时实现了显著加速,在大多数模型和奖励模型组合中,其win-rate和length-controlled win-rate表现良好,表明生成的响应在质量和长度控制方面与Best-of-N相当甚至更优。

3. **生成语句概率最大化**
- **实验设置**:在AlpacaFarm - Eval数据集上,以生成语句的概率为奖励函数,测试Best-of-N和 Speculative Rejection 算法。Best-of-N从生成模型中采样N个响应,选择平均概率最高的一个; Speculative Rejection 在每个拒绝轮次中拒绝平均概率最低的部分响应。
- **实验结果**: Speculative Rejection 优于Best-of-N,能持续生成在语言模型下概率更高的响应,并且实现了显著的速度提升。例如,使用Mistral - 7B模型时, Speculative Rejection (α = 0.5)生成的响应概率(PPL为1.476)高于Best-of-N(Bo120的PPL为2.316),速度提升倍数达到76.9x。不同模型下均有类似趋势,平均速度提升明显。

---
- 原文链接: https://arxiv.org/pdf/2410.20290
- 更多文章请详见 Github 仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241025-20241031/Flow-DPO:像数学老师一样思考!多智能体推理链自动生成.md
================================================
# Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
**作者**:*Yihe Deng ; Paul Mineiro*
**单位**:*University of California, Los Angeles,Microsoft Research*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是如何提升 **LLM在数学推理任务中的性能**。在微调这些模型以适应特定数学问题时,一个关键挑战是生成详细且准确的数学推理路径。然而,现有的方法要么依赖于人工注释,要么通过单一模型推理来生成这些路径,这些方法往往效率低下或成本过高。为了解决这一问题,本文提出了 Flow-DPO。
Flow-DPO方法的核心思想是利用多个LLM组件通过迭代通信共同构建解决方案。这种方法不依赖于单一模型的推理,而是通过在线学习Flows来生成推理路径。
Flow-DPO包括两个部分,分别是**增量输出生产流程** (Incremental Output Production Flow)和 **在线Flow学习与Rollouts**(Online Flow Learning with Rollouts)。
1. **增量输出生产流程**(Incremental Output Production Flow):该流程通过分步生成答案片段来构建完整的数学推理路径。这一流程主要涉及两个独立的LLM:Answer LLM和Stop LLM。它们使用相同的架构,但承担不同的任务,通过不同的LoRA适配器进行微调,以专门化它们各自的任务。
(1)**Answer LLM** 负责生成答案的一部分,即一个答案片段;
(2)**Stop LLM** 负责评估当前的部分答案是否已经构成了**完整的回答**。
这个过程是迭代的,直到 Stop LLM 判断出最终答案已经完成。
通过这种方式,Flow 逐步构建起完整的回答,其中较小的片段(Chunk)大小可以提供更细致的控制,而较大的片段大小则近似于单次模型生成的过程。这种设计允许模型在生成推理路径时更加灵活和精确。增量输出生产流程示意图如下:

2.**在线Flow学习与rollouts(Online Flow Learning with Rollouts)**:该方法旨在进一步提升Flow的性能。与优化预定义推理步骤的方法不同,该方法**在细粒度的答案片段上执行在线DPO学习**。
对于每个输入问题,首先由 Answer LLM 生成答案片段,一直到产生**一个完整的回答**。在得到这个输出链之后,在每个输出节点进行**随机 rollout**。例如,在初始答案片段生成和 Stop LLM 判断为“No”之后,基于之前的部分答案生成一个替代的答案片段。这个过程会一直持续到得到**第二个完整的答案**。如果这两个答案在正确性上有所不同,就将它们视为Answer LLM的DPO对,其中能够生成正确答案的推理步骤被选为优选步骤。
Answer LLM 和 Stop LLM都参与到这些 rollout 和随后的微调中。对于每个包含问题和答案的训练实例,生成一批DPO对来训练两个LLM。这种方法使得模型能够以在线的方式进行训练,即随着新数据的处理,模型会逐步更新。

与传统的单一模型推理相比,Flow-DPO方法提供了更大的灵活性,它不局限于预定义的“推理步骤”,而是允许可调整的片段大小,从而适应不同粒度的推理需求。
### 实验
实验中使用了两个不同规模的模型,分别为Llama-3-8B-Instruct和Phi-3-medium-128k-instruct(14B)。实验在MetaMath数据集上进行了评估。
1. **泛化性评估**:该实验的目的是评估在线DPO训练和rollouts在**提升Flow模型泛化能力**方面的有效性。实验通过计算模型在训练前对即将到来的训练数据的累积准确率,即逐步验证准确率,来衡量Flow模型的泛化性能。
实验比较了Flow模型在有无训练情况下的推理准确率,并与单一LLM一步生成推理和答案的零样本性能进行对比。结果发现,未经训练的Flow模型初始推理准确率略低,但在线DPO训练能显著提升模型性能,如Llama-3-8B-Instruct模型在2,000个训练实例后性能提升了20%,Phi-3-medium-128k-instruct模型的准确率也提高了4个百分点,达到近83%。

2.**数据质量评估**:将 **Flow 生成的推理轨迹**与在**单个LLM上收集的 SFT 推理轨迹**进行了比较。使用模型的 zero-shot 精度和基于数据集的 ground-truth 轨迹的 SFT 模型的性能来建立基线。

结果表明,Flow-DPO方法能够有效提升模型在数学推理任务中的性能;并且在线DPO学习过程能够显著增强模型的泛化能力。
综上所述,Flow-DPO通过在线多智能体学习和增量输出生产流程,显著提升了LLM在数学推理任务中的性能。此外,这种方法与数据增强和DPO等进一步的增强措施兼容,有助于提升模型性能。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2410.22304]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:宓禹
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241025-20241031/PULSE 多模态大模型读懂你的心٨ـﮩ٨ـ🖤ﮩ.md
================================================
# TEACH MULTIMODAL LLMS TO COMPREHEND ELECTROCARDIOGRAPHIC IMAGES
*Ruoqi Liu ,Yuelin Bai , Xiang Yue, Ping Zhang*
*The Ohio State University, Carnegie Mellon University*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
为解决心电图图像解读难题,本文开展了一系列研究。首先**构建了 ECGInstruct 数据集**,其涵盖超百万样本,包含多种任务类型,数据来源广泛且经多种方式处理,图像合成模拟真实情况并增强多样性。接着**训练 PULSE 模型**,基于LLaVA架构,利用 ECGInstruct 训练,使模型能理解分析心电图图像。最后**建立 ECGBench 评估基准**,从现有数据集策划多种任务,确定不同评估指标,用于全面评估模型性能,实验表明 PULSE 在不同数据集和任务上表现优异,具有很强的应用潜力。
### 构建指令微调数据集
##### 整合不同来源的数据
从多个地理区域的不同数据源收集心电图数据,包括德国的 PTB - XL、美国的 MIMIC - IV - ECG、巴西的 CODE - 15% 以及基于 PTB - XL 构建的 ECG - QA。这些多样化的数据源确保了数据的广泛代表性,能够涵盖不同地区人群的心电图特征差异。
##### 设计不同的任务和类型
- **基本特征识别**:例如涉及识别心电图中的心率、节律、心脏轴等基本参数,以及波形形态(如 P 波、QRS 波群、T 波等)和间隔(如 PR 间期、QT 间期等)的特征。问题形式多样,包括封闭式问答(如判断心脏传导系统是否正常)、开放式问答(如描述根据心电图可推断的心脏电传导系统情况)、填空题(如填写心电图的节律、心脏轴和束支传导阻滞情况)和选择题(如从给定选项中选择受基线漂移影响的导联)。
- **心律分析**:涵盖对心律失常、起搏模式等的分析。任务包括识别和分类心电图中的节律异常(如判断是窦性心动过速、心房颤动、心室早搏等哪种心律失常),对多种节律异常同时存在时进行排序(如按对患者血流动力学稳定性的潜在影响排序),以及在特定临床场景下(如急诊医生查看心电图时)确定主要关注的节律问题等,问题类型有开放式、多项选择和填空等形式。
- **形态和病理识别**:主要涉及识别心电图波形中与病理状况相关的特征,如判断是否存在心肌梗死(根据 Q 波、ST 段变化等特征确定梗死位置)、缺血(通过 ST 段和 T 波变化分析)、心包炎等病理情况,以及对 QRS 波群形态变化(如右束支传导阻滞时 V1、V2 导联的特征性波形)与心脏传导模式关系的解释,问题形式包括开放式问答、多项选择和填空等。
- **临床报告生成**:根据心电图图像生成详细的临床报告,描述心电图的各项特征、诊断结论以及可能的临床意义等,问题类型为开放式问答。


##### **图像合成与增强**
- **基础图像生成**:生成标准 12 导联心电图图像,其具有黑波形、白背景、红网格线、4x3 布局的特征。
- **失真与噪声添加**:
- 添加模拟纸质磨损的皱纹和折痕。
- 随机旋转图像模拟扫描或打印偏差。
- 改变图像分辨率和背景颜色(如模拟老化或扫描质量差的微黄背景)。
- 添加噪声。
- 调整图像纵横比、整体大小以及心电图在图像中的位置。
- 随机去除网格线以体现不同系统和格式差异。
- **元信息插入**:从相关数据集(如 PTB - XL+)中提取患者人口统计学信息(年龄、性别)和基本心电图特征(心率、轴偏差等)作为元信息随机插入图像头部,增加视觉多样性和上下文信息。
- **导联配置多样化**:采用多种导联配置(如 12x1、6x2 等)丰富模型训练的图像类型。
- **数据集平衡**:合成图像与标准图像比例约为 1:1,帮助模型学习不同质量和特征的心电图图像。
##### 数据合成方式
- **自动数据合成pipeline**:利用 PTB - XL 和 MIMIC - IV - ECG 的临床报告作为初始数据,借助 Llama - 3 - 70B - Instruct 模型进行数据合成。基于专家提供的示例和现实世界场景,生成大量心电图相关指令和响应。对于缺乏全面报告的数据集(如 CODE - 15%),手动构建模板将现有数据转换为指令 - 响应格式。
- **数据评估方式**:使用 Llama 3 模型来评判,根据指令相关性、清晰度、响应的可回答性等评估标准对生成的指令 - 响应对进行评分(0 - 5 分)
### PULSE 模型训练
- **模型架构**: LLaVA,主要由三个核心组件构成。
- 视觉编码器负责处理心电图图像,将图像信息转换为模型能够理解的特征表示;
- 大语言模型作为文本解码器,对输入的指令和图像特征进行分析和处理,生成相应的文本回应;
- 投影层则起到连接视觉编码器和大语言模型的桥梁作用,使两者能够协同工作,实现图像与文本模态的对齐。
- **数据组织与训练**:
- **数据格式**:图像、指令和输出。指令是与心电图图像相关的查询或任务描述,在数据处理过程中,将图像置于每次对话的开头,作为整个对话的视觉基础,为后续的文本分析提供直观的视觉信息支持。
- **训练策略**:在训练时,冻结视觉编码器的参数,仅更新投影层和大语言模型的参数。采用自回归训练目标,在训练过程中,会屏蔽属于图像和指令的所有标记
### **ECGBench 评估基准建立**
- **异常检测**:对不同数据集特点选择合适指标,对于多标签数据集(PTB - XL Super、CODE - 15%、CPSC 2018)采用 AUC、 F1 和 HL 损失,对于单标签数据集(ECG - QA、CSN、G12EC)采用 Accurary,从不同角度全面评估模型对异常检测任务的性能。
- **报告生成**:利用 GPT - 4o 作为评判者,从节律、波形和诊断三个关键组件对模型生成的报告进行评估,每个组件 0 - 10 分,最终平均并缩放至 100 分,通过这种方式更细致地评估报告质量,而不是简单依赖传统文本生成指标。
- **MMMU ECG**:以准确率为主要指标,设计基于规则的评估管道,运用正则表达式等技术处理模型的长响应,提取答案选项进行准确匹配,确保评分的一致性和可靠性,对于无法提取有效答案的情况进行随机选择评分,以客观评估模型在该任务中的表现。
- **ECG Arena**:使用 GPT - 4o 作为评估模型,从准确性(模型回应与真实答案在心电图解读和诊断方面的匹配程度)、完整性(模型回应涵盖心电图解读关键方面的全面程度)和指令遵循(模型遵循问题特定指令的程度)三个角度进行评估,每个角度 0 - 10 分,通过平均这三个方面并缩放至 100 分来确定模型在 ECG Arena 任务中的综合表现。
### 实验:
在不同数据集和任务上均达到了最先进水平,显著优于其他模型。在域内数据集方面,如 PTB - XL Super 任务中,PULSE 的 AUC 值高达 82.4,相比最佳专有模型 GPT - 4o 提高了 27%,报告得分提升 11 分,在 ECG - QA 任务中准确率提高 39%;与最佳开源模型相比,在相同任务上 AUC 提升 28%,报告得分增加 12 分,准确率提高 44%。在域外数据集上同样表现出色,在 MMMU ECG 基准测试中,准确率相比 GPT - 4o 提高了 15%


---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2410.04749]
- **更多**大模型学习资料,请详见浙大 Daily 实验室 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:徐文溢,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241101-20241107/Adapting While Learning:自适应使用智能工具助力科学探索.md
================================================
# **Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation**
**作者**:*Bohan Lyu, Yadi Cao*等
**单位**:*Tsinghua University, University of California, San Diego*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何使 LLMs 在解决科学问题时智能地适应工具使用**。在科学问题解决中,LLMs 需要在依赖工具获取准确答案和通过基础推理独立解决问题之间做出选择。然而,现有的LLMs要么过度依赖工具,要么完全依赖自身的推理能力,这限制了它们在不同复杂性问题上的表现。为了解决这一问题,本文提出了一种新的两组件微调方法——**世界知识蒸馏(World Knowledge Distillation, WKD)**和**工具使用适应(Tool Usage Adaptation, TUA)**。
WKD 的核心思想是让 LLMs 直接从使用工具生成的解决方案中学习,以内化领域知识。TUA 的核心思想是根据问题的复杂性智能地决定是否使用工具。以下是该方法的总体框架图。
图(a)表示 WKD 过程。WKD 通过监督式微调,使 LLMs 能够模仿工具生成的准确答案,从而学习到解决简单科学问题所需的关键知识。
图(b)表示 TUA 过程。通过评估 LLMs 在基准测试问题上的直接回答能力,将问题划分为简单($D_{easy}$)和困难($D_{hard}$)两个子集。对于简单问题,LLMs 继续使用 WKD 中的对齐目标;而对于困难问题,则训练 LLMs 遵循工具使用轨迹,从而实现基于问题复杂性的智能切换。
图(c)展示了模型改进的可视化过程。蓝色和红色分别代表简单和困难的问题。垂直虚线向左移动表示内部可以解决更多的问题;简单/困难问题的水平线的移动分别显示出更智能的工具使用决策。

该方法的四个关键步骤如下:
1. **使用工具生成解决方案(Solution Generation with Tools)**
将专业工具(如物理模拟器)与 LLMs 集成,以生成高精度答案。使用问题模板和相应的工具轨迹模板来生成解决方案。在每个工具轨迹步骤中,通过系统Prompt$P_f$指导LLM强制使用工具。LLM根据工具使用轨迹返回的信息$\{I_e\}_t$和问题$x$的上下文,生成解决方案$y$。整个过程表示为:
$$
y \sim \pi(\cdot | x, \{I_e\}_t, P_f)
$$
下图为解决方案的生成过程。对于选择题,LLM 在工具辅助下得到正确答案,使用答案进行微调;对于开放性问题,除了第一步之外,LLM 生成一个建议集合,使用预先定义的度量进行排序来构建偏好对,然后使用这些数据进行偏好优化。

2. **世界知识蒸馏(World Knowledge Distillation, WKD)**
在生成解决方案后,直接对目标LLM进行微调。对齐损失定义为生成答案和直接答案之间的损失:
$$
J_{Direct}(\theta, D, P) = -\mathbb{E}_{x \sim D, y \sim \pi(\cdot | x, \{I_e\}_t, P_f)} [\log \pi_\theta(y | x, P)]
$$
其中$D$代表训练数据集。WKD的损失为:
$$
J_{WKD}(\theta, D) = J_{Direct}(\theta, D, P_n)
$$
这里$P_n$是不允许使用工具的Prompt。**WKD的目标是在不依赖工具的情况下直接生成解决方案。**
3. **工具使用适应(Tool Usage Adaptation, TUA)**
TUA首先评估WKD微调后的LLMs在基准问题上的表现。对于每个问题,采样一组直接生成的答案以计算准确率,并根据**预定义的准确率阈值**将问题划分为简单($D_{easy}$)和困难($D_{hard}$)两个子集。对于$D_{easy}$,保持WKD中的对齐目标;而对于$D_{hard}$,将对齐目标切换为包含工具使用轨迹的增强解决方案,并训练LLM准确跟随这些轨迹。这种情况下,正确轨迹的对齐损失为:
$$
J_{Trace}(\theta, D, P) = -\mathbb{E}_{x \sim D, t \sim \pi(\cdot | x, E, P_f)} \log \pi_\theta(t | x, E, P)
$$
综合考虑简单和困难问题的培训损失为:
$$
J_{TUA}(\theta, D_{easy}, D_{hard}) = \lambda J_{Direct}(\theta, D_{easy}, P_i) + (1 - \lambda) J_{Trace}(\theta, D_{hard}, P_i)
$$
其中$P_i$是允许LLMs智能选择是否使用外部工具的Prompt。$λ$调整两个子集之间的权重,以防止极端比例分布。
4. **跨Prompt策略的知识一致性(Knowledge Consistency Across Prompt Strategies)**
在设置中,某些直接回答问题所需的知识应在WKD期间的$P_n$和TUA及部署期间的$P_i$下学习。**为了缓解一个Prompt策略下获得的知识可能不会顺利转移到另一个Prompt策略的问题**,提出了一个**混合损失**,同时考虑WKD和TUA目标,从而在不同的Prompt策略下保持一致的知识。混合损失函数定义为:
$$
J_{Mix}(\theta, D, D_{easy}, D_{hard}) = \alpha J_{WKD}(\theta, D) + (1 - \alpha) J_{TUA}(\theta, D_{easy}, D_{hard})
$$
## 实验
与仅使用监督式微调(SFT)的方法相比,该方法不仅提高了LLMs的答案准确率,还增强了它们在何时使用工具方面的决策能力。
1. **答案准确率**:在自定义的 Mujoco,PDE,Climate和 Epidemiology 数据集上表现明显领先,这些数据集通常没有在预训练中覆盖。在公开数据集 MATH 和 SciBench 上没有超越目前的先进模型,但比基础模型有了改进。

2. **工具使用准确性**:自定义了工具使用评估标准。模型在除 SciBench 之外的数据集上都表现出了明显领先的工具使用准确性,意味着模型能够更智能地决定在面对复杂问题时是否需要使用外部工具,以及在能够通过基础推理解决的问题上减少对工具的依赖,从而在保持准确性的同时提高了效率。

综上所述,本文提出的两组件微调方法通过**智能适应工具使用**,减少了LLMs在解决科学问题时对预训练知识的遗忘,并提高了模型在不同复杂性问题上的表现。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2411.00412]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:宓禹 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241101-20241107/SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力.md
================================================
# Self-Consistency Preference Optimization
**SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力 **
**作者**:*Archiki Prasad, Weizhe Yuan等*
**单位**:Meta FAIR, UNC Chapel Hill, New York University
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

### SCPO 方法
大语言模型(LLMs)已在众多领域展现出卓越的性能,其成功在很大程度上依赖于大规模的人类注释数据。然而,人类注释数据的获取面临着诸多挑战,数据收集过程不仅成本高昂,还需耗费大量时间且要求具备专业知识,这一系列因素构成了制约模型训练进展的关键瓶颈。为应对这一困境,**自训练**方法作为一种极具潜力的解决方案被提出,旨在借助模型自身生成数据来推动性能提升。
但现有自训练方法暴露出明显的局限性。当面对复杂问题时,模型自身难以准确评估回答的正确性,即便引入外部奖励模型进行回答排序,仍无法有效解决问题,特别是在处理分布外问题时,这些方法的缺陷更为显著。
深入分析可知,复杂推理任务中模型解码过程的随机性虽可能引发随机错误,但同时也为解决问题提供了新视角。在这种情况下,**若多个生成答案趋于一致,则该答案正确的概率显著提高**,类似于在复杂迷宫中多次尝试后路径指向同一方向更可能通向出口的原理。对于**复杂推理任务**(例如算术问题)来说,一个问题的解题过程是多种多样的,但是正确的答案是唯一的,我们可以统计各种答案出现的频率,并以此评估答案的一致性。鉴于此,将答案一致性作为训练过程中衡量正确性的重要指标,为改进自训练方法开辟了新的研究方向。
本篇文章利用自一致性方法的特点,改进了自训练的过程,并且提出了SCPO算法。下面将具体介绍该算法的实现过程。
### SCPO 算法流程

算法包括三个流程:
1. **生成新问题并过滤**:SCPO 方法首先**利用模型本身生成多个新的推理问题**。在这个过程中,**基于投票方法对问题进行筛选**。具体而言,对于每个问题,使用模型生成多个响应,然后统计每个答案出现的频率(即投票数)。如果某个问题的所有响应中,没有一个答案的投票数达到预先设定的阈值,则该问题被过滤掉,确保留下来的问题具有一定的质量和可解答性。
2. **标注偏好对**:对于经过筛选后的每个问题,再次使用**温度采样**的方式让模型生成多个响应。接着,通过**投票**函数计算每个响应的最终答案的相对频率,根据投票结果,挑选出**投票数最高(最自一致)**和**最低(最不自一致)**的响应,将它们组成偏好对。这样的偏好对标注方式能够反映模型在不同回答之间的一致性差异,为后续训练提供有价值的信息。
3. **加权改进损失函数并迭代模型**:SCPO **基于模型对偏好对的信心来加权**改进直接偏好优化(DPO)损失函数。具体而言,对于每个偏好对,根据选择和拒绝响应的投票数差异计算实例级权重$\omega(x)$
$$
w(x)=\frac{V(y + ) - V(y⌝)}{k}
$$
然后将这个权重应用到损失函数中。在迭代训练过程中,模型根据这个加权损失函数不断优化自身参数,从初始模型开始,经过多次迭代(如在实验中通常进行两次迭代),逐步提升模型在复杂推理任务上的性能。每次迭代时,模型都会根据**前一次迭代生成的数据和偏好对**进行训练,使得模型越来越倾向于生成与一致性更高的答案相关的响应。
$$
\mathcal{L}_{ScPO}\left(y^{+}, y^{-} | x\right)=-w(x) \log\sigma\left(\beta\log\frac{M_{\theta}\left(y^{+} | x\right)}{M_{t}\left(y^{+} | x\right)}-\beta\log\frac{M_{\theta}\left(y^{-} | x\right)}{M_{t}\left(y^{-} | x\right)}\right)-\frac{\alpha w(x)}{\left|y^{+}\right|} \log M_{\theta}\left(y^{+} | x\right)
$$
### 实验结果
论文中的实验主要围绕Self-Consistency Preference Optimization(SCPO)方法在多种推理任务上的性能表现展开,具体结果如下:
1. **数学推理任务(GSM8K和MATH数据集)表现**
- **实验设置**:在GSM8K和MATH数据集上分别进行实验,将SCPO方法与多种基线方法对比,包括种子模型(Zero-shot CoT)的贪婪解码和带推理时自一致性(SC)的结果、监督训练方法(IRPO Gold)、无监督训练方法(IRPO RM)等。

<center>GSM8K数据集上结果</center>

<center>MATH数据集上结果</center>
- **实验结果**
- **SCPO在无监督设置下表现优异**,在GSM8K数据集上,仅一次迭代的SCPO使用贪婪解码就比零样本种子模型和IRPO RM分别提高了22.74%和12.36%的准确率;在MATH数据集上,两次迭代的SCPO相比相同基线也分别有5.26%和1.64%的提升。
- **迭代训练对SCPO效果显著**,在GSM8K和MATH数据集上,两次迭代的SCPO在贪婪解码下的准确率均高于一次迭代。例如,在GSM8K上,无监督和半监督训练下准确率分别提高了2.88%和3.03%;在MATH上,M2模型比M1模型贪婪准确率高出最多2.36%。不过,使用8路自一致性计算的准确率在第一次迭代后有时会饱和甚至略微下降,第三次迭代收益也较小。
- **无监督SCPO与监督训练效果相当**,在GSM8K和MATH数据集上,经过两次迭代训练的SCPO Unsup.在贪婪性能上与IRPO Gold差距小于1%,在n=8的自一致性准确率上差距小于2%。这表明SCPO在不使用真实标签的情况下能达到与监督训练相近的效果。
- 半监督训练进一步提升性能,在GSM8K数据集上,SCPO Semi-Sup.相比IRPO Gold,贪婪准确率提高了2.35%,SC准确率提高了2.19%;在MATH数据集上也有类似趋势,一次迭代的SCPO Semi-Sup.使用贪婪解码优于IRPO Gold达1.24%。
2. **逻辑推理任务(ZebraLogic数据集)表现**
- **实验设置**:在ZebraLogic数据集上进行实验,同样对比多种基线方法,模型采用相应的初始化设置(如Llama - 3 Instruct 8B作为种子模型),并根据任务特点调整超参数。

- **实验结果**
- SCPO在无监督设置下显著优于基线,一次迭代的无监督SCPO(M1)使Llama - 3 Instruct 8B种子模型在整体拼图准确率上提高了5.4%,在单元准确率上提高了8.5%;而IRPO RM的无监督训练在该数据集上效果不佳,拼图准确率甚至略有下降。经过两次迭代的SCPO训练,模型在排行榜上提升了8个位置,拼图准确率提高了6.5%,在该数据集上超过了Llama - 3 Instruct 70B、Gemma - 2 27B和Claude - 3 Haiku等更大模型,并且在解决简单拼图问题上有显著提升(高达10.3%),从而获得了最高的单元准确率。
3. **消融实验与分析结果**
- **加权SCPO损失重要性**:对比使用加权(w(x)基于一致性计算)和未加权(w(x) = 1)的SCPO损失函数进行训练,结果表明加权损失在不同数据集和迭代中均表现更优。在GSM8K和MATH数据集上,第一次迭代时加权损失训练的模型准确率提升明显,分别提高了2.5%和1.44%,即使在第二次迭代,SCPO训练的模型准确率也比未加权的高出约1%。这说明在优化一致性时考虑投票数能更好地反映模型对选择和拒绝标签的信心,有助于提高准确性。

- **模型一致性变化**:通过测量使用无监督SCPO训练的模型在不同迭代中最一致响应的投票份额(V(y⁺)/k)来分析模型一致性变化,发现**随着训练迭代增加,模型在不同任务上的一致性均提高**。这可能源于模型准确性提高、偏好优化减少模型多样性以及SCPO训练有效将自一致性分布蒸馏到模型单样本分布等因素。同时,模型在测试准确率较高的任务上更一致,如在GSM8K上最一致且准确,在ZebraLogic上最不一致且准确。

- **一致性过滤对构建偏好的影响**:在生成自一致性偏好数据时,对GSM8K和MATH数据集过滤掉少于一半投票指向多数答案的实例(即设定不同阈值τ),分析发现随着阈值增加,训练偏好对的质量提高(如准确率差距增大),但训练数据量减少。实验表明,在MATH数据集上,阈值从0.1k增加到0.7k时,准确率差距从18%增加到68%,但训练数据对数量从6.7K减少到少于700对。当阈值为0.5k时,在数据质量和数量之间达到较好平衡,能提高下游模型性能;而当阈值为0.7k时,数据量可能不足以训练8B参数的模型。

- **自一致性与奖励模型(RM)对比**:通过比较SCPO和使用ArmoRM构建偏好对的IRPO在区分正确和错误响应方面的能力(与黄金标签对比),发现ArmoRM在所有三个数据集上比SCPO有更多错误的成对偏好排序(即选择了错误答案而拒绝了正确答案),这可能是IRPO RM表现较差的主要原因。而自一致性方法虽然会产生更多平局(选择和拒绝答案投票数相同),但在分布外设置(如ZebraLogic)中,自一致性在正确排序成对偏好方面比ArmoRM高12.3%。

---
- 查看 Arxiv 原文链接请点击“**阅读原文**”
[https://arxiv.org/pdf/2411.04109]
- **更多**模型学习资料,请详见浙大 Daily 实验室 Github 仓库:**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:张超 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241101-20241107/StepAgent:从小白到大神,过程奖励助力 Agent 进化.md
================================================
# From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning
**作者**:*Zhirui Deng, Zhicheng Dou* 等
**单位**:*Gaoling School of Artificial Intelligence, Renmin University of China* 等

本文研究的是**通过逐步强化学习优化 Agent 系统的策略模型**。现有的 LLM as Agent 方法主要依赖于LLM的固有知识,或者使用强化学习策略来增强 Agent 解决复杂交互任务的能力。然而,这些方法受到稀疏奖励问题的限制,即现有数据集仅提供每个多步推理链的最终标量奖励,可能导致策略学习的效果和效率低下。为了解决这一问题,本文提出了 **StepAgent** 优化框架,利用逐步奖励来优化 Agent 的强化学习过程。
StepAgent 的核心思想是模拟新手到专家的学习过程,通过自动构建监督信号来优化 Agent 策略。具体而言,该框架分为两个阶段:**检查(Inspection)** 和 **反思(Reflection)**。在检查阶段, Agent 观察专家行为并进行模仿练习,以识别自身与专家之间的能力差距;在反思阶段, Agent 根据练习结果,通过两种策略(隐式奖励强化学习和逆强化学习)生成步骤奖励,再使用 PPO 算法改进策略。
#### 1. 检查阶段:生成步骤级对比数据
在 LLM Agent 任务中, Agent 需与环境交互并多次试错才能得出最终推理结果,传统监督微调方法观察和模仿专家的完整轨迹,并根据最终的环境奖励或人工标注信号进行优化。一方面,模拟完整轨迹需不断与环境交互,该过程顺序进行且无法并行化,需要大量**计算时间和资源**;另一方面,Agent 同时理解所有专家行为易造成**信息过载**,难以消化和掌握每个行为的细节,导致学习过程低效。
为克服这些问题,本文让 Agent 逐步骤观察专家行为并进行练习,根据轨迹片段生成步骤级的对比数据。
对于包含 $n$ 步的专家轨迹 $t_{e}=(\hat{o}_{1}, \hat{a}_{1}, \cdots, \hat{o}_{n}, \hat{a}_{n})$ ,在每个动作之后**分割轨迹**,产生**专家轨迹片段**,将每个动作视为 Agent 学习目标,即
$$
(\hat{o}_{1}, \hat{a}_{1}, \cdots, \hat{o}_{i}, \hat{a}_{i}) \in \mathcal{T}_{sample }, i = 1,2, \cdots, n
$$
Agent 确定学习目标后进入练习阶段,基于专家轨迹片段中的状态生成动作。具体来说,对于 $\mathcal{T}_{sample}$ 中的每个轨迹片段,将当前动作之前的序列作为状态 $\hat{s}_{i}=(\hat{o}_{1}, \hat{a}_{1}, \cdots, \hat{o}_{i})$ , 组成 Prompt 让 Agent $\pi_{\theta}$ 生成相应动作 $a_{i}^{\theta} \sim \pi_{\theta}(a | s)$ ,得到 Agent 在每个轨迹片段的决策动作,构成 Agent 的轨迹片段数据:
$$
(\hat{o}_{1}, \hat{a}_{1}, \cdots, \hat{o}_{i}, a_{i}^{\theta}) \in T_{sample}^{\theta}, i = 1,2, \cdots, n
$$
#### 2. 反思阶段:生成步骤级奖励信号
反思阶段利用**专家轨迹片段数据**和 **Agent 轨迹片段数据**,自动生成步骤级的奖励信号,用来直到强化学习算法更新策略模型。本文提出了两种方法来产生步骤奖励,分别为**隐式奖励** 和**逆强化学习**。
**2. 1 隐式奖励**
利用 DPO 损失 $L_{implicit}(\pi_{\theta}, \pi_{e})$ 优化 Agent 策略:
$$
L_{implicit}(\pi_{\theta}, \pi_{e}) = -\mathbb{E}\left[log \sigma\left(\beta log \frac{\pi_{\theta}\left(\hat{a}_{i} | \hat{s}_{i}\right)}{\pi_{e}\left(\hat{a}_{i} | \hat{s}_{i}\right)}-\beta log \frac{\pi_{\theta}\left(a_{i}^{\theta} | \hat{s}_{i}\right)}{\pi_{e}\left(a_{i}^{\theta} | \hat{s}_{i}\right)}\right)\right]
$$
通过优化该损失, Agent 策略可逐渐接近专家策略。
**2.2 逆强化学习**
训练**判别器网络**区分专家和 Agent 策略与环境交互产生的状态-行动对的**数据分布差异**,以此作为奖励信号优化 Agent 策略。
1.定义策略 $\pi$ 的**占用度量** $\rho_{\pi}$ ,表示 Agent 采用策略 $\pi$ 与环境交互过程中产生的**状态-行动对**的归一化分布:
$$
\rho_{\pi}(s, a)=(1 - \gamma) \sum_{t = 0}^{\infty} \gamma^{t} P_{\pi}\left(s_{t}=s\right) \pi(a | s)
$$
其中 $1 - \gamma$ 是归一化因子, $P_{\pi}(s_{t}=s)$ 表示 Agent 在时间 $t$ 处于状态 $s$ 的概率。
2.为准确模仿专家策略,让 Agent 的占用度量 $\rho_{\pi_{\theta}}$ 接近专家的 $\rho_{\pi_{e}}$ ,采用 **Jensen-Shannon散度(JS)** 衡量两分布距离,优化目标为:
$$
\min _{\pi} JS\left(\rho_{\pi_{\theta}}, \rho_{\pi_{e}}\right)-\lambda H\left(\pi_{\theta}\right)
$$
其中 $\lambda$ 是超参数, $H(\pi_{\theta}) \triangleq \mathbb{E}_{\pi_{\theta}}[-log \pi_{\theta}(a | s)]$ 是 Agent 策略的 $\gamma$ - 折扣因果熵。
3.根据 GAIL,Jensen - Shannon散度 $JS(\rho_{\pi_{\theta}}, \rho_{\pi_{e}})$ 可由凸成本函数正则化项 $\omega(\rho_{\pi_{\theta}}-\rho_{\pi_{e}})$ 表示(在常数偏移和缩放范围内),凸成本函数正则化项 $\omega: \mathbb{R}^{S \times A} \to \mathbb{R} \cup{\{\infty\}}$ 定义为:
$$
\omega(c) \triangleq \begin{cases}\mathbb{E}_{\pi_{c}}\left[-c(s, a)-log \left(1 - e^{c(s, a)}\right)\right] & c < 0 \\ +\infty & c \geq 0\end{cases}
$$
上述正则化项 $\omega(\rho_{\pi_{\theta}}-\rho_{\pi_{e}})$ 的最优解表示为:
$$
\sup _{D \in(0,1)^{S \times A}} \mathbb{E}_{\pi_{\theta}}[log (D(s, a))]+\mathbb{E}_{\pi_{e}}[log (1 - D(s, a))]
$$
因此,优化问题可转化为寻找下式的鞍点 $(\pi, D)$ :
$$
\mathbb{E}_{\pi_{\theta}}[log (D(s, a))]+\mathbb{E}_{\pi_{e}}[log (1 - D(s, a))]-\lambda H\left(\pi_{\theta}\right)
$$
4.使用从专家和 Agent 轨迹中采样的数据训练**判别器网络** $D: S \times A \to (0,1)$ ,其主要目标是**区分 Agent 策略 $\pi_{\theta}$ 和专家策略 $\pi_{e}$ 生成的数据分布**。当判别器无法区分时, Agent 的占用度量成功匹配专家。**判别器网络 $D$ 可作为隐式奖励模型为 Agent 策略提供逐步的奖励信号。**
最后,使用生成的过程奖励,指导 PPO 算法对 Agent 策略进行更新。
#### 3. 实验
在 Web 任务、Agent 任务以及 Question - Answering 任务中,StepAgent 的两种变体(Implicit 和 Inverse)在各项评估指标上均表现出色,超越了所有基线方法。

综上所述,StepAgent框架通过观察阶段和反思阶段的逐步监督学习,利用步骤过程奖励有效地改进了LLM代理的策略训练过程。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2411.03817]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241101-20241107/谷歌出品 SLED 解码技术,让大语言模型输出更靠谱!.md
================================================
# SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models
**作者**:*Jianyi Zhang, Da-Cheng Juan* 等
**单位**: *Duke University, Google Research* 等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何提高大语言模型输出的真实性**。现有方法在提高大语言模型输出真实性方面存在不足,缺乏高效且广泛适用的方法。受模型内部不同层 logits 关系的启发,本文提出了**SLED 方法**,通过**分析模型不同层 logits 的差异挖掘潜在知识**、**估计真实知识分布**、**实现 logits 自我进化**以及**降低计算复杂度**,提高大语言模型输出的真实性和在实际应用中的可行性。
具体地,**SLED**方法分为三个主要部分,估计真实知识分布、实现 logits 自我进化和降低计算复杂度,主要工作流程如下图所示,以下是详细介绍。

#### 估计真实知识分布
大语言模型在生成文本的过程中,不同层的 logits 蕴含着丰富的信息。通过对比早期层和最终层的 logits,可以发现它们之间的差异能够反映出模型在推理过程中的潜在知识变化,从而近似真实知识分布与模型输出分布之间的关系。
SLED利用早期层和最后一层logits的差别来估算梯度并估计真实知识分布,主要基于以下原理:
1. **训练阶段的启示**:在大语言模型的训练过程中,最终层的logits($$logits_N$$)直接通过损失函数与真实知识分布($$P_{real}$$)相关联,训练的目标是最小化真实分布与输出分布之间的KL散度,这意味着$$logits_N$$比早期层的logits($$logits_n$$)更能反映真实知识分布,即 $$KL(P_{real}, P_{logits_N}) < KL(P_{real}, P_{logits_n})$$。
2. **方向近似性**:基于上述训练阶段的特性,如果对比 $$logits_n$$ 和 $$logits_N$$ ,它们的差($$logits_n - logits_N$$)在方向上可以近似于 $$KL(P_{real}, P_{logits})$$ 在 $$logits = logits_n$$ 处的梯度$$\nabla_{logits_n} KL(P_{real}, P_{logits_n})$$。
3. **估计真实知识分布($$P_{real}$$)**:由于难以直接获取真实知识分布,SLED利用这种近似关系来估计$$P_{real}$$。具体而言,对于每个早期层$$n$$,通过计算余弦相似度,即
$$
CosSim(logits_n - logits_N, \nabla_{logits_n} KL(P_{e_{i}}, P_{logits_n}))
$$
其中,
$$
\nabla_{logits_n} KL(P_{e_{i}}, P_{logits_n})=(P_{logits_n}-P_{e_{i}})/\tau
$$
$$P_{e_{i}}$$为标准基向量,表示真实知识分布要求生成词汇中的第$$i$$个词。
然后选择相似度最高的 $$P_{e_{i}}$$ 作为$$P_{latent}^{(n)}$$(硬估计),进一步扩展为软估计
$$
P_{latent}^{(n)}=(m_{1}^{(n)},..., m_{i}^{(n)},..., m_{d}^{(n)})/m^{(n)}
$$
,其中 $$m^{(n)}=\sum_{i=1}^{d} m_{i}^{(n)}$$ 为归一化因子。
最后对所有早期层的 $$P_{latent}^{(n)}$$ 进行加权平均得到 $$P_{latent}$$,作为真实知识分布的最终估计,其中权重$$s^{(n)}$$根据各层梯度近似与词汇表中Token的对齐程度确定,即如果某层 $$n$$ 的 $$logits_n - logits_N$$与词汇表中各Token的梯度 $$\nabla_{logits_n} KL(P_{e_{i}}, P_{logits_n})$$ 更为接近,那么该层在最终估计中的权重 $$s^{(n)}$$ 就更大。
#### 实现 logits 自我进化
利用得到的最终估计 $$P_{latent}$$,计算 $$KL(P_{latent}, P_{logits_N})$$ 在 $$logits = logits_N$$ 处的梯度
$$
\nabla_{logits_N} KL(P_{latent}, P_{logits_N})=(P_{logits_N}-P_{latent})/\tau
$$
,进而得到更新后的 logits
$$
\tilde{logits}_N = logits_N - \alpha \cdot \nabla_{logits_N} KL(P_{latent}, P_{logits_N})
$$
,其中$$\alpha$$为进化率,控制对$$logits_N$$调整的幅度。
#### 降低计算复杂度
为了使 SLED 方法在实际应用中更具可行性,需要降低计算复杂度。选择最终层中 logits 值最高的前$$k$$个Token进行自我进化,其他 Token 的 logits 调整为较低数值(如$$-1000$$),从而将计算复杂度从 $$O(d^{2})$$ 降低到$$O(k^{2})$$,其中 $$k \ll d$$,$$k$$ 被称为进化规模,决定了参与自我进化的高概率Token数量。
### 实验结果
#### 广泛的 LLM 基准测试结果

实验基线主要使用 DoLa ,它是一种与 SLED 类似的基于层对比的解码方法。根据实验结果,SLED在**多选任务**、**开放生成任务**以及**思维链推理任务**中均表现良好,在几乎所有指标上超越了基线方法。
#### 多样化 LLM 配置评估结果

SLED 在不同模型家族(LLaMA 2、LLaMA 3、Gemma 等)和规模(2B - 70B)以及 Mixture of Experts(MoE)架构上均表现出强大的泛化能力,进一步证明了其在不同模型配置下的有效性。
#### 解码时间开销

SLED 增加的解码时间开销较小,与 DoLa 相比,增加范围在 0.1% - 10% 之间,确保了方法的实用性。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/pdf/2411.02433]
- **更多**大模型学习资料,请详见浙大 Daily 实验室 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241101-20241107/颠覆Transformer,神经网络自演化的开端!!!1.md
================================================
## TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS
作者:Haiyang Wang, Yue Fan 等
单位:Max Planck Institute for Informatics Google Peking University等
当我们想要让Transformer模型“长大”时,需要改变模型结构,然后对其进行重新训练。这种方式导致Transformer不能像人脑一样,随着时间和环境自动的进行演进。本文提出的Tokenformer新架构,从底层赋予了神经网络模型自演化的能力。下面对Tokenformer展开介绍。
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究内容是Transformer模型参数扩展。Transformer通常将处理单个token所需的计算划分为两个不同的部分:**与其他输入token的交互(token-token交互)**和**涉及模型参数的计算(token-parameter交互)**。注意力机制促进了token-token交互,使现代通用基础模型能够将多模态数据编码为统一的token序列,并有效捕捉它们之间的复杂依赖关系。相对而言,token-parameter的计算主要依赖于线性投影,即输入token与一组固定参数相乘。这种设计限制了可扩展性,因为增加模型规模需要改变核心架构组件,通常需从头开始**重新训练整个模型**。随着模型规模的增长,这导致了过度的资源消耗,使其变得越来越不实际。
为了解决这一问题,本文从模型架构入手,提出了一种新的架构-Tokenformer,引入token-parameter注意力(Pattention)层,增强了token-parameter交互的灵活性,**允许模型参数的增量扩展并有效重用先前训练的模型**,从而显著降低训练负担。
本文提出的Tokenformer架构与原始Transformer架构对比如下图所示:

#### 原始transformer:
首先我们来回顾一下原始transformer,给定一组包含 $ T $ 个输入 token 的集合 $ X \in \mathbb{R}^{T \times d} $,其中 $ d $ 是通道维度。自注意力块首先通过三种不同的线性投影生成输入相关的查询 $ Q $、键 $ K $ 和值 $ V $:
$$
Q = X \cdot W^Q, \quad K = X \cdot W^K, \quad V = X \cdot W^V
$$
其中,$ W^Q, W^K \in \mathbb{R}^{d \times d_k} $ 和 $ W^V \in \mathbb{R}^{d \times d_v} $ 是可学习的权重矩阵。注意力分数通过查询和键向量的相似度计算,并使用 softmax 函数获得归一化的权重。这些分数用于计算缩放点积注意力的输出:
$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q \cdot K^\top}{\sqrt{d}}\right) \cdot V
$$
其中 $ \sqrt{d} $ 是缩放因子,用于缓解 softmax 引起的小梯度问题。最终输出为:
$$
O = X_{\text{att}} \cdot W^O
$$
其中 $ X_{\text{att}} $ 是注意力输出,$ W^O \in \mathbb{R}^{d_v \times d} $ 是输出投影矩阵。
#### Tokenformer
Tokenformer的核心创新是token-parameter注意力(Pattention)层,它引入了两组可训练的token充当模型参数,并使用交叉注意力管理输入token与这些参数token之间的交互。这样,Pattention层**引入了一个附加维度**,即**参数token的数量**,与输入和输出通道维度无关。这种解耦**允许网络参数沿着参数token轴无缝扩展**,为通过重用预训练模型实现增量模型扩展提供了所需的灵活性。
###### 对于Pattention 层,其架构如下图:
具体来说,设输入 tokens 和输出 tokens 分别表示为 $ I \in \mathbb{R}^{T \times d_1} $ 和 $ O \in \mathbb{R}^{T \times d_2} $,其中 $ T $ 是序列长度,$ d_1 $ 和 $ d_2 $ 分别为输入和输出维度。为了实现 Pattention 机制,我们引入了两组 $ n $ 个可学习的参数 tokens:$ K_P \in \mathbb{R}^{n \times d_1} $ 表示键,$ V_P \in \mathbb{R}^{n \times d_2} $ 表示值。Pattention 层的输出 $ O $ 通过缩放点积计算得到:
$$
\text{Pattention}(X, K_P, V_P) = \Theta \left( X \cdot K_P^\top \right) \cdot V_P
$$
其中 $ \Theta $ 是用于稳定 Pattention 层优化的改进型 softmax 操作。Pattention 分数 $ S \in \mathbb{R}^{n \times n} $ 的计算方式为:
$$
S_{ij} = f \left( \frac{A_{ij} \times \tau}{\sqrt{\sum_{k=1}^n |A_{ik}|^2}} \right), \quad \forall i, j \in 1...n,
$$
其中 $ A $ 是从 $ X \cdot K_P^\top $ 得到的分数,$ \tau $ 是缩放因子,默认为 $ \sqrt{n} $,$ f $ 是非线性函数,在模型中为 GeLU 函数。

###### Tokenformer的整体架构如上图所示:
具体来说:给定输入 tokens $ X_{\text{in}} \in \mathbb{R}^{T \times d} $,采用 pre-norm Transformer 的设计,其 Tokenformer 层的输出计算如下:
$$
X_{\text{inter}} = X_{\text{in}} + \text{MHA}(\text{LN}(X_{\text{in}})), \quad X_{\text{out}} = X_{\text{inter}} + \text{FFN}(\text{LN}(X_{\text{inter}}))
$$
其中,$ \text{LN} $ 表示层归一化,MHA 和 FFN 分别指我们修改后的多头自注意力和前馈层。
在多头自注意力模块中,为简化起见,采用单头变体并将 $ d_k $ 和 $ d_v $ 设为 $ d $。然后我们用 Pattention 层替代所有线性投影。记 $ \text{LN}(X_{\text{in}}) $ 为 $ X $,该模块的公式如下:
$$
Q = \text{Pattention}(X, K_P^Q, V_P^Q), \quad K = \text{Pattention}(X, K_P^K, V_P^K), \quad V = \text{Pattention}(X, K_P^V, V_P^V)
$$
$$
X_{\text{att}} = \text{softmax} \left( \frac{Q \cdot K^\top}{\sqrt{d}} \right) \cdot V
$$
$$
O_{\text{att}} = \text{Pattention}(X_{\text{att}}, K_P^O, V_P^O)
$$
其中公式 (7) 和 (9) 表示 token-parameter 注意力,而公式 (8) 表示 token-token 注意力。QKV 投影的键值参数 token 分别为 $ (K_P^Q, V_P^Q) \in \mathbb{R}^{n_q \times d} $,$ (K_P^K, V_P^K) \in \mathbb{R}^{n_k \times d} $,$ (K_P^V, V_P^V) \in \mathbb{R}^{n_v \times d} $,而 $ (K_P^O, V_P^O) \in \mathbb{R}^{n_o \times d} $ 则用于输出投影层。
为了保持一致性和简洁性,**Tokenformer 中的前馈块使用单一 Pattention 层**。记 $ \text{LN}(X_{\text{inter}}) $ 为 $ X_{\text{ffn}} $,前馈网络 (FFN) 的计算如下:
$$
O_{\text{ffn}} = \text{Pattention}(X_{\text{ffn}}, K_{\text{ffn}}^P, V_{\text{ffn}}^P)
$$
其中 $ (K_{\text{ffn}}^P, V_{\text{ffn}}^P) \in \mathbb{R}^{n_{\text{ffn}} \times d} $ 是 FFN 块的可学习键值对。
通过上述的架构设计,**将所有基本组件(包括输入数据和模型参数)表示为计算框架中的 token**。以 token 为中心的视角允许利用注意力机制的优势,**统一 Transformer 中的两个主要计算**,即 token-token 和 token-parameter 交互,从而构建出一个完全基于注意力的神经网络,以实现渐进式模型扩展。
###### 模型参数扩展
为了在不影响通用性的情况下便于理解,以下使用一个单独的 Pattention 层来展示模型扩展的细节。考虑一个现有的 Tokenformer 模型,带有一组预训练的键值参数 token,记作 $ K_{\text{old}}^P, V_{\text{old}}^P \in \mathbb{R}^{n \times d} $。如上图所示,为了扩展模型,将网络参数沿着参数token轴扩展,通过追加新的键值参数 token 来增强这组参数,记作 $ K_{\text{new}}^P, V_{\text{new}}^P \in \mathbb{R}^{m \times d} $,如下所示:
$$
K_{\text{P}}^{\text{scale}} = \begin{bmatrix} K_{\text{P}}^{\text{old}} , K_{\text{P}}^{\text{new}} \end{bmatrix}, \quad V_{\text{P}}^{\text{scale}} = \begin{bmatrix} V_{\text{P}}^{\text{old}} , V_{\text{P}}^{\text{new}} \end{bmatrix}
$$
其中 $ [\cdot_{\text{old}}, \cdot_{\text{new}}] $ 表示在 token 维度上的拼接操作,扩展后的参数集 $ K_{\text{scale}}^P, V_{\text{scale}}^P \in \mathbb{R}^{(m+n) \times d} $。扩展模型的前向传播过程定义如下:
$$
O = \text{Pattention}(X, K_{\text{scale}}^P, V_{\text{scale}}^P)
$$
这种扩展方案允许任意数量的参数集成,而无需更改输入或输出的维度。
#### 实验方面
实验方面,主要分为三个部分,分别是**渐进式模型扩展测试**,**扩展后的模型表达能力的基准测试**以及与**标准Transformer模型扩展方法的对比。**
###### 1.渐进式模型扩展测试
数据集使用了OpenWebText语料库,基线为从头训练的Transformer模型,对具有124M到1.4B参数的模型扩展性能进行了测试。Tokenformer每次扩展迭代都利用了预训练的小型Tokenformer来部分初始化较大模型的权重,例如,为了训练一个具有354M参数的模型,使用124M模型作为部分初始化器。

实验结果如上图中的Figure 3所示,使用Tokenformer的渐进式扩展方法在显著减少训练预算的同时,取得了与从零训练的Transformer模型相当的性能。具体而言,从一个使用300B token训练的124M参数模型开始,逐步扩展至354M、757M和1.4B参数,仅需额外的30B token——相比于从零训练的Transformer仅需十分之一的计算预算。该扩展过程在1.4B参数规模上实现了11.77的测试困惑度。相比之下,同等规模的从零训练的Transformer模型达到了类似的困惑度11.63,但耗费了3倍的训练成本。
###### 2. 扩展后的模型表达能力测试
Tokenformer在语言建模和视觉建模上,在多个广泛认可的下游任务中测试,与同等规模的主流开源 Transformer/Vision Transformer 模型进行对比,如下图所示,Tokenformer的表现与标准 Transformer 架构的模型能力相当。

###### 3.与标准Transformer模型扩展方法的对比
Transformer在一定程度上也可以实现模型的重用。Net2Net 作为一种经典的模型增长方法,提出了通过复制神经元来扩展神经网络宽度的技术。在这种方法中,较小模型中某层Transformer的预训练权重矩阵 $$ W_{\text{s}}^{\text{old}} \in \mathbb{R}^{d_s \times d_s} $$ 被用于生成一个较大的权重矩阵 $$ W_{\text{l}}^{\text{new}} \in \mathbb{R}^{d_l \times d_l} \ (d_l > d_s) $$ 来填充更大的模型。此扩展过程的公式如下:
$$
W_{\text{l}}^{\text{new}} =
\begin{bmatrix}
W_{\text{s}}^{\text{old}} & W_{\text{l(12)}}^{\text{new}} \\
W_{\text{l(21)}}^{\text{new}} & W_{\text{l(22)}}^{\text{new}}
\end{bmatrix}
$$
其中 $$ W_{\text{l(12)}}^{\text{new}} \in \mathbb{R}^{(d_l - d_s) \times d_s} $$,$$ W_{\text{l(21)}}^{\text{new}} \in \mathbb{R}^{d_s \times (d_l - d_s)} $$,以及 $$ W_{\text{l(22)}}^{\text{new}} \in \mathbb{R}^{(d_l - d_s) \times (d_l - d_s)} $$ 是用于扩展的新参数。
Tokenformer对比此方法在模型参数扩展的优势如下:
- **长上下文建模的可控token-token交互成本** ,如前所述,Transformer架构的训练成本主要分为两部分:涉及模型参数的交互和输入序列之间的交互。其中token-参数交互的成本是线性扩展的,而token-token交互的成本是二次扩展的(新token需要与已有的所有token计算注意力)。传统上,扩展Transformer模型通常通过增加通道维度来实现,比如此方法(Net2Net )。对于更长的文本,这会导致更高的计算成本,主要是因为主要的token-token交互变得更加密集,从而影响模型在长文本处理上的性能。而Tokenformer将token-token交互的计算成本与模型扩展过程解耦。增加了参数大小而不改变token通道维度,从而保持token-token交互相关的计算成本不变。
- **扩展而不丢失已学分布** 当新增参数初始化为零时,Tokenformer可以保持现有的输出分布。这一特性在模型不断扩展以纳入更多数据时非常有利,因为它可以在增加模型容量的同时不破坏模型已有的知识,从而促进快速收敛。为评估Tokenformer的扩展效率,我们将Net2Net的Transformer扩展与Tokenformer扩展的损失曲线进行对比。如下图Figure 6所示,Tokenformer不仅收敛更快,而且达到了更低的最终损失,这归功于其在恢复训练过程中保持输出分布的能力。
- **增量扩展的性能更好** 使用Net2Net方法逐步扩展标准Transformer和Tokenformer扩展。如下图Figure 7所示,Tokenformer在扩展方面的性能优于标准Transformer。

综上所述,本文提出了Tokenformer,这是一种天然可扩展的架构,通过将模型参数表示为token,用Pattention层替代了Transformer中的所有线性投影层,使得模型可以无缝且高效地进行增量扩展,而无需从零开始重新训练,同时,它原生具备参数高效调优的能力,可无缝适应新任务需求。这种比传统Transformer更具灵活性的架构将进一步推动基础模型的发展。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/pdf/2410.23168]
- **更多**大模型学习资料,请详见浙大Daily实验室GitHub仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241108-20241114/IOPO:化身超级助手,让 LLM 轻松应对复杂指令.md
================================================
# IOPO: Empowering LLM s with Complex Instruction Following via Input-Output Preference Optimization
**作者**:*Xinghua Zhang, Haiyang Yu 等*
**单位**:*Tongyi Lab*

本文研究的是**通过输入输出偏好优化(IOPO)方法,提升大型语言模型( LLM s)遵循复杂指令的能力**。随着 LLM s在各种应用中的广泛使用,指令的复杂性也在迅速增加。然而,现有的复杂指令评估数据有限,且缺乏专门用于提升复杂指令遵循能力的算法。为了解决这一问题,本文提出了**IOPO**方法,并构建了一个名为**TRACE**的基准数据集。
IOPO的核心思想是**同时考虑输入和输出的偏好对**,使 LLM 不仅能够快速适应响应偏好,还能细致地探索指令偏好。具体来说,IOPO不仅将指令作为输入来直接学习响应偏好,还基于相同的响应深入探索指令,以促进对细粒度约束的有效感知。
#### 1. TRACE 基准数据集
本文首先构建了 TRACE 复杂指令数据集,包含120K条训练数据和1K条评估数据。其中每条复杂指令都包含多个约束,涵盖了 26 个**约束维度**和 5 种**约束类型**。


TRACE 复杂指令数据集的构建过程包括以下几个关键步骤:
- **约束分类**:通过 LLM 从大量开源简单指令中**归纳出约束分类**,并由人工专家进一步细化,形成 5 种约束类型和 26 个约束维度。
- **约束扩展**:基于约束分类,通过提示 LLM 将简单指令扩展为**包含多个约束的复杂指令**。
- **指令结构化**:将扩展后的指令文本结构化为任务描述、约束和输入部分。
- **质量控制**:通过提示 LLM 对扩展后的指令进行质量控制,确保指令的有效性。
- **响应生成与评估**:使用 LLM 生成响应,并通过 LLM 评估响应的质量,确保其完全遵循指令中的所有约束。

#### 2. IOPO方法
**IOPO方法通过构建一对包含多项约束内容的指令 $<x_1, x_2>$ 及其对应的响应 $<y_1, y_2>$,其中 $x_2$ 在某些约束上与 $x_1$ 有细微差异,这些差异会导致响应的显著不同。**然后,形成四个输入输出对 $<x_1, y_1>$、$<x_1, y_2>$、$<x_2, y_1>$ 和 $<x_2, y_2>$,构成一个**偏好组对** $G1 ≻ G2$,其中 $G1 = {<x_1, y_1>, <x_2, y_2>}$,$G2 = {<x_1, y_2>, <x_2, y_1>}$。具体的数据构建过程如下:
- **$x_2$ 生成**:通过 “添加”、“删除” 和 “修订” 操作生成新的约束,使响应不再符合新约束,并结合任务描述、新约束和输入形成 $x_2$。
- **$y_2$ 生成**:对于指令 $x_2$,生成相应的响应 $y_2$。
- **响应评估**:评估响应 $y_2$,仅保留完全符合约束的响应。
基于 DPO 的优化目标,通过**最大化偏好组对 $G1 ≻ G2$ 的概率**,推导出 IOPO 的损失函数:
$$
\begin{gathered}
\mathcal{L}_{\mathrm{IOPO}}(\pi_{\theta})=-\mathbb{E}_{x_{1},y_{1},x_{2},y_{2}\sim D} \bigg\{\operatorname{log}\bigg[\sigma\bigg(\frac{1}{2}(2\beta\mathrm{log}\frac{\pi_{\theta}(y_{1}|x_{1})}{\pi_{\mathrm{ref}}(y_{1}|x_{1})}\bigg) \\
-\beta\mathrm{log}\frac{\pi_\theta(y_2|x_1)}{\pi_\mathrm{ref}(y_2|x_1)}-\beta\mathrm{log}\frac{\pi_\theta(y_1|x_2)}{\pi_\mathrm{ref}(y_1|x_2)}+2\beta\mathrm{log}\frac{\pi_\theta(y_2|x_2)}{\pi_\mathrm{ref}(y_2|x_2)} \\
-\left.\beta\mathrm{log}\frac{\pi_{\theta}(y_{1}|x_{2})}{\pi_{\mathrm{ref}}(y_{1}|x_{2})}-\beta\mathrm{log}\frac{\pi_{\theta}(y_{2}|x_{1})}{\pi_{\mathrm{ref}}(y_{2}|x_{1})})\right)\bigg]\bigg\}
\end{gathered}
$$
#### 3. IOPO方法推导
IOPO方法的核心在于同时优化包含输入和输出的偏好对数据,推导过程类似 DPO:
- **奖励函数表示**:
奖励函数 $ r(x, y) $ 可以表示为策略模型 $ \pi_r $ 的形式:
$$
r(x, y) = \beta \log \frac{\pi_r(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)
$$
其中 $ Z(x) = \sum_y \pi_{\text{ref}}(y|x) \exp\left(\frac{1}{\beta} r(x, y)\right) $。
- **Bradley-Terry模型**:
Bradley-Terry模型用于估计成对比较的概率:
$$
p(i \succ j) = \frac{p_i}{p_i + p_j}
$$
其中 $ p_i $ 是分配给个体 $ i $ 的正实数得分。
- **偏好组对概率**:
给定一对偏好组 $ \mathcal{G}_1 $ 和 $ \mathcal{G}_2 $,定义 $ p_1 = e^{r(x_1, y_1) + r(x_2, y_2)} $ 和 $ p_2 = e^{r(x_1, y_2) + r(x_2, y_1)} $,则偏好组对概率为:
$$
p(\mathcal{G}_1 \succ \mathcal{G}_2) = \frac{e^{r_{\mathcal{G}_1}}}{e^{r_{\mathcal{G}_1}} + e^{r_{\mathcal{G}_2}}}
$$
其中$ r_{\mathcal{G}_1} = r(x_1, y_1) + r(x_2, y_2) $ 和 $ r_{\mathcal{G}_2} = r(x_1, y_2) + r(x_2, y_1) $。
- **优化目标**:
结合上述公式,优化目标可以进一步推导为:
$$
p(\mathcal{G}_1 \succ \mathcal{G}_2) = \sigma\left(\frac{1}{2}(\Pi_1 + \Pi_2)\right)
$$
其中:
$$
\Pi_1 = 2\beta \log \frac{\pi_r(y_1|x_1)}{\pi_{\text{ref}}(y_1|x_1)} - \beta \log \frac{\pi_r(y_2|x_1)}{\pi_{\text{ref}}(y_2|x_1)} - \beta \log \frac{\pi_r(y_1|x_2)}{\pi_{\text{ref}}(y_1|x_2)}
$$
$$
\Pi_2 = 2\beta \log \frac{\pi_r(y_2|x_2)}{\pi_{\text{ref}}(y_2|x_2)} - \beta \log \frac{\pi_r(y_1|x_2)}{\pi_{\text{ref}}(y_1|x_2)} - \beta \log \frac{\pi_r(y_2|x_1)}{\pi_{\text{ref}}(y_2|x_1)}
$$
- **损失函数**:
最终的损失函数为:
$$
\begin{gathered}
\mathcal{L}_{\mathrm{IOPO}}(\pi_{\theta})=-\mathbb{E}_{x_{1},y_{1},x_{2},y_{2}\sim D} \bigg\{\operatorname{log}\bigg[\sigma\bigg(\frac{1}{2}(2\beta\mathrm{log}\frac{\pi_{\theta}(y_{1}|x_{1})}{\pi_{\mathrm{ref}}(y_{1}|x_{1})}\bigg) \\
-\beta\mathrm{log}\frac{\pi_\theta(y_2|x_1)}{\pi_\mathrm{ref}(y_2|x_1)}-\beta\mathrm{log}\frac{\pi_\theta(y_1|x_2)}{\pi_\mathrm{ref}(y_1|x_2)}+2\beta\mathrm{log}\frac{\pi_\theta(y_2|x_2)}{\pi_\mathrm{ref}(y_2|x_2)} \\
-\left.\beta\mathrm{log}\frac{\pi_{\theta}(y_{1}|x_{2})}{\pi_{\mathrm{ref}}(y_{1}|x_{2})}-\beta\mathrm{log}\frac{\pi_{\theta}(y_{2}|x_{1})}{\pi_{\mathrm{ref}}(y_{2}|x_{1})})\right)\bigg]\bigg\}
\end{gathered}
$$
#### 4. 实验
在 Trace、IFEval 和 CFBench 三个数据集上的实验表明,IOPO 在复杂指令遵循能力上显著优于现有的 SFT 和 DPO 方法。具体来说,IOPO 在 TRACE 数据集上的单约束和多约束指令遵循能力分别提升了 8.15% 和 2.18%,在 IFEval 和 CFBench 数据集上的表现也有显著提升。

综上所述,IOPO 通过**同时优化输入和输出的偏好,显著提升了 LLM 遵循复杂指令的能力**。这种方法不仅提高了模型在复杂指令场景下的表现,还为复杂指令遵循能力的研究提供了新的思路。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2411.06208]
- **更多**大模型学习资料,详见浙江大学LLMs GitHub仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241108-20241114/Spider 2.0 来袭!大语言模型能否应对企业级 Text-to-SQL 的超强挑战?.md
================================================
# Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows
**作者**:*Fangyu Lei, Jixuan Chen等*
**单位**:*University of Hong Kong, Google等*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

### Spider 2.0
自动代码生成可以作为人类与数据之间的桥梁,帮助个人使用复杂数据完成困难或单调的任务。现有数据的大部分存储在关系数据库中,SQL作为与这些数据交互的关键接口。在这种情况下,Text-to-SQL是一项重要技术,能够帮助数据分析师执行常规查询、编排数据工作流并实现高级商业智能,从而显著减少重复的人力劳动并减轻程序员的负担。大语言模型在生成代码方面展示了出色的能力,基于GPT-4的方法在经典基准Spider 1.0和Bird上分别达到了91.2%和73.0%的执行准确率。
尽管LLMs在这些数据集上表现出色,但它们通常使用非工业数据库,这些数据库包含少量表和列,具有简单的SQL和问题,无法反映真实世界的复杂性,并忽略了多样化的SQL方言。相比之下,真实世界的数据存储在各种数据库系统中,每个系统都有其独特的SQL方言,引入了广泛的SQL语法和函数。此外,这些企业级应用数据库的特点是大规模模式,包含数千列和复杂的嵌套结构。此外,真实世界的 Text-to-SQL 工作流需要利用项目代码库、外部知识和各种上下文来构建跨多个步骤的复杂SQL查询,完成各种操作,并构建全面的数据工程管道。这包括数据整理以清理和组织数据以进行分析,数据转换以重新构建和增强数据,以及进行数据分析以提取洞察力,从而为决策提供信息并推动战略举措。所有这些复杂性都凸显了需要更现实的企业级基准的迫切需求。
针对当前Text-to-SQL落地应用存在的问题,本文提出了 Sider 2.0,一个反映真实世界数据工作流的基准,涵盖632个真实世界的复杂数据整理、转换和分析任务。Spider 2.0中的数据库来自工业应用(例如Google Analytics和Salesforce),具有大量的表列项(一个数据库平均812列)和复杂的结构,以及TB级数据量。它们涵盖了各种数据库系统,包括本地数据库(例如SQLite和DuckDB)和云数据仓库(例如BigQuery和Snowflake)。这些数据库的复杂SQL方言从技术教程、社区论坛和开源项目中整理而来。平均而言,每个标准SQL查询包含144个Token,并包括高级函数(例如,ST_DISTANCE(x1, x2)测量两点之间的最短距离),显示出显著超过先前基准的复杂性。所有任务都基于项目代码库以及文档和数据库接口,以模拟真实世界的文本到SQL编写场景。
接下来将介绍 Spider 2.0 构造流程。

### Spider 2.0 基准构建
八位计算机科学出身的SQL的专家共同参与做数据注释。注释流程包括以下六个步骤:
1) **数据库和SQL收集。** 从云数据仓库(包括BigQuery公共数据、Snowflake市场数据和其他平台)收集各种数据库,以确保它们满足特定标准:每个数据库必须包含超过200列或具有嵌套模式结构。经过过滤后,选择了74个BigQuery、54个Snowflake、30个SQLite、40个DuckDB、10个PostgreSQL和5个ClickHouse数据库。从相应的教程和论坛中,收集了1,021个复杂SQL查询,以及157个来自Fivetran和DBT的数据转换项目。为了满足标准,SQL查询必须包含超过50个Token(按空格分词;作为参考,Bird的平均标记数为30.9)。此外,查询必须来自实际项目或教程,而不是合成示例或极端情况。最终,保留了547个高质量SQL查询和78个DBT项目。
2. **SQL重写以防止数据泄露。** 为了避免污染并确保Spider 2.0评估的可信度,注释者需要重写每个SQL并验证其无错误。重写分为两个层次的复杂性:表面层次和语义层次,如下表所示。84.2%的示例进行了表面层次的重写,而42%进行了语义层次的重写。注释者必须确保重写的SQL执行成功,在可接受的时间内完成,并返回非空结果。85.98%的这些SQL查询使用各种方言中的高级函数,而10.76%的SQL需要使用额外的DBT工具,这些SQL需要整合项目上下文才能书写。

3) **代码库和上下文设置。** 对于Spider 2.0-lite和Spider 2.0-snow中的每个复杂SQL查询,收集完成任务所需的外部参考文档。由于任务跨越多种数据库类型,收集了SQL方言和外部函数的文档。此外,对于Spider 2.0,保留了SQL相关项目的原始代码库。对于Spider 2.0,除了收集参考文档外,注释者还收集资源,如代码库、数据库接口,以建立每个任务的上下文。
4) **自然语言任务指令注释**。 注释者需要根据步骤3中收集的SQL和上下文编写问题,为不同设置编写两个版本。指令旨在平衡自然性和无歧义性。注释者手动编写指令,使其自然化,避免生硬的描述,消除预期结果中的歧义,并确保所有SQL条件都清晰提及。注释者根据提供的上下文编写任务指令。在初始注释后,验证SQL查询和指令之间的语义等价性,并通过LLMs的帮助进行改写以提高清晰度。
6) **质量控制**。 为了确保基准的质量,每个指令、标准SQL查询和评估脚本至少由三位注释者审查。要求注释者反复审查步骤3)、4),以确保注释的正确性、自然性和无歧义性。因此,45%的示例在第一次验证者中发现了错误。经过第二次验证者的第二轮迭代讨论和修正后,只有5%的示例包含错误。然后修正所有错误并完善所有注释,最终所有示例都被认为是完全注释的。
### 数据集统计
在下表中详细分析了Spider 2.0、Spider 2.0-snow和Spider 2.0-lite的特征,并将它们与其他多个数据集进行了比较。Spider 2.0 的数据集在数据库、SQL和任务场景方面表现出较强的复杂性和现实性。

多样化的数据库系统和SQL方言。 Spider 2.0的基准包含多种数据库系统,包括云数据仓库如BigQuery和Snowflake,本地托管的数据库如Postgres和ClickHouse,以及轻量级系统如SQLite和DuckDB。这种多样性使我们的基准与之前的工作区分开来,涵盖了各种SQL方言。值得注意的是,85.98%的示例需要使用这些方言中的专用函数,每个标准SQL平均使用7.1个特殊函数。

**真实且复杂的数据库模式。** Spider 2.0中的数据库配备了大规模模式,包含广泛的表和列,有效反映了真实世界的企业级环境。如下表所示,这些数据库具有复杂的模式结构(例如,多模式和嵌套模式,分区表),并且动态表每天更新。此外,数据涵盖了广泛的复杂类型、大量数据量和多样化的范围,使其比之前的基准更加多样化。

**数据工程管道中的挑战性任务。** 基准中的示例来自实际教程和论坛,涵盖了数据管道中遇到的各种问题,包括数据整理、数据转换和数据分析。这些问题的难度显著超过了之前的SQL相关基准,因为Spider 2.0中的SQL查询包含的列、Token和函数比先前的工作多得多
**包含代码库和文档的真实项目场景。** 数据集中的任务都需要专业访问文档,如外部知识和SQL方言,这需要模型对这些资源有深入的理解。对于Spider 2.0中的每个任务,论文提供了一个代码库上下文来模拟真实工作流。
### 实验结果
1. **实验设置**
- **评估指标**
- **成功率(SR)**:用于Spider 2.0,衡量模型成功完成任务实例的比例。例如,在一组100个任务中,模型成功完成了20个,那么成功率为20%。
- **执行准确率(EX)**:用于Spider 2.0 - lite和Spider 2.0 - snow,通过比较预测SQL查询的执行结果与真实结果来衡量模型生成SQL的准确性。例如,预测的SQL查询执行结果与真实结果完全一致的任务占总任务数的比例。
- **难度分类**
- 根据SQL查询的token数量将问题分为易(<80 tokens)、中(80 - 159 tokens)、难(≥160 tokens)三类。例如,一个简单的查询“SELECT * FROM table WHERE id = 1”可能被归为易类,而一个复杂的嵌套查询涉及多个表连接和条件判断可能被归为难类。
- **模型选择**
- 实验多种开源(如DeepseekCoder - V2.5、Qwen2.5 - 72B - Instruct、Llama - 3.1 - 405B等)和闭源(如Gemini - Pro - 1.5、Claude3.5 - Sonnet、GPT系列等)语言模型,以全面评估不同类型模型在基准上的表现。
- 采用多个代码代理框架(如Reflexion、CodeR、AutoEval、Spider - Agent等)和文本到SQL方法(如DIN - SQL、DAIL - SQL、CHESS、SFT CodeS等)进行实验,比较它们在处理企业级文本到SQL任务中的能力。
2. **实验过程**
- 对于Spider 2.0,模型在给定问题、数据库接口和代码库的情况下,迭代修改代码(SQL/Python),通过执行代码与数据库交互,直到获得最终结果(文本/表格/数据库),然后根据成功率指标评估模型性能。
- 对于Spider 2.0 - lite和Spider 2.0 - snow,模型根据给定的数据库模式、自然语言问题和辅助文档,生成SQL查询,通过执行SQL查询并根据执行准确率指标评估模型性能。在这个过程中,为了处理复杂数据类型,会提供采样单元格值;对于某些方法,还会进行参考计划、提供oracle函数等操作来辅助模型生成SQL查询。同时,由于评估时从大规模数据库检索值成本高,在处理BigQuery实例时不进行值链接(部分方法)。
3. **实验结果**


- 现有语言模型在真实世界文本到SQL工作流任务中表现不佳,如o1 - preview模型在Spider 2.0上的成功率最高仅为17.01%,远低于其在以往基准(如Spider 1.0上91.2%的执行准确率)上的表现,这表明即使是先进的语言模型在处理企业级复杂任务时仍有很大提升空间。
- 现有代码代理框架解决数据库相关编码任务能力有限,例如使用强大的GPT - 4o的CodeR框架在Spider 2.0上的成功率仅为7.91%,而在其他基准(如SWE - Bench)上表现较好,说明当前框架在处理企业级数据库任务时面临挑战,需要专门针对数据库任务进行改进。
- 当前基于语言模型的方法在处理企业级文本到SQL任务时能力有限,如在Spider 2.0 - lite和Spider 2.0 - snow中,表现最佳的DAIL - SQL + GPT - 4o方法的执行准确率分别仅为5.68%和2.20%,远低于其在Spider 1.0(86.6%)和BIRD(57.4%)数据集上的得分,反映出Spider 2.0基准的复杂性和挑战性。
### Spider 2.0 榜单
论文还提出了 Spider 2.0 榜单,所有对 Text-to-SQL 感兴趣的研究人员都可以在该榜单上提交自己的方法。

---
- 查看 Arxiv 原文链接请点击“**阅读原文**”
[https://arxiv.org/pdf/2411.07763]
- **更多**模型学习资料,请详见浙大 Daily 实验室 Github 仓库:**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:张超 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241108-20241114/UC Berkeley 和 CMU 出手!揭开大语言模型泛化的 “神秘面纱”.md
================================================
# What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?
**作者**:*Katie Kang, Amrith Setlur* 等
**单位**: *UC Berkeley, CMU* 等
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文研究的是**如何有效预测大语言模型在推理任务中的泛化能力并优化数据筛选**。现有方法在理解大语言模型微调过程中的学习动态与泛化关系上存在局限,所提出的各种泛化度量指标在LLM推理任务中与测试准确率相关性不强,在数据筛选方面也缺乏有效的度量标准。受对模型训练过程中逐步学习行为观察的启发,本文通过**定义预记忆训练准确率**来评估模型学习动态、并基于此**指导数据筛选策略**,有效预测模型泛化能力并提升数据筛选效率。
如下图所示,相同预训练模型在相同推理数据集上微调,仅因学习率不同,测试性能就有很大差异,传统基于记忆的解释无法完全说明 LLM 的泛化行为,而预记忆训练准确率则能够表现出与测试准确率较强的相关性,这说明了本方法的可行性,接下来我们具体介绍方法流程。

#### 分析模型学习动态
在分析模型的学习动态时,论文主要关注两个关键指标:(1)模型对训练查询的回答准确率,即衡量衡量模型生成的最终答案是否正确;(2)模型预测与目标推理步骤之间的距离(困惑度),衡量模型生成的推理步骤与目标推理步骤之间的相似性。
通过跟踪这两个指标在训练过程中的变化,可以全面评估模型的学习过程。具体来说,模型在训练初期可能会生成多样化的推理步骤,这些步骤可能与目标推理步骤不同,但最终答案是正确的。随着训练的进行,模型可能会逐渐“记忆”目标推理步骤,即生成的推理步骤与目标推理步骤高度一致。
##### 1. 分析学习动态与泛化能力的关联
首先,论文先定义了衡量记忆的指标,即困惑度。如果模型生成的推理步骤与目标推理步骤的困惑度低于某个阈值 \( p \),则认为模型已经记忆了该目标推理步骤。
$$
\text{Perp}(f_{\theta}(y|x_i), y_i) > p
$$
,其中$$ \text{Perp}(f_{\theta}(y|x_i), y_i) $$是模型预测 $$ f_{\theta}(y|x_i) $$与目标推理步骤 $$ y_i $$ 之间的困惑度。
有了记忆的定义,接下来我们分析训练过程中的不同学习动态。如下图所示,在训练过程中主要存在三类情况:
- **高准确率+高困惑度**(粉色A点):模型生成的推理步骤与目标推理步骤不同,但最终答案是正确的,表明模型在生成多样化的推理步骤时仍然能够正确解决问题。
- **低准确率+高困惑度**(黑色B点):模型生成的推理步骤与目标推理步骤不同,且最终答案是错误的,表明模型在生成多样化的推理步骤时未能正确解决问题。
- **高准确率+低困惑度**(黄色C点):模型生成的推理步骤与目标推理步骤高度一致,且最终答案是正确的,表明模型已经“记忆”了目标推理步骤。

下图进一步通过颜色编码展示了三个不同模型在训练过程中对训练查询的预测行为,在不同训练阶段主要有以下变化:
- **训练准确率的提高**:随着训练的进行,模型的训练准确率逐渐提高,表明模型在训练过程中逐步学会了如何正确解决问题。
- **困惑度的降低**:随着训练的进行,模型生成的推理步骤与目标推理步骤之间的困惑度逐渐降低,表明模型在训练过程中逐步“记忆”了目标推理步骤。
- **不同学习率设置的影响**:不同学习率设置的模型在训练过程中表现出不同的行为,表明学习率的选择对模型的学习动态有显著影响。
- **记忆与泛化的区别**:模型在训练过程中既有可能通过泛化(生成多样化的推理步骤)来解决问题,也有可能通过记忆(复制目标推理步骤)来解决问题。

##### 2. 定义预记忆准确率
为了量化模型在学习过程中是否真正掌握了问题的解决方法,而不是简单地“记忆”训练数据,论文引入了“预记忆准确率”(pre-memorization accuracy)这一指标。预记忆准确率定义为模型在完全记忆目标推理步骤之前,对训练查询的最高准确率。具体计算方法如下:
- **掩码准确率**:对于每个训练查询,如果模型在某个训练阶段已经记忆了目标推理步骤,则该阶段的准确率被掩码为0。
$$
\text{MaskedAcc}(f_{\theta}(y|x_i), y_i, p) = \text{Acc}(f_{\theta}(y|x_i), y_i) \cdot \mathbb{1}[\text{Perp}(f_{\theta}(y|x_i), y_i) > p]
$$
,其中$$ \text{Acc}(f_{\theta}(y|x_i), y_i) $$ 是模型预测的准确率,$$ \mathbb{1}[\cdot] $$ 是指示函数,当条件为真时取值为1,否则为0。
- **预记忆准确率**:对于每个训练查询,预记忆准确率为模型在记忆目标推理步骤之前达到的最高准确率。
$$
\text{PreMemAcc}(f_{\theta_{1:m}}(y|x_i), y_i, p) = \min\left\{\max_{1 \leq m' \leq m} \text{MaskedAcc}(f_{\theta_{m'}}(y|x_i), y_i, p), \text{Acc}(f_{\theta_m}(y|x_i), y_i)\right\}
$$
,其中$$ f_{\theta_{1:m}}(y|x_i) $$ 表示模型在训练过程中的不同阶段,$$ m $$ 表示当前训练阶段。通俗来讲,预记忆准确率衡量了模型在训练进程中,尚未陷入对目标推理步骤死记硬背的情况下,所能展现出的最佳能力。通过这种方式,我们可以更精准地洞察模型在正常学习过程中的真实水平,以便更好地理解模型的泛化能力来源。
#### 基于预记忆准确率筛选数据
基于所提出的泛化指标预记忆准确率,论文提出了一种数据筛选策略,以提高数据效率和模型在推理任务中的性能。具体步骤如下:
- 计算现有训练数据集内每个示例的预记忆训练准确率。设定一个合适的阈值,这个阈值可以根据模型在验证集上的性能表现或者对模型泛化能力的期望来动态调整。
- 优先选择预记忆训练准确率低于阈值的示例组成新的数据分布,以此为基础收集新的数据。在多次迭代的训练过程中,不断评估模型在测试集上的准确率,同时根据新的数据分布更新阈值,逐步优化数据筛选过程。
通过这种迭代的数据收集方法,可以使新收集的数据更具针对性,能够有效提高样本效率,减少不必要的数据收集,在推理任务中表现出优于独立同分布采样和其他标准数据筛选方法的性能。
### 实验结果
#### 预记忆训练准确率与测试准确率的关系

如上图所示,在不同的模型和不同的数据集中,预记忆训练准确率和测试准确率均呈现出很强的线性关系。

与其他用于预测泛化差距的指标对比实验中,论文对比了梯度方差、与初始化参数的距离、平均阈值置信度三个指标,结果显示预记忆训练准确率与测试准确率的相关性更强。
#### 预记忆训练准确率对模型预测稳健性的影响

上图中说明了原始训练提示(紫色)、原始提示加上 “First”(粉色)以及原始提示加上 “We know that”(蓝绿色)。一个稳健的模型即使在提示中的推理步骤发生变化时也能得出正确的最终答案,而一个不稳健的模型预测在提示偏离训练数据时会产生错误的最终答案。基于此进行了以下实验:

结果表明,对于预记忆训练准确率低的示例,当对输入提示施加微小扰动时,模型预测准确性会显著下降。这意味着模型对这些示例的学习较为脆弱,可能只是表面地记住了部分特征,而没有真正理解问题的本质和解决方法,而对于预记忆训练准确率高的示例,模型在面对输入扰动时仍能保持较高性能。这为针对性地改进模型训练提供了方向。
#### 基于预记忆训练准确率的数据筛选效果

相较于独立同分布采样和其他标准数据筛选方法,样本效率大幅提高。而随着数据集规模的增大,这种性能差距更加明显,进一步证明了基于预记忆训练准确率的数据筛选方法在提升模型训练效果方面的潜力。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/pdf/2411.07681]
- **更多**大模型学习资料,请详见浙大 Daily 实验室 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241115-20241121/LPO:“智能控温”,自适应调整 LLM 解码温度.md
================================================
# Adaptive Decoding via Latent Preference Optimization
**作者**:*Shehzaad Dhuliawala, Ilia Kulikov 等*
**单位**:*Meta AI*

本文研究的是**在语言模型解码过程中动态选择采样温度以优化性能**。现有的语言模型在解码时通常使用固定的温度参数,这可能导致在需要创造性和事实准确性的任务中表现不佳。为了解决这一问题,本文提出了一种新的方法 —— **Adaptive Decoding**,通过在模型中添加一个可学习的层来动态选择解码温度。
Adaptive Decoding 的核心思想是**在推理时动态调整采样温度**,以优化模型在不同任务中的表现。具体来说,本文引入了一个名为 **AdaptiveDecoder** 的模块,该模块可以根据上下文动态选择最优的温度值。为了训练这个模块,本文提出了一种新的训练方法 —— **Latent Preference Optimization (LPO)**,用于优化离散的潜在变量(如温度选择)。
### 1. AdaptiveDecoder 模块
AdaptiveDecoder 模块是一个小型的神经网络,可以附加在现有的语言模型上,文中使用的是一个三层的MLP 。它接收最后一层的隐状态作为输入,并输出一个概率分布,用于选择不同的温度值。具体来说,AdaptiveDecoder 模块可以通过以下方式生成下一个 token:
- **序列级 AdaptiveDecoder**:为整个响应预测一个单一的温度值。
$$
\tau\sim\mathrm{AdaptiveDecoder}(h_T)\\y_{t+1}\sim\mathrm{Softmax}(Wh_t/\tau)\quad\mathrm{for}\quad T\leq t<T^{\prime}
$$
- **Token 级 AdaptiveDecoder**:为每个生成的 token 预测一个新的温度值。
$$
\tau_t\sim\mathrm{AdaptiveDecoder}(h_t)\\y_{t+1}\sim\mathrm{Softmax}(Wh_t/\tau_t)\quad\mathrm{for}\quad T\leq t<T^{\prime}
$$
其中, $\boldsymbol{y}^c$ 为选中的响应, $\boldsymbol{y}^r$ 为拒绝的响应, $\boldsymbol{\tau}^c$ 为选中的温度, $\boldsymbol{\tau}^r$ 为拒绝的温度, $P(\cdot)$ 为概率分布, $P_{\text{ref}}(\cdot)$ 为参考模型的概率分布, $\beta$ 为超参数,控制 KL 散度项, $\sigma$ 为 sigmoid 函数。

### 2. Latent Preference Optimization (LPO)
为了训练 AdaptiveDecoder 模块,本文提出了一种新的偏好优化方法 —— LPO。LPO 通过生成多个响应并对其进行评分(使用**奖励模型**或者通过**结果正确性**进行评分),构建选中和拒绝的偏好对,然后从不同角度构建 DPO 损失来学习 AdaptiveDecoder 模块的最优参数。LPO 损失的具体形式如下:
- **温度作为 Token**:将温度选择视为另一种 token,直接应用 DPO 损失。包含文本 Token 损失项和温度损失项。
$$
\mathcal{L}_{\mathrm{LPO}}=-\log\sigma\left[\beta\log\frac{P(\boldsymbol{y}^{c})}{P_{\mathrm{ref}}(\boldsymbol{y}^{c})}-\beta\log\frac{P(\boldsymbol{y}^{r})}{P_{\mathrm{ref}}(\boldsymbol{y}^{r})}+\beta\log P(\boldsymbol{\tau}^{c})-\beta\log P(\boldsymbol{\tau}^{r})\right]
$$
其中,$\boldsymbol{y}^c$ 为选中的响应,$\boldsymbol{y}^r$ 为拒绝的响应,$\boldsymbol{\tau}^c$ 为选中的温度,$\boldsymbol{\tau}^r$ 为拒绝的温度
- **温度作为 Token(分离)**:将温度选择视为 token,但仅关注 AdaptiveDecoder 模块的输出,只有温度损失项。
$$
\mathcal{L}_{\text{LPO}} = -\log \sigma \left[ \beta \log P(\boldsymbol{\tau}^c) - \beta \log P(\boldsymbol{\tau}^r) \right]
$$
- **温度作为潜在变量**:将温度选择视为模型的内部变量,通过边际化温度变量来优化 token 概率。生成数据中使用的实际温度 $\boldsymbol{\tau}^c$ 和 $\boldsymbol{\tau}^r$ 在这里无关,因此减少了训练过程中采样温度引起的噪声。
$$
\mathcal{L}_{\text{LPO}} = -\log \sigma \left[ \beta \sum_t \log \frac{\sum_{\tau} P(y^c_t | \tau) P(\tau)}{\sum_{\tau} P_{\text{ref}}(y^c_t | \tau) P_{\text{ref}}(\tau)} - \beta \sum_t \log \frac{\sum_{\tau} P(y^r_t | \tau) P(\tau)}{\sum_{\tau} P_{\text{ref}}(y^r_t | \tau) P_{\text{ref}}(\tau)} \right]
$$

### 3. 实验
1. **减少 N-gram 重复**: $AdaptiveDecoder_{tok}$ 能学习选择更高温度避免重复,有效减少 42% 的重复率。

2. **UltraMathStories 任务**:包含数学、创意写作和一般指令等子任务, $AdaptiveDecoder$ 在该任务上**优于实验中所有固定温度解码**,能根据不同子任务选择合适温度,在该任务上 $AdaptiveDecoder_{seq}$ 表现更好。

3. **受限创意写作**: $AdaptiveDecoder_{tok}$ 可**在单个响应的不同 Token 处动态调整温度**,满足约束的同时,提高故事质量。

4. **多数投票**: $AdaptiveDecoder_{tok}$ 能学习**为推理链的不同部分分配合适温度**,在单响应和多数投票设置中表现更好。

综上所述,Adaptive Decoding 通过**动态调整采样温度,实现了对大型语言模型在不同任务中的细粒度优化**。这种方法提高了模型在各种任务中的表现,为语言模型解码策略的研究提供了新的思路。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2411.09661]
- **更多**大模型学习资料,详见浙江大学LLMs GitHub仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241115-20241121/XiYan-SQL:突破性Text-to-SQL框架,准确率遥遥领先!.md
================================================
# XiYan-SQL: A Multi-Generator Ensemble Framework For Text-to-SQL
**作者**:*Yingqi Gao, Yifu Liu等*
**单位**:*Alibaba Group等*
下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

自然语言到SQL(NL2SQL)的技术,即将自然语言查询转换为结构化查询语言(SQL)的能力,是数据库访问方面的重大进步。它极大地促进了非专家和高级用户从大量数据存储中进行数据洞察。然而,尽管大型语言模型(LLM)的进步显著提高了NL2SQL应用的效力和准确性,但现有的解决方案仍面临一些挑战。基于LLM的NL2SQL解决方案通常采用提示词工程(prompt engineering)和有监督的微调(SFT)两种方法。提示词工程利用模型的内在能力,通过优化提示词来生成多样化的SQL查询,但这种方法依赖于多路径生成和self-consistency,带来了巨大的推理开销。基于SFT的方法试图在NL2SQL任务上微调参数规模较小的模型,以生成更可控的SQL查询,但由于其参数量有限,这些方法在复杂的NL2SQL推理和跨领域数据库的迁移方面表现不佳。
为了应对这些挑战,本文提出了XiYan-SQL,这是一个全新的框架,采用多生成器集成的策略来提高候选SQL的质量。本文的动机在于结合提示词工程和SFT方法的优势,生成高质量和多样化的候选SQL查询。具体来说,本文希望通过以下几个方面来提升NL2SQL的性能:
1. **增强模型对数据库结构的理解能力**:提出M-Schema,一种半结构化的数据库schema表示方法,旨在增强模型对于数据库结构的理解能力。
2. **提高生成的候选SQL查询的质量和多样性**:结合ICL方法的巨大潜力和SFT方法的高可控性,提出一系列训练策略,以微调模型生成高质量且具有不同偏好的候选。
3. **优化生成的SQL查询**:通过Refiner纠正逻辑或语法错误来进一步优化每个候选。
4. **识别最佳候选**:微调一个选择模型,用来区分候选SQL查询之间的细微差别,从而选择最终的SQL。
### 方法详细介绍
本文提出的XiYan-SQL框架由三个主要组件组成:Schema Linking、Candidate Generation和Candidate Selection。每个组件都有其独特的方法和策略,以确保生成的SQL查询既高质量又多样化。

#### 1. Schema Linking
Schema Linking的目的是将自然语言查询关联到数据库中的元素,包括表、列和值。这一过程由两个主要模块组成:检索模块和列选择器。
- **检索模块**:
- **关键词和实体识别**:首先通过few-shot的方法提示LLM来识别用户问题中的关键词以及实体。
- **列检索器**:基于关键词和列描述之间的语义相似性排序,每个关键词检索出Top-K的列。
- **值检索器**:采用基于局部敏感哈希(LSH)和语义相似性的两阶段检索策略,以识别数据库中的相似值。
- **列选择器**:
- **组织和评估**:从前一步骤中检索到的schema被组织为M-Schema的样式提供给LLM,然后采用few-shot的方式来提示LLM评估每个列与用户查询之间的相关性。
- **选择必要列**:仅选择必要的列供生成器使用,以最小化SQL生成所需的表和列。

#### 2. Candidate Generation
Candidate Generation采用多生成器来生成高质量和多样化的候选SQL。这一过程分为两个主要部分:微调SQL生成器和ICL SQL生成器。
- **微调SQL生成器**:
- **两阶段多任务训练**:
- **基本语法训练**:使用基础和较为单一的SQL模式和语法微调预训练模型,训练目标是开发一个基础模型,激活SQL生成能力,并可以过渡到不同的SQL任务。
- **生成增强训练**:在第一阶段训练之后,结合各种多任务数据和语法偏好数据来获得增强模型。具体任务包括将问题转换为SQL查询、将SQL转换为问题、从SQL到参考信息(evidence)的任务、SQL判别和再生成任务等。
- **多样化的语法风格**:利用不同的LLM以多种方式改写原始查询,从而在训练阶段指导模型学习这些数据形式。
- **ICL SQL生成器**:
- **骨架相似性选择示例**:使用NLTK工具识别问题中的所有命名实体,并将相同类型的命名实体替换为统一的特殊标记。根据修改后的问题计算embedding,并选择与目标问题最相似的前K个训练集样本。
- **示例选择策略**:对于涉及多个表操作的问题,仅选择涉及多个表操作的SQL查询作为示例。每个问题在生成SQL时最多使用5个示例。
- **SQL Refiner**:
- **优化生成的SQL**:基于与schema相关的上下文、生成的SQL查询和执行结果(包括潜在错误信息),使模型能够进行第二轮纠正生成。原始SQL和再生成的SQL可以通过选择模型进行最优选择,此过程可以迭代执行。
#### 3. Candidate Selection
Candidate Selection的目的是从候选池中选择正确和合理的SQL查询。这一过程通过计算SQL执行结果的一致性并对其进行分组,利用选择模型根据提供的上下文信息和候选集选择最合理的候选。
- **选择模型**:
- **微调选择模型**:专门微调一个模型作为SQL选择器,来更好地区分候选SQL查询的细微差别。
- **训练数据增广**:对选择模型的训练数据进行了特定增广,以与候选SQL的不同语法风格偏好保持一致。
### 实验与评估
文章的实验部分旨在全面评估XiYan - SQL框架在不同数据库和数据集上的性能表现,通过与多种方法对比以及消融实验,验证其有效性和各组件的作用。
1. **实验设置**
- **数据集**:使用了Spider、Bird、SQL - Eval和NL2GQL四个数据集,涵盖关系型和非关系型数据库,具体信息如下:
- **Spider**:包含1981个问题,使用SQLite,涉及39个数据库,是广泛认可的跨域数据集。
- **Bird**:有1534个问题,基于SQLite,包含11个数据库,由于测试集不可用,在开发集上进行实验。
- **SQL - Eval**:为开源PostgreSQL评估数据集,包含304个问题和11个数据库,由Defog发布,基于Spider构建。
- **NL2GQL**:基于图数据库,包含288个问题和3个数据库,用于评估XiYan - SQL在非关系型数据集上的有效性。
- **评估指标**:采用执行准确率(Execution Accuracy,EX)来评估生成SQL查询的有效性,通过比较预测SQL查询和参考SQL查询在特定数据库实例上的执行结果进行计算。
2. **实验结果**
- **Bird开发基准结果**:XiYan - SQL在Bird开发基准上达到72.23%的准确率,高于GPT - 4o的57.95%。与其他先进方法相比,CHASE - SQL框架采用多链思维提示技术和二进制投票机制,准确率为73.14%,XiYan - SQL通过在5个候选中投票获得了有竞争力的性能。同时,基于SFT的方法ExSL + Granite - 34B - Code以72.43%的准确率位居第二,表明小模型通过先进训练技术也能有效生成复杂SQL查询,XiYan - SQL结合了SFT和ICL方法平衡了测试时间和系统整体性能。

- **Spider数据集结果**:在Spider数据集上,GPT - 4o准确率为83.54%,XiYan - SQL刷新了当前最优执行准确率,达到89.65%,相比之前领先模型仅有0.05%的边际优势,表明底层骨干模型能力的提升对性能有显著贡献。

- **SQL - Eval数据集结果**:SQL - Eval提供多个参考SQL查询,XiYan - SQL选择第一个作为计算指标的真实值,在该数据集上获得了69.86%的最高得分,大幅领先于SQL - Coder - 8B(60.20%),比闭源骨干模型高出2 - 5个百分点,体现了XiYan - SQL在PostgreSQL上SQL生成的通用性。

- **NL2GQL数据集结果**:在评估XiYan - SQL在非关系型图数据集有效性的实验中,从NL2GQL数据集中抽取288个示例,XiYan - SQL实现了41.20%的执行准确率,远超GPT - 4o(4.86%)、DeepSeek(18.06%)、Gemini 1.5 Pro(6.60%)和Claude 3.5 Sonnet(3.12%),表现出最佳性能。

3. **消融实验**
- **M - Schema**:在Bird开发基准上进行消融实验,使用DeepSeek、Claude 3.5 Sonnet、Gemini 1.5 Pro和GPT - 4o四个强大的LLM作为NL2SQL生成器,比较不同模式表示对端到端SQL生成性能的影响。结果显示,与DDL Schema相比,使用M - Schema作为数据库模式表示时,所有四个模型的性能均有提升,平均提高2.03%。尽管M - Schema与MAC - SQL Schema结构相似,但GPT - 4o和Claude 3.5 Sonnet分别有0.65%和0.78%的性能提升,而DeepSeek和Gemini 1.5 Pro有轻微的准确率下降(分别为0.13%和0.26%),表明M - Schema是比DDL Schema和MAC - SQL Schema更好的表示方法,具有强大的通用性。

- **Schema Linking**:通过消融实验评估模式链接的有效性,利用召回率和精确率指标评估基于校正SQL查询(作为真实值)选择列的正确性,使用GPT - 4o作为NL2SQL生成器分析模式链接对端到端EX指标的影响。实验结果表明,不使用模式链接时,精确率为10.14%,执行准确率为57.95%;采用报告中的模式链接方法后,精确率达到74.74%,召回率略有下降,执行准确率提高了2.15%,证明了模式链接的有效性。

- **Candidate Generation和Selection**:对XiYan - SQL进行了多种消融实验,以评估候选生成和选择的有效性及影响。具体如下:

- 去除微调生成器后,XiYan - SQL性能显著下降,表明微调生成器能生成高质量和多样的候选SQL查询。
- 移除ICL生成器和优化器也导致性能下降。
- 在候选选择方面,不使用选择模型而仅依赖自一致性进行候选选择时,XiYan - SQL性能降低约三个百分点,突出了选择模型的有效性。
- 当SQL候选数量增加到五个时,XiYan - SQL的准确率进一步提高到72.23%。
---
- 查看 Arxiv 原文链接请点击“**阅读原文**”
[https://arxiv.org/abs/2411.08599]
- **更多**模型学习资料,请详见浙大 Daily 实验室 Github 仓库:**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:张超 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241115-20241121/一键自动化:Claude 3.5与GUI Agent的破晓时刻.md
================================================
# **The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use**
**作者**:*Siyuan Hu, Mingyu Ouyang, Difei Gao*等
**单位**:*Show Lab, National University of Singapore*
## 研究框图
下图给出此文的的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

## 方法详解
本文**提出了一种API基础的GUI自动化模型部署框架,用以探索Claude 3.5 Computer Use模型在GUI自动化任务中的性能。**在自动化桌面任务的过程中,LLMs需要理解GUI状态并生成相应的动作,但现有模型在实际复杂环境中的性能尚不明确。为了解决这一问题,本文对首个基于API的GUI自动化模型——**Claude 3.5 Computer Use** 进行了案例分析,并提出了一个易于部署的框架:**Computer Use Out-of-the-Box**。
####Claude 3.5 Computer Use 模型
Claude 3.5 Computer Use是Anthropic公司发布的第一个GUI Agent,它通过API调用提供端到端的解决方案,直接从用户指令和观察到的纯视觉GUI状态生成动作,无需额外的外部知识或调用软件接口。模型主要包括以下部分:
1. **系统提示(System Prompt)**:定义了Claude 3.5 Computer Use与计算环境交互的规则,包括可调用的函数和参数。
2. **状态观察(State Observation)**:模型仅通过实时屏幕截图的视觉信息观察环境,不依赖于元数据或HTML。
3. **推理范式(Reasoning Paradigm)**:模型采用观察-行动范式,在决定行动前先观察环境,确保行动适合当前GUI状态。
4. **工具使用(Tool Use)**:模型使用三种Anthropic定义的工具:计算机工具、文本编辑工具和Bash工具,以执行鼠标和键盘操作、文件编辑和bash命令。
5. **GUI动作空间(GUI Action Space)**:包括所有原始的鼠标和键盘动作,如鼠标移动、点击、拖拽、打字和快捷键组合等。
6. **历史视觉上下文维护(History Visual Context Maintenance)**:模型保留历史屏幕截图的广泛上下文,以协助动作生成过程。
#### 案例分析
本文进行了全面的案例分析,以研究Claude 3.5 Computer Use模型在桌面任务自动化上的使用,涵盖了网络搜索、专业软件和游戏等领域,旨在反映各种用户群体的需求。
例如,下面是Claude 3.5 Computer Use依照用户指令完成《崩坏·星穷铁道》每日任务的案例。在该案例中,Claude根据用户需求和实时状态进行规划与反思,通过移动和点击鼠标,完成游戏中的任务选择和执行。

Claude同样可以熟悉Office办公软件的使用。下面是一个在Excel中替换内容的任务,Claude模型通过键盘操作和字符键入,确定并执行内容的替换。

评估主要从以下三个维度进行:
1. **规划(Planning)**:用于评估模型从用户查询中生成可执行计划的能力。计划应具有正确的流程,确保软件操作的整体成功,每一步都清晰且可执行。
2. **行动(Action)**:评估模型是否能够准确识别可交互的GUI元素。根据推导出的计划,评估模型是否能够逐步执行动作。
3. **批评(Critic)**:衡量模型对变化环境的意识,包括其对行动结果的适应能力。评估模型在任务不成功时是否能够重试,或在任务完成时是否能够终止执行。
通过对于多样化案例的分析,本文进行了错误分析,包括规划错误(PE)、行动错误(AE)和批评错误(CE)。规划错误发生在模型误解任务指令或计算机状态时,导致生成错误的计划。行动错误是指模型在有正确计划的情况下未能准确执行动作,通常与界面理解或精确控制能力不足有关。批评错误则是模型错误评估自己的动作或计算机状态,提供错误的任务完成反馈。
本文提出,未来GUI Agent的发展需要更动态和互动的基准测试环境,以反映现实世界的复杂性,包括考虑软件版本差异和屏幕分辨率多样性。模型的自我评估机制需要改进,以减少对任务完成情况的错误判断,可能通过引入严格的内置批评模块来实现。此外,当前模型在模仿人类使用计算机的细微差别方面仍有不足,这主要是由于训练数据的限制。
本研究通过提供即插即用的框架Computer Use Out-of-the-Box,旨在提高模型在现实世界场景中的部署和测试的可访问性,为GUI Agent研究的进步提供基础,推动向更复杂和可靠的自动化计算机使用模型发展。
---
- 查看 Arxiv 原文请点击"**阅读原文**" [https://arxiv.org/abs/2411.10323]
- **更多**文章请详见 Github 仓库:
**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:宓禹,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241206-20241212/Coconut 从语言脑到推理脑,大模型连续潜在空间推理.md
================================================
# Training Large Language Models to Reason in a Continuous Latent Space
*Shibo Hao, Sainbayar Sukhbaatar* 等
*Meta, UC San Diego 等*
本文提出了一种新的推理框架Coconut(Chain of Continuous Thought),旨在通过让大语言模型(LLM)在连续潜在空间中进行推理,突破传统语言空间的限制。与链式思维(CoT)不同,Coconut利用LLM的最后一个隐状态作为推理状态(称为“连续思维”),并将其作为后续输入,而不是将其解码为文本标记。通过这一创新方法,Coconut能够执行更灵活、更高效的推理过程,尤其在需要规划和回溯的任务中表现更为优越。
### 研究内容
研究新的大语言模型推理范式 “连续思维链”(Coconut),旨在让模型在连续潜在空间中进行推理,而非仅限于自然语言空间。
### 研究动机
传统的显式推理如CoT要求LLM在语言空间中逐步生成推理过程。然而,脑科学研究表明,人类在进行推理时,大脑的语言网络并非总是活跃,这意味着语言可能并非最优的推理媒介。此外,CoT为每个生成的token分配相同的计算资源,但实际上,不同token所需的推理复杂度各不相同。
### 技术动机
在CoT中,大部分token仅用于保持文本流畅,对实际推理贡献有限,而某些关键token则需要复杂的规划,给LLM带来巨大挑战。因此,可以让**LLM在不受语言限制的潜在空间中进行推理,仅在必要时将结果转化为语言**。
### 解决方案
1. **模型架构**:连续思维链(Coconut)将LLM的**最后一个隐藏状态**视为“连续思维”的表示,直接将其作为下一个输入的嵌入,而不是解码为token。这样,模型可以在潜在空间中进行推理,而无需生成中间的语言表达。

2. **训练过程**:
Coconut 采用多阶段渐进式训练策略,逐渐使用连续思维替换原始语言推理步骤,并使用<bot>和<eot>包裹连续思维。
- **初始阶段**:模型使用传统的链式思维(CoT)生成语言推理链。
- **后续阶段**:逐步增加潜在推理步骤,减少语言推理步骤。每个阶段用连续思维替代语言推理,通过隐状态指导推理。
- **训练目标**:优化负对数似然损失,并对**输入问题和连续思维**进行掩码。

3. **推理过程**:Coconut推理和标准的语言模型解码过程类似。不同之处在于,在潜在模式下,模型直接将最后的隐状态作为输入嵌入进行推理。LLM根据设定的标记(如\<bot\>和\<eot\>)在语言模式和连续推理模式之间切换。
### 实验结果
实验表明,Coconut在多个推理任务中有效增强了LLM的性能。在需要大量回溯规划的逻辑推理任务中,Coconut比CoT表现更优,且在推理过程中生成的token更少。

综上,Coconut 引入一种新的LLM推理范式—潜在空间推理,突破了传统语言空间推理的局限性。多阶段训练策略和潜在思维的端到端优化,使得Coconut在处理复杂推理任务时,能够更灵活地进行推理,并在效率和准确性上超越了传统的链式思维(CoT)方法。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.06769]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:葛宇航,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241206-20241212/RARE 登场:大模型推理的 “智慧导航仪”,精准穿越知识迷宫.md
================================================
# RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models
_Hieu Tran, Zonghai Yao 等_
_University of Massachusetts Amherst, University of Massachusetts Medical School, University of Massachusetts Lowell, VA Bedford Health Care 等_
本文研究的是**如何利用检索增强提升大语言模型在复杂知识密集型问答任务中的推理准确性与事实可靠性**。现有大语言模型在处理如医学问答和常识问答等复杂任务时面临诸多挑战,推理路径单一且缺乏有效的事实性评估机制,难以充分利用外部知识资源,导致在与顶尖模型竞争以及满足任务高要求方面存在不足。受蒙特卡洛树搜索(MCTS)在复杂决策优势以及检索增强技术有效性的启发,本文提出了 **RARE(Retrieval-Augmented Reasoning Enhancement)框架**,通过**设计检索增强行动和检索增强事实性评分器**,有效整合外部知识并精准评估推理结果,从而显著提升模型在相关任务中的性能表现。
## 研究内容
提升大语言模型在复杂知识密集型中的推理准确性与事实可靠性。
## 研究动机
现有大语言模型在复杂知识密集型问答任务中存在局限,复杂问答任务(如医学和常识问答)需要多步推理、专业知识以及准确的事实依据,但当前大语言模型在处理这些任务时推理路径较为单一,对外部知识的利用不够充分,且缺乏有效的事实性评估机制。
## 技术动机
基于rStar自博弈互推理技术(自生成推理轨迹和推理轨迹选择),借助蒙特卡洛树搜索(MCTS)与检索增强提升模型性能,在 MCTS 框架内设计新的检索增强行动,以便在推理时能有效整合外部知识资源,同时利用检索增强事实性评分器对推理路径的事实性进行准确评估,提升模型整体性能。
## 解决方案

1. **检索增强生成器**:基于 MCTS 的 rStar 自生成器的五个动作,包括:
- A1:提出一步思考:基于先前步骤生成下一步推理,使语言模型逐步构建解决方案。
- A2:提出剩余思考步骤:对于较简单问题,语言模型一次性产生所有剩余推理步骤,类似于思维链。
- A3:生成下一个子问题并回答:将主问题分解为一系列子问题,依次解决每个子问题。
- A4:重新回答子问题:允许语言模型重新回答之前生成的子问题,通过少样本提示提高准确性。
- A5:重新表述问题 / 子问题:重新表述问题以澄清条件,减少误解,增强模型对问题的理解。
引入两个新的检索增强动作,将其转变为检索增强生成器,包括:
- A6 :搜索查询生成和信息检索:依据初始问题生成搜索查询并检索相关文档。
- A7:子问题检索与重新回答:针对子问题检索特定信息并重新作答以优化中间推理步骤。
最后借助 MCTS 选取最优行动路径生成候选推理轨迹。
<div style="display: flex;">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img17@main/2024/12/12/1734002307970-b0105663-e9e5-473b-b165-6e94d9b268d4.png" alt="Image 1" style="width: 53%;">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img2@main/2024/12/12/1734002345348-5b18f2af-d9b3-421c-b7cb-1a0cc0f029c0.png" alt="Image 2" style="width: 47%;">
</div>
2. **检索增强事实性评分器(RAFS)**:将推理轨迹拆分为陈述(statement),针对陈述生成检索查询并检索信息,依据检索到的信息对陈述进行事实性评估(支持或不支持),计算推理路径的事实性得分,选取最高分的路径作为最终答案。

## 实验结果
在 MedQA、MedMCQA 和 MMLU-Medical 等医学推理基准测试以及 StrategyQA、CommonsenseQA 等常识推理基准测试中,RARE 在不同模型规模(如 LLaMA3.2 3B、LLaMA3.1 8B 和 LLaMA3.1 70B)上均显著超越基线方法,且随着模型规模增大性能提升更显著,LLaMA3.1 70B 在部分任务上超越 GPT-4。
<div style="display: flex;">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img14@main/2024/12/12/1733994209110-babcf460-4ef5-413f-b07b-db2a9b60efcb.png" alt="Image 1" style="width: 50%;">
<img src="https://fastly.jsdelivr.net/gh/bucketio/img9@main/2024/12/12/1733994253450-48645b91-b4b6-42f7-ae83-9c722ab5de48.png" alt="Image 2" style="width: 50%;">
</div>
综上,该研究通过引入检索增强行动和事实性评分机制,显著提升了大语言模型在复杂推理任务中的性能与可靠性,为知识密集型推理任务提供了高效解决方案。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.02830]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241206-20241212/VisionZip压缩视觉token,提升视觉模型推理效率.md
================================================
# VisionZip: Longer is Better but Not Necessary in Vision Language Models
_Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia_
_CUHK HKUST HITSZ_
现有的视觉大模型如LLaVA,依赖大量的视觉 token从图像中提取信息。然而,随着视觉 token 数量的增加,模型的性能并不是线性提升,反而有可能导致冗余和效率低下的问题。因此本文提出了 **VisionZip** 方法。该方法是一种简单有效的视觉token压缩方法,通过选择高信息量的视觉token并减少冗余,提高视觉语言模型的推理效率,在不显著牺牲性能的情况下显著降低计算成本。
## 研究内容
本文研究如何压缩视觉token以减少冗余,实现视觉语言模型的效率提升,同时保持模型性能。
## 研究动机
现有视觉语言模型中视觉token的数量远超文本令牌,存在大量冗余,导致计算成本高,限制了其在实际应用中的发展。
## 技术动机
观察到视觉编码器生成的视觉token中仅有少部分包含高信息量,大部分token关注度低且贡献有限,因此需要通过选择和融合高信息量token来提高模型效率。
## 解决方案

**重要token选择**
分析视觉编码器生成的视觉token,基于注意力权重计算每个token的重要性。通过以下公式计算注意力分数:
$$
S_h = \text{Softmax} \left( \frac{Q_h K_h^\top}{\sqrt{D_h}} \right)
$$
其中,$Q_h$ 和 $K_h$ 分别是查询和键向量,$D_h$ 是注意力头的维度。综合所有头的注意力分数:
$$
S_{\text{avg}} = \frac{1}{H} \sum_{h=1}^H S_h
$$
**剩余token合并**
对剩余token进行相似性计算,使用点积公式评估token间的语义相似性,将相似的token合并,通过加权平均生成上下文token:
**调优**
采用少量数据对跨模态投影器进行微调,冻结其他模型组件,以适应压缩后的视觉token。
## 实验结果

在实验过程中,VisionZip 被广泛应用于诸多基准测试,比如 LLaVA 和 Video-LLaVA 等。实验得出的结果表明,运用 VisionZip 的模型在多项任务中都有优异表现。具体来说,在 LLaVA-1.5 模型中,即使仅使用 64 个视觉 token,VisionZip 也能取得与使用 576 个 token 相近的性能。而且,VisionZip 还明显提升了推理速度,预填充时间大幅缩短,达到原来的八分之一,充分展现出其在实际应用中的巨大潜力。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.04467]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:徐文溢,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241206-20241212/迈向高效智能:大语言模型的能力密度增长与密度定律.md
================================================
- # Densing Law of LLMs
Chaojun Xiao , Jie Cai, Maosong Sun等
_Tsinghua University ModelBest Inc.等_
本文引入了“**能力密度(capability density)**”的概念,用于评估LLM的训练质量,同时考虑LLM在性能和效率的发展趋势。通过对近期开源LLM的进一步分析揭示了一条经验定律,即“**密度增长定律(Densing Law)**”:LLM的能力密度随着时间呈指数增长,能力密度大约每**三个月翻一倍**。
## 研究内容
LLM训练质量评估,指综合考虑LLM在性能和效率上的表现。
## 研究动机
Scaling law 揭示LLM性能会随着模型规模的增加而提升。然而,这种扩展带来了巨大的训练和推理效率挑战,变得越来越难以维持。在扩大LLM规模以提高性能与缩小LLM规模以提升效率这两条看似矛盾的路径之间,能否定量评估不同规模LLM的训练质量?
## 技术动机
能提升模型下游任务性能的是模型的有效参数,能够获知模型有效参数规模可以更准确地衡量模型训练质量。
## 解决方案
引入能力密度概念,该密度定义为**有效参数规模与实际参数规模的比值**。
1. 对于给定模型 $M$,其实际参数规模为 $N_M$,假设其在下游任务上的性能得分为 $S_M$。了计算有效参数规模,本文训练了一系列具有不同参数规模和训练数据规模的参考模型,并基于这些模型拟合参数规模与下游任务性能之间的函数:$S = f(N)$,其中 $S$ 表示下游性能,$N$ 表示参考模型的参数规模。
2. 在拟合并得到$f$后,利用反函数计算有效参数规模:$\hat{N}(S) = f^{-1}(S)$
3. 模型 $M$ 的能力密度定义为:$\rho(M) = \frac{\hat{N}(S_M)}{N_M} = \frac{f^{-1}(S_M)}{N_M}$
## 实验结果
##### 关键发现:LLMs的最大能力密度约每 **3.3个月** 翻一倍,换句话说,每隔约三个月,仅使用一半参数规模的模型即可实现当前最先进LLMs的性能。

基于上述发现,本文有以下推论:
1. **推理成本呈指数下降**, 对于性能相当的LLM,其推理成本正在呈指数下降。
1. **密度定律 × 摩尔定律**,在相同芯片面积上运行的LLM有效参数规模呈指数增长。
1. **ChatGPT发布后密度增长加速,** ChatGPT发布后,LLM能力密度的增长率提高了50%。
1. **高效压缩 ≠ 密度提升**, 剪枝和蒸馏方法缩小模型参数的同时,也缩小了模型的能力密度。
1. **迈向密度最优训练——绿色扩展定律**, 单纯通过增加模型参数以追求性能提升可能导致模型密度下降,并造成不必要的能源消耗,模型开发者需要从单纯优化性能转向优化模型密度。
综上,本文提出利用能力密度评估模型训练质量,并基于此方法发现大模型的**密度定律**,**模型能力密度随时间呈指数级增长**,大约每三个月翻一倍。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2410.10630v1]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/Meta 提出大概念模型(LCM),突破词级限制的多语言多模态大语言模型.md
================================================
# Large Concept Models: Language Modeling in a Sentence Representation Space
*LCM Team,Loïc Barrault,Paul-Ambroise Duquenne 等*
*FAIR at Meta*
本文提出了一种名为“大概念模型(Large Concept Model, LCM)”的新型架构,通过在概念嵌入空间(而非传统的词级别)上进行推理和生成,从多语言和多模态的抽象层次改进当前大语言模型(LLMs)。LCM利用SONAR句子嵌入空间,在句子级别进行生成和推理。研究表明,该模型在生成任务(如总结和扩展任务)上展现了卓越的零样本泛化能力,并在多语言支持上超越了同等规模的现有LLMs。
## 研究内容
研究一种在概念嵌入空间中进行推理和生成的高效架构。
## 研究动机
现有大语言模型(LLMs)主要基于词级别操作,缺乏多层次抽象推理能力,无法实现人类般的高层次规划和推理。此外,这些模型多为英语中心化设计,对多语言支持不足,处理长上下文的效率也受限。
## 技术动机
通过在语言和模态无关的概念嵌入空间中进行操作,可以摆脱单词级别的限制,直接建模高层次语义推理过程,从而实现更好的长文本一致性和多语言零样本泛化性能。
## 解决方案
1. 总体架构设计
LCM 使用 SONAR 嵌入空间(支持 200 种语言和多模态数据)对输入进行编码,每个句子对应一个概念嵌入。整个模型包括以下三个主要步骤:
- **输入编码**:将输入文本或语音分割为句子,并使用固定的 SONAR 编码器将句子转化为概念嵌入。
- **嵌入推理**:通过 LCM 在嵌入空间中生成新的概念嵌入。
- **输出解码**:将生成的嵌入通过 SONAR 解码器转化为对应的文本或语音输出。
这种流程使得 LCM 的推理过程语言和模态无关,从而提升了跨语言和跨模态任务的泛化能力。

2. SONAR 嵌入空间
SONAR 是一个高度语义化的嵌入空间,通过以下方式构建:
- **训练目标**:结合 200 种语言的翻译任务、去噪自动编码器任务,以及嵌入瓶颈层的 MSE 损失优化。
- **多模态扩展**:采用教师-学生方法,将文本嵌入扩展到语音模态。
- **语言和模态支持**:覆盖 200 种文本语言、76 种语音输入语言,并支持部分美式手语(ASL)。
SONAR 的多语言和多模态特性使 LCM 能够在统一的嵌入空间中进行推理。

3. 模型变体
LCM 提出了三种不同的推理和生成方法:
a. **基准模型(Base-LCM)**
- 使用标准 Transformer 模型,优化均方误差(MSE)损失来预测下一个句子嵌入。
- 简单高效,但在多样性和准确性上存在局限。

b. **基于扩散的生成模型(Diffusion-based LCM)**
- 联合上下文建模和逐步去噪推理。
- 包括两种架构:
- **单塔架构(One-Tower)**:单个 Transformer 同时处理上下文和去噪任务。
- **双塔架构(Two-Tower)**:上下文编码器(contextualizer)与去噪器(denoiser)分离,上下文通过交叉注意力提供条件信息。
- 使用不同的噪声调度方法(如余弦和 sigmoid)以优化扩散过程。

c. **量化模型(Quantized LCM)**
- 使用残差向量量化(RVQ)方法将 SONAR 嵌入离散化为多级码本单元。
- 通过逐步生成量化嵌入(或预测残差),实现从离散表示到目标嵌入的迭代优化。
- 包括 **连续目标(Quant-LCM-c)** 和 **离散目标(Quant-LCM-d)** 两种优化方式。
### 实验结果
**1. 零样本泛化性能评估**:LCM在多语言任务中表现出显著的零样本泛化能力,超越同规模的现有LLMs。

**2. 生成任务实验**:在摘要生成和摘要扩展任务中,LCM表现出高质量的生成结果,扩散模型变体优于其他变体。


综上,LCM 的设计以抽象概念为核心,融合了多语言、多模态能力,且通过多种生成方法实现高效的推理与生成。其架构和方法为大语言模型提供了新的思路,特别是在高层次抽象推理和多样性生成方面展示了显著优势。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.08821]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:葛宇航,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/ModernBERT:革新编码器模型,引领高效长上下文处理新时代.md
================================================
# Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
*Benjamin Warner1† Antoine Chaffin† Benjamin Clavié1† Orion Weller Oskar Hallström Said Taghadouini Alexis Gallagher Raja Biswas1 Faisal Ladhak\* Tom Aarsen Nathan Cooper Griffin Adams Jeremy Howard1 Iacopo Poli*
*Answer.AI, LightOn, Johns Hopkins University, NVIDIA, HuggingFace*
现有的仅编码器模型如 BERT,在分类和检索任务中被广泛应用,但其架构与训练技术自发布以来改进有限,难以满足长序列处理和效率优化的需求。此外,这些模型通常受限于短序列长度(512 tokens)和低效的推理性能,在大规模数据和复杂任务场景中表现受限。因此,本文提出了 **ModernBERT**,一种现代化的仅编码器模型。通过引入旋转位置编码、交替全局与局部注意力机制,以及无填充技术,结合大规模多样化数据训练,ModernBERT 显著提升了下游任务的性能和推理效率,同时大幅扩展了其在长序列任务和跨领域应用中的适用性。
## 研究内容
研究如何引入先进架构设计、效率优化技术及大规模多样化数据训练来提高编码器性能。
## 研究动机
**模型架构与技术更新滞后**:现有仅编码器模型缺乏对近年来先进技术(如长序列支持和优化架构)的整合,无法满足新兴任务需求。
**效率与资源利用不足**:现有模型在推理速度和内存效率上表现不佳,难以适应实际场景中大规模数据处理的需求。
**数据规模与多样性受限**:传统模型的预训练数据规模较小且缺乏代码数据,限制了跨领域和专业任务的表现能力。
## 技术动机
观察到现代化模型(如 LLMs)在生成任务中进展显著,但改进较少的仅编码器模型仍是分类和检索等任务的关键工具。通过结合最新的架构优化与大规模训练,可以提升仅编码器模型的性能和效率。
## 解决方案
#### 最新的 Transformer 架构
- **偏差项**:在除最终线性层之外的所有线性层中禁用偏差项。
- **GeGLU 激活函数**:ModernBERT 引入了 GeGLU 激活函数,它是基于 GLU 的改进版本,相较于原始 BERT 的 GeLU 激活函数,在性能上表现更优。
$$
GLU(X)=(XW+b)⊙σ(XV+c),\text{GLU}(X) = (XW + b) \odot \sigma(XV + c)
$$
$$
GeGLU(X)=(XW1+b1)⊙GeLU(XW2+b2),\text{GeGLU}(X) = (XW_1 + b_1) \odot \text{GeLU}(XW_2 + b_2)
$$
- **旋转位置编码 (RoPE)**:采用 RoPE 位置编码替代绝对位置编码,使得模型在处理长文本时更加高效,并具备更好的上下文扩展能力。
- **局部-全局交替注意力机制**:ModernBERT 的注意力模块通过交替使用全局注意力和局部注意力来提升效率与性能。全局注意力支持每个 token 关注全序列,而局部注意力则专注于相邻 token,从而在提升长文本任务性能的同时减少计算开销。
在 ModernBERT 中,每三层使用全局注意力,RoPE theta 为 160,000,其余层使用 128 个标记的局部滑动窗口注意力,RoPE theta 为 10,000。
#### 效率优化
- **Unpadding**:ModernBERT 在训练和推理时采用无填充策略,通过删除填充标记、将小批次中的所有序列连接成单个序列并将其作为大小为 1 的批次进行处理来避免这种低效性。
- **Flash Attention**:通过利用 Flash Attention 技术,ModernBERT 优化了注意力计算,显著降低了内存占用并加速了训练与推理过程。
- **硬件友好设计**:利用 PyTorch 的内置编译来通过编译所有兼容模块提高训练效率。
#### 训练
- ModernBERT 在 **2 万亿** token 的多样化数据集上进行训练,涵盖网页文档、代码和科学文献。这种大规模数据训练增强了模型的泛化能力,使其能够更好地适应不同的下游任务。
- **上下文扩展训练**
- **阶段 1**:在 1024 tokens 上训练 1.7 万亿 token,完成模型基础能力训练。学习率为 8e-4(base)和 5e-4(large)。
- **阶段 2**:扩展上下文长度至 8192 tokens,追加 3000 亿 token 的训练,进一步优化长文本任务性能。降低学习率至 3e-4。
#### 其他训练优化
- **StableAdamW 优化器**:引入 StableAdamW 优化器,在 AdamW 的基础上结合 Adafactor 风格的更新裁剪,进一步提升训练稳定性。
- **改进学习率策略**:采用 Warmup-Stable-Decay 梯形学习率策略,在训练初期稳定模型收敛,同时避免传统学习率衰减方式可能导致的冷启动问题。
- **序列打包**:通过序列打包技术优化训练效率,避免了因无填充机制引发的小批量大小波动,有效提升训练过程的稳定性和资源利用率。
## 实验结果


#### 自然语言理解
在 GLUE 基准测试中,**ModernBERT-base** 成为首个超越 DeBERTaV3-base 的 MLM 训练模型,展现了其在自然语言理解任务上的卓越能力。同时,**ModernBERT-large** 以比 DeBERTaV3-large 少 10% 参数、快一倍的处理速度取得了第二名的成绩,进一步验证了其在性能和效率之间的良好平衡。
#### 信息检索
在 BEIR 基准测试中,**ModernBERT** 在单向量(DPR)和多向量(ColBERT)检索设置中均优于其他编码器模型,展现了其在信息检索任务上的显著优势。在长文本检索任务中,尤其是在多向量设置下,ModernBERT 比其他长文本模型高出至少 9 个 NDCG@10 点,证明了其在处理长文本检索任务时的领先地位。
#### 代码理解
在代码相关任务中,**ModernBERT** 同样表现出色。在 CodeSearchNet 和 StackOverflow 问答(StackQA)任务中,ModernBERT 超越了所有对比模型,表明它在代码搜索和理解任务中具有卓越的能力,并且通过预训练代码数据提升了对编程内容的处理性能。
#### 效率
**ModernBERT** 在效率方面也展现了显著提升。在短文本处理上,其推理速度是 DeBERTaV3 的两倍;在长文本输入中,其速度比其他模型快两倍以上。此外,ModernBERT 的内存效率也处于领先地位,在相同的内存条件下能够处理更大的批量,为实际应用场景提供了强大的技术支持。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.13663v2]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:徐文溢,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/RetroLLM:检索生成大融合,“鹰眼”精准定位答案.md
================================================
# RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation
_Xiaoxi Li, Zhicheng Dou 等_
_Gaoling School of Artificial Intelligence, Renmin University of China, Tsinghua University, Huawei Poisson Lab 等_
本文研究的是**如何在生成式检索的视角下,将检索增强过程整合到大语言模型的自回归解码过程中以提升答案准确性**。现有检索增强生成(RAG)方法在处理大语言模型生成过程时存在诸多局限,如增加部署成本、输入冗余、缺乏联合优化等,难以在检索与生成间达成高效协同。为此本文提出了**生成式检索框架 RetroLLM **,通过构建**语料库级和文档级 FM - Index **进行分层约束以减少无关解码空间,**通过前瞻性约束证据生成**定位相关信息以提高证据准确性,有效提升大语言模型在开放域问答任务中的答案准确性,增强模型在实际应用中的可靠性与有效性。
## 研究内容
研究在生成式检索中,如何将检索增强过程整合到大语言模型的自回归解码过程中,包括如何构建分层 FM - Index 约束机制来优化检索空间并定位潜在相关信息,如何优化证据生成以提高准确性,以及探索联合训练方法使检索与生成任务协同优化等。
## 研究动机
现有 RAG 方法存在诸多局限,如部署成本较高、检索文本冗余、灵活性受限及难以联合优化检索与生成等。生成式检索方法虽有进展,但仍需提升检索与生成的集成度,并且存在错误剪枝等问题,影响下游任务性能。
## 技术动机
在生成式检索中,借助分层 FM-Index 与前瞻性解码策略优化检索生成过程。其中分层 FM - Index 可从结构上对检索空间进行有效约束,减少无关解码干扰;前瞻性解码策略则基于对未来序列相关性的感知,避免错误剪枝,提升证据生成的准确性,两者结合以实现检索与生成的高效协同。
## 解决方案

提出了**生成式检索框架 RetroLLM **,将检索与生成紧密结合在一个自回归解码过程中,其主要流程如下:
##### 1. 线索生成阶段
系统首先接收用户输入的查询,随后利用基于整个语料库构建的**语料库级 FM-Index** 来引导线索生成。具体而言,大语言模型依据对查询的理解,尝试生成可能出现在相关文档中的关键短语作为线索(clues),语料库级 FM-Index 起到约束作用,只有那些在语料库中实际存在的短语才能被视作有效的线索。
##### 2. 证据生成阶段
证据生成阶段主要分为以下几步:
- **文档检索与评分**:基于生成的线索,从语料库中检索包含这些线索的文档。接下来对文档进行评分,评估指标包括线索在文档中的出现频率、分布情况等。随后根据评分排名确定一个候选文档子集,作为后续生成证据的基础。
- **前瞻性约束解码证据生成**:生成针对每个候选文档,都有对应的文档级 FM-Index ,通过文档级 FM-Index 能快速定位线索在候选文档中的位置,缩小无关的解码空间。具体步骤如下:
1)**定位未来窗口**:对于每个线索,在文档中确定包含该线索的未来窗口,即线索周围的一段文本范围,将模型的注意力聚焦在可能包含与线索相关证据的区域。
2)**评估窗口相关性**:对定位到的未来窗口,通过计算其内部文本与查询之间的语义相似度来评估相关性。
3)**调整解码logits**:根据窗口相关性的评估结果,调整解码logits。如果某个未来窗口相关性高,就提高该窗口内词汇的生成概率,使生成的证据更倾向于来自这些高相关性的未来窗口。
##### 3. 答案生成阶段
在前面成功生成证据的基础上,模型再次发挥其生成能力,依据这些证据内容来生成最终的答案,以回答最初用户输入的查询。
## 实验结果
在域内任务(如 NQ、TriviaQA、HotPotQA 数据集)和域外任务(如 PopQA、2WIKI 数据集)中,RetroLLM 均表现出色,优于传统的 RAG 方法。此外,RetroLLM 显著减少了Token消耗,这是因为 RetroLLM 能够精准检索细粒度证据,并动态决定检索证据的数量。

---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.11919]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/SHAD+RFT:面向Agent-Task的大模型微调新范式.md
================================================
# Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning
*Ziang Ye, Zhenru Zhang* 等
*University of Science and Technology of China 等*
本文提出了一种分辨器 **SHAD**(Shuffle-Aware Discriminator)来区分大语言模型中的**推理 Tokens** 和**样板 Tokens**,并提出了**推理突出微调 RFT**(Reasoning-highlighted Fine-Tuning)方法,在大模型微调过程中自适应地强调推理 Tokens,比常见的监督微调(SFT)产生显著性能提升。
## 研究内容
研究如何通过区分大语言模型中的推理 Tokens 和样板 Tokens 来提升模型在 agent-task 中的表现。
下图为 agent-task 中一个有关推理 Tokens(绿色)和样板 Tokens(黄色和蓝色)的例子。样板 Tokens 可以进一步分为格式Tokens(黄色)和模板连接Tokens(蓝色)。

<img src="SHAD+RFT:面向Agent-Task的大模型微调新范式.assets/image-20241221194943284.png" alt="image-20241221194943284" style="zoom:50%;" />
## 研究动机
现有的大型语言模型在多步推理和工具使用等代理(agent)能力方面存在不足,需要通过特定于 agent-task 的数据集来增强这些能力。
## 技术动机
本文进行了实验探索:下图为在常规SFT训练中,模型无法回答的不同类型的Token的损失变化。

<img src="SHAD+RFT:面向Agent-Task的大模型微调新范式.assets/image-20241221195348779.png" alt="image-20241221195348779" style="zoom:50%;" />
本文结合实验探索提出观点:由于样板 Tokens和推理 Tokens在学习难度和重要性上存在显著差异,因此模型往往容易在样本 Tokens 上过拟合,导致推理能力不足。因此,需要一种自动化和自适应的方法来区分它们,以避免过度拟合样板 Tokens。
## 解决方案
1. **SHAD(Shuffle-Aware Discriminator)**

**(1)数据打乱(Data Shuffle)**:选择数据的一小部分,并将输入和输出的对应关系打乱。因为样板 Tokens由于在多个样本中重复出现,其可预测性不会因为打乱而改变,而推理 Tokens则与特定输入相关,打乱后其可预测性会降低。
**(2)模型微调(Model Tuning)**:使用打乱后的数据对大型语言模型进行微调。微调过程中,模型主要学习预测那些即使在打乱后数据中仍然保持可预测性的 Tokens ,也就是样板 Tokens 。
**(3) Tokens 分类(Classifying)**:通过比较微调模型和原始模型的 Tokens 级损失来分类 Tokens ,区分推理 Tokens 和样板 Tokens 。
- 如果损失差≤0,则该 Tokens 被分类为样板 Tokens ,因为它在微调模型中的损失没有增加,表明其可预测性没有因为输入和输出的打乱而受到影响。
- 如果损失差>0,则该 Tokens 被分类为推理 Tokens ,因为它在微调模型中的损失增加,表明其与特定输入相关,打乱后变得不可预测。
2. **RFT(Reasoning-highlighted Fine-Tuning)**
RFT对推理 Tokens 和样板 Tokens 的损失进行加权,使得模型在训练过程中更加关注于推理 Tokens ,从而提高模型的推理能力。
设 $L_b$ 为样板 Tokens 的总损失,$L_r$ 为推理 Tokens 的总损失。通过 softmax 函数动态计算权重:
$$
\omega_b = \frac{\exp(L_b / \tau)}{\exp(L_b / \tau) + \exp(L_r / \tau)}
$$
$$
\omega_r = \frac{\exp(L_r / \tau)}{\exp(L_b / \tau) + \exp(L_r / \tau)}
$$
其中,$\tau$ 是温度参数,控制权重分配的敏感度。
计算加权损失 $L_{RFT}$:
$$
L_{RFT} = \omega_b L_b + \omega_r L_r
$$
## 实验结果
使用 ToolBench 和 APIGen 数据集来训练模型,采用相同来源的 StableToolBench 和 BFCL 数据集进行held-in评估,使用 T-eval 数据集评估模型在多步推理任务中的表现,使用Nexus评估模型在复杂、嵌套的单步工具使用任务中的能力。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img5@main/2024/12/21/1734774778020-2ba3da38-7233-4a8a-9a18-bfff2b4576d8.png" style="zoom:50%;" />
上表显示了SHAD+RFT方法在多个评估数据集上的性能比较,结果表明该方法在所有held-in和held-out评估数据集上均优于基线方法。

上图展示了SFT和RFT的训练损失。RFT可以降低了推理 Tokens的损失,同时保持了与SFT相当的样板 Tokens损失。
综上,SHAD和RFT方法有效地提高了大型语言模型在复杂真实世界问题解决中的推理能力,展现了在 agent-task 中提升模型性能的潜力。
------
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.14780]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:宓禹,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/Think&Cite:让 LLM 不再“空口无凭”,句句有出处.md
================================================
# Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling
*Junyi Li, Hwee Tou Ng*
Department of Computer Science, National University of Singapore
本文提出**Think&Cite**框架,将带引用文本生成任务转化为多步骤推理问题,设计自引导蒙特卡洛树搜索(SG-MCTS)方法,利用大语言模型的自我反思能力优化推理路径,并引入过程奖励模型(PRM)从生成过程和引用过程两个方面为搜索过程提供反馈,从而提升生成文本的准确性和引用质量。
## 研究内容
改进大语言模型生成带引用文本的能力,逐步生成文本并引用相关文献,确保生成的文本和引用的一致性,使生成内容更加可靠。
## 研究动机
现有方法通过 Prompt方法或监督微调让 LLM 在生成文本时提供引用,它们完全基于自回归过程,任何中间生成错误(例如,错误陈述或错误引用)都可能导致最终回答不正确。
## 技术动机
将带引用文本生成任务转化为多步骤推理问题,将搜索算法引入带引用文本生成过程,从而避免错误的推理路径。
## 解决方案

1. **自引导的蒙特卡洛树搜索(Self-Guided Monte Carlo Tree Search, SG-MCTS)**:
扩展了经典的蒙特卡洛树搜索(MCTS),利用 LLM 的自我反思能力来检查 MCTS 的中间状态,并指导树扩展过程,主动避免推理路径上的错误,其具体步骤为:
- **选择**:使用UCT算法选择最优节点进行扩展。
- **扩展**:利用 LLM 的自我反思能力检查并修正查询关键词,从语料库中检索相关文献,通过迭代**思考-表述-引用过程**生成高质量的子节点文本。
- **评估**:使用进度奖励模型计算新扩展节点的预期奖励。
- **反向传播**:将新节点的奖励回传到其父节点,更新路径上每个节点的值函数。
2. **过程奖励模型(Progress Reward Models, PRM)**
引入进度奖励模型来衡量从根节点到当前状态的树搜索进度,包括生成过程奖励和归因过程奖励两个方面。提供了可靠和全面的反馈,以指导MCTS搜索过程。
- **生成过程奖励**:衡量生成文本的质量,通过现有的**经过直接偏好优化(DPO)的模型**来计算生成句子的质量得分。
$$
R_g(\boldsymbol{y}_{1:t+1})=\sum_{k=0}^tw_k\log\frac{\pi^*(y_{k+1}|\boldsymbol{x},\boldsymbol{y}_{1:k})}{\pi_{\mathrm{ref}}(y_{k+1}|\boldsymbol{x},\boldsymbol{y}_{1:k})},
$$
- **归因过程奖励**:使用自然语言推理(NLI)模型判断引用的文献是否能够支持生成的句子,通过**引用召回率**和**引用精确率**来评估引用质量。
3. **迭代思考-表述-引用(think-verbalize-cite)范式**
在MCTS的扩展过程中,框架通过迭代**"思考-表述-引用"**的过程来生成带引用文本,即在每一步中生成一个句子,并在每个句子中引用支持该句子的文献。
## 实验结果
实验表明,**Think&Cite** 在多个数据集上提升了生成带引用文本的准确性和可靠性。在需要复杂推理和引用支持的任务中,**Think&Cite** 比传统方法表现更优,显著减少了生成过程中的错误内容和无效引用。

综上,**Think&Cite** 引入了一种新的生成带引用文本的范式,通过结合蒙特卡洛树搜索和过程奖励模型,克服了传统自回归生成方法的局限性。多步骤推理和动态反思机制使得 **Think&Cite** 在处理复杂生成任务时,能够更灵活地进行推理,并在生成质量和引用一致性上超越了现有的方法。
------
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.14860]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/大语言模型的 “幻觉克星” 来了!DePaC 助力精准生成.md
================================================
# Dehallucinating Parallel Context Extension for Retrieval-Augmented Generation
_Zexiong Ma, Shengnan An 等_
_Peking University; Microsoft; Xi’an Jiaotong University 等_
本文提出了DePaC (**De**hallucinating **Pa**rallel**C**ontext Extension) 方法,DePaC的核心思想是通过采用上下文感知的负训练和信息校准聚合,减少了检索增强生成模型中的幻觉,显著提高了生成响应的准确性和可靠性。
## 研究内容
提高基于RAG的大型语言模型(LLMs)的准确性和可靠性
## 研究动机
之前的方法包括增强检索器性能,迭代RAG以及提示工程等,这些方法不能有效解决信息遗漏的的问题。
## 技术动机
通过负训练,让模型学会在上下文与问题不相关时拒绝回答;通过测量文档提供的信息增量,让模型优先考虑包含有用信息的上下文窗口。
## 解决方案
**背景:**并行上下文扩展(PCE):PCE的核心思想是将来自多个上下文窗口的信息聚合到一个统一的表示空间中。
给定一个问题Q和一系列相关文档${d_1,d_2...d_i}$,PCE首先计算每个上下文窗口的输出分布:$ p_{i,j} = p_\theta(\cdot \mid d_j \oplus \mathcal{Q} \oplus A_{1:i-1})$ ,然后, 这些分布通过某个聚合函数被聚合为单一分布$P_i = AGG(P_{i,1},P_{i,2}..)$,本文使用的聚合函数是最低不确定性聚合函数
$p_i = \arg\min_{p_{i,j}} H(p_{i,j})$ $H(p_{i,j}) = -p_{i,j}(\log p_{i,j})^T.$

1. **上下文感知负训练(Context-aware Negative Training):** 它明确地训练主干模型来确定一个问题是否可以基于所提供的文档进行回答。如果没有,我们希望这个模型能拒绝回答这个问题,而不是产生幻觉。
2. **信息-校准聚合(Information-Calibrated Aggregation):** 仅仅测量最终输出分布的不确定性可能会受到事实遗漏幻觉的严重影响。所以需要测量每个上下文窗口相对于上下文无关的输出分布的信息增量,以反映检索到的文档所提供的信息增量。这里使用KL散度来度量信息增量:$\Delta(\mathbf{p_{i,j}}, \mathbf{p_{i,c}}) = D_{KL}(\mathbf{p_{i,j}} \parallel \mathbf{p_{i,c}})$
3. 将上述两个方法代入最低不确定性函数就可以得到:
$ p_i = \arg\min_{p_{i,j}} C(p_{i,j}, p_{i,c}) - \gamma \cdot \mathbb{I}(\arg\max_k p_{i,j}^k = t_d)$
$C(p_{i,j}, p_{i,c}) = H(p_{i,j}) - \beta \cdot \Delta(p_{i,j}, p_{i,c})$
## 实验结果
- DePaC在多个RAG任务上显示出了显著的性能提升。这些任务包括信息检索任务和基于文档的问题回答任务(DocQA)。性能的提升表明DePaC能够有效地利用并行上下文信息,并生成更准确的回答。


综上,该研究通过引入内部思考过程,提升了LLM在广泛任务中的指令遵循能力,而无需额外的人类数据。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/html/2412.14905]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑刘亚川,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/强强联合,Meta与斯坦福发布最新视频大模型Apollo:揭示扩展一致性新规律.md
================================================
- - # Apollo: An Exploration of Video Understanding in Large Multimodal Models
Orr Zohar , Xiaohan Wang等
Meta GenAI, Stanford University等
本文研究了影响视频多模态大模型性能的主要因素,并发现了**扩展一致性**:即在较小的模型和数据集上做出的设计和训练决策能够有效地转移到较大的模型上。在这些发现的指导下,本文推出了**Apollo**,一系列先进的视频多模态大模型,在不同模型规模下实现了卓越的性能。
## 研究内容
视频多模态大模型
## 研究动机
尽管大量多模态大模型已经有视频感知能力,但其驱动视频理解的底层机制仍然没有得到充分探索。许多设计决策在这一领域中常常缺乏充分的论证和分析。训练和评估这类模型的高计算成本,加上开放研究的局限性,阻碍了视频多模态大模型的发展。
## 技术动机
基于实验探索设计技巧,在模型架构设计,训练策略,数据组成上进行大量实验,采用最适合视频多模态大模型的技术。
## 解决方案
首先,本文对现有的视频基准进行广泛的评估,发现现有视频问答基准之间存在显著的冗余性,尤其是在不同的视频时长和问题格式之间,高相关性表明,现有的基准可能存在重复性,并且不同视频时长和问题类型对评估结果的多样性贡献有限。所以基于这些见解,本文开发了一个更高效、更有效的基准套件——**ApolloBench**, 在**ApolloBench**上的评估速度是传统基准的41倍,并且更能反映模型的视频理解能力。
然后,为了探索视频多模态大模型的扩展一致性,以及视频多模态大模型的架构设计,视频编码器选择,视频帧采样策略,视频token压缩方法,训练策略,数据选择等等对视频多模态大模型性能的影响,本文训练了84个模型,进行了大量的实验。
最后,在基于大量实验分析的基础上,本文提出了**Apollo**系列,取得了在视频理解方面的最先进成果。
## 实验结果
实验上,具体来说,本文设计了21个模型变体,涵盖了架构、视频采样方法、训练策略和数据组合等多个设计方面,每个变体使用四个不同的大型语言模型(LLMs):Qwen2-0.5B、Qwen2-1.5B、Qwen1.5-4B和Qwen2-7B,总共训练了84个模型。

基于以上实验,本文发现了**扩展一致性**,发现在中等规模的模型(约2B到4B参数)和500k大小以上规模的数据集上做出的设计决策,可以可靠地迁移到更大的模型上,而在更小的模型(比如0.5B)和更小的数据集中则未观察到。
此外在模型设计以及数据组合等多方面,本文有以下发现:
1. **视频采样**:在模型训练和推理过程中,相较于均匀采样,FPS采样更为优秀(均匀采样指在帧维度采样,而FPS是在时间维度上进行帧采样)。同时在每秒帧采样数目和帧token压缩之间存在一个平衡,8-32个token每帧是最优的配置。
2. **视频表征**:在实验InternVideo2, LanguageBind-Video v1.5, VideoMAE 等编码器后发现,**SigLIP-SO400M** 是视频-LMMs中最好的单一编码器。将**SigLIP-SO400M**与**InternVideo2**结合,能够实现最优的整体性能。来自不同帧或剪辑的视频标记之间添加token(时间戳或特殊token等)足以实现高效的token集成。
3. **训练策略**:在不同阶段逐步解冻不同的组件可以实现更优的模型训练。三阶段训练能获得最佳性能,其次是两阶段训练计划。需要注意的是,不同的阶段有不同的数据组成;具体而言,每当LLM被冻结时,其他组件仅在视频数据上进行调优,而当LLM被调优时,则使用文本、图像、多图像和视频的混合数据集。仅在视频数据上微调视频编码器进一步提升了整体性能,特别是在推理和领域特定任务上的表现。如果视频编码器和LLM同时解冻,视觉编码器将在图像和视频数据的组合上进行训练会显著降低模型性能。而单独在视频数据上训练编码器会更优。
4. **数据组合**:适量的文本数据和略微偏向视频的数据组合有助于达到最佳性能。在训练数据混合中包含10% ~ 14%的文本数据是必要的,这有助于缓解灾难性遗忘。当文本数据的比例超过14%或低于7%时,模型性能会受到损害。
最后基于以上发现,本文开发了**Apollo**视频多模态大模型,其表现如下:

---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2410.10630v1]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241213-20241219/腾讯提出Cal-DPO,解决DPO重大缺陷.md
================================================
# Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment
**作者**:*Teng Xiao, Yige Yuan等*
**单位**:Pennsylvania State University, Tencent AI Lab等
本文提出了 Cal-DPO 算法,通过校准隐式奖励与真实奖励的尺度,解决在对比偏好优化训练过程中正例响应的奖励值持续下降问题,显著提升了大语言模型在人类偏好对齐任务中的表现。
## 研究内容
改进现有对比偏好优化方法奖励机制,提升模型在人类偏好对齐任务中的表现。
## 研究动机
现有对比偏好优化方法(如DPO)主要关注于提升正负例隐式奖励值之差,忽略真实奖励的绝对值,真实奖励与隐式奖励存在尺度不一问题,导致在训练过程中正例响应的奖励值持续下降,从而使得对于正例的似然概率降低,这意味着模型对正例的置信度降低,进而增大模型在推理和数学问题的不确定性,导致生成的结果不够准确或可靠。
如下图所示,***Chosen、Rejected、Margins***分别代表正例响应的奖励值、负例响应的奖励制、正负例响应的奖励制之差。可以看到,在DPO中,随着训练进程推进,尽管正负例响应的奖励值之差不断增大,但是正例的响应值持续下降。而真实应用中,希望奖励模型能够给予正例更高的奖励值,DPO算法构造的奖励模型与真实的奖励值存在偏差,进而影响模型性能。

## 技术动机
上述现象出现的原因在于,DPO的损失函数中只针对正负例响应的隐式奖励奖励值之差进行建模,忽略了正例本身的真实奖励。为了防止正例奖励随训练进程下降,需要校准隐式奖励与真实奖励的尺度,确保隐式奖励与真实奖励在同一尺度上。
## 解决方案
为解决原始DPO算法的对比性损失无法未校准奖励本身尺度的问题,定义校准损失:
$$
\mathcal{L}_{Cal}(\theta; x, y)=(log\frac{\pi_{\theta}(y|x)}{\pi_{ref}(y|x)}-\frac{r(x, y)}{\beta})^{2}
$$
其中$r(x, y)$是真实奖励,$\beta$是超参数。在仅有时对偏好反馈的场景中,定义$r(x, y_w)=\frac{1}{2}$,$r(x, y_l)=-\frac{1}{2}$。
结合校准损失与基于BT模型的DPO损失,得到最终Cal-DPO损失为:

上述公式中蓝色为校准损失,$$\beta$$为超参数,直观上来看,该损失期望正例响应奖励值朝着$$1/2\beta$$靠近,负例响应奖励值朝着$$-1/2\beta$$靠近,使得正例响应奖励值增加,负例奖励值降低,从而使模型生成的响应更符合人类偏好。
## 实验结果
Cal-DPO 在多个方面的实验结果展现出其显著优势与有效性,在多个关键指标和任务场景下均表现出色,优于已有的对比偏好优化算法。


论文还通过实验展示了 Cal-DPO 在训练过程中奖励值的变化情况,与 DPO 进行对比,突出了 Cal-DPO 在维持正例奖励值和调整负例奖励值方面的优势。在Cal-DPO下,正例响应的奖励持续增加且保持正值,这显示 Cal-DPO 有效地推动了正例响应的奖励朝着期望的方向发展,使得模型更倾向于生成符合人类偏好的总结内容。而在DPO下,负例响应的奖励不断下降,并出现了下降到零以下的情况。

---
- 查看 Arxiv 原文链接请点击“**阅读原文**”
[https://arxiv.org/pdf/2412.14516]
- **更多**模型学习资料,请详见浙大 Daily 实验室 Github 仓库:**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:张超 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/GME:打破模态界限,全新通用多模态检索器的探索与突破.md
================================================
# GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
作者:Xin Zhang, Yanzhao Zhang等
单位:Tongyi Lab, Alibaba Group The Hong Kong Polytechnic University等
本文研究了通用多模态检索(GME),为解决现有训练数据中模态不平衡的问题,本文提出了一种用于混合模态数据合成的pipeline,构建了大规模、高质量的融合模态数据集,并在此基础上训练开发了通用多模态检索模型和新的评估基准-UMR Benchmark。
## 研究内容
**通用多模态检索器**,本文指可以接受文本或图片输入或者图文组合输入的检索器,检索对象也包括图片或者文本,或者图文对象。
## 研究动机
现有方法使用的训练数据模态受限且模态不平衡,无法充分发挥多模态大模型在通用多模态检索中的潜力,此外通用多模态检索任务的多模态、多场景需求尚未得到全面评估,缺乏一个全面的评测基准。
## 技术动机
1.多模态大模型已经在多模态信息理解和推理方面展现了令人瞩目的进展,其内部对多模态数据有优秀的表征。2.使用LLM和MLLM来合成数据已有先例。
## 解决方案

**模型架构**:使用 MLLM 作为通用多模态检索器的基座模型。MLLM接收图像、文本或图文组合的输入,将模型最后一层的隐藏状态中的最终token作为输入的表示,并使用对比学习进行训练,使模型适应检索任务。
**训练数据**:为了解决训练数据中模态不平衡的问题,特别是**融合模态数据**稀缺,本文使用 LLM 和 MLLM 的生成能力来合成额外的训练数据,其合成步骤分为以下四步:
**Doc2Query 生成**:将每条候选段落的内容输入到一个 LLM 中,并通过提示生成基于段落的自然查询。
**实体抽取与查询重写**:为了使合成的查询同时包含文本和图像(即 IT→IT 类型),采用实体抽取的方法,通过抽取的实体补充图像数据。
**图像检索与生成**:通过 Google Image Search API 检索与实体词条匹配的图像或者通过 **文本生成图像模型** 生成图像。
**数据过滤**:为了确保合成数据的质量,对最终数据集进行了过滤。
## 实验结果
实验上,本文将所训练的通用多模态检索器与 **VISTA** , **E5-V** 等方法在**单模态**检索,跨模型检索,以及融合模态检索的对比结果如下图所示:

此外,本文在**微调策略**,训练策略以及是否开启双向注意力上进行了消融实验,实验结果如下图所示:

综上,本文探索了**通用多模态检索**问题,通过在多样化的多模态数据设置上采用对比学习损失进行训练,达到了最新的最先进性能。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2410.10630v1]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/Mulberry:多模型合作MCTS,让MLLM进入o1推理时代.md
================================================
# Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
*Huanjin Yao, Jiaxing Huang 等*
Tsinghua University, Baidu Inc., Sun Yat-sen University
本文提出集体蒙特卡洛树搜索(Collective Monte Carlo Tree Search, CoMCTS)方法,利用多模型协作搜索和反思推理路径,并使用生成的推理数据对多模态大语言模型(MLLM)进行微调,从而提升其推理能力。
## 研究内容
改进多模态大语言模型(MLLM)的推理能力,使其能够通过逐步推理和反思来解决复杂问题。
## 研究动机
现有的MLLM在复杂任务上表现不佳,主要采用“直接预测”的模式,生成简短的最终答案,缺乏明确且定义良好的中间推理步骤和反思能力。
## 技术动机
通过多模型协作搜索与反思,使用多个模型共同搜索和识别有效的推理路径,并通过反思机制进行校准,从而提高 MLLM 在搜索推理路径时的效率和质量。
## 解决方案

1. **集体蒙特卡洛树搜索(Collective Monte Carlo Tree Search, CoMCTS)**:
CoMCTS通过引入集体学习的概念,利用多个模型的集体知识来协同推测、搜索和识别有效的推理路径。其核心步骤包括:
- **扩展**:利用多个MLLM的集体知识,从当前节点扩展出多样且互补的候选推理节点。
- **模拟与错误定位**:通过集体知识模拟推理结果,定位错误节点并剪枝其子节点。
- **反向传播**:从叶节点向根节点反向传播,更新每个推理节点的得分和访问次数。
- **选择**:根据上置信界(UCB)值选择下一个起始节点,平衡搜索的探索与利用。
2. **反思推理路径搜索**:
基于CoMCTS构建的统一推理树,识别并整合负向推理节点,构建包含从负向节点到正向节点过渡的反思推理路径。通过学习反思推理路径,MLLM能够在长链推理中动态校准其推理轨迹。
3. **Mulberry-260k数据集**:
使用CoMCTS搜索有效和反思推理路径,构建了Mulberry-260k数据集,该数据集为每个问题提供了丰富、明确且定义良好的推理节点树,用于训练具有逐步推理和反思能力的MLLM。
4. **集体监督微调(Collective Supervised Fine-Tuning, CoSFT)**:
使用 Mulberry-260k 数据集进行集体监督微调,训练Mulberry模型,使其具备逐步推理和反思能力。具体包括:
- **标准监督微调**:训练模型学习有效的推理路径。
- **反思监督微调**:训练模型学习反思推理路径,校准负向推理节点。

## 实验结果
1. **CoMCTS的搜索效率与效果**:
CoMCTS在搜索效率和成功率上显著优于其他树搜索方法,减少了迭代次数并提高搜索效果。

2. **Mulberry模型的性能**:
在CoMCTS数据上训练的Mulberry模型,在多个基准测试中超越大多数开源MLLM,并与闭源模型竞争,展示了卓越的逐步推理和反思能力。


综上,**Mulberry**通过引入集体蒙特卡洛树搜索和反思推理路径搜索,显著提升了多模态大语言模型的推理能力。其逐步推理和动态反思机制使得Mulberry在处理复杂任务时表现更加出色,超越了现有的方法。
------
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.18319]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:樊怡江,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/Proactive Agent:主动读取需求,让AI比你更懂你.md
================================================
# PROACTIVE AGENT: SHIFTING LLM AGENTS FROM REACTIVE RESPONSES TO ACTIVE ASSISTANCE
*Yaxi Lu, Shenzhi Yang, Cheng Qian* 等
*Department of Computer Science and Technology, Tsinghua University 等*
本文提出了一种数据驱动的方法,通过构建ProactiveBench数据集和奖励模型,训练大型语言模型(LLM)Agent主动预测并提出任务,而无需明确的人类指令。
## 研究内容
本文研究的是如何开发能够预测并主动提出任务的 LLM Agent。
下图为两种人机交互的Agent系统的比较。主动Agent被动地接收用户的查询,然后生成响应。主动行动主体根据环境观察结果推断任务,并相应地提出可能的援助请求。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img13@main/2024/12/27/1735288290186-e1b6cbb3-09ff-41ef-87be-58eca547e2ab.png" style="zoom:50%;" />
## 研究动机
现有大多数 LLM Agent 处于被动响应模式,需要明确的用户指令才能执行任务,限制了其在需要预见性和自主决策的场景中的有效性。为了提高LLMAgent在需要预见性和自主决策的场景中的有效性,需要从传统的反应式响应转变为主动协助。
## 技术动机
人类在观察到他人可能需要帮助时主动提供协助,而无需对方明确请求。本文收集了人类行为数据,以训练一个能够根据环境变化和用户活动预测潜在任务的 Agent,使其能够像人类一样主动提供服务。
## 解决方案
#### 1. 任务定义(Task Definition)
本文的目标是开发一个能够基于用户活动、环境事件和状态预测用户可能分配的任务的Agent,希望通过构建自动数据生成流程来增强 LLM 驱动的Agent的主动能力。
#### 2. 流程概述(Pipeline Overview)
下图展示了数据生成的全流程,核心在于通过模拟用户活动和环境变化来生成训练数据,这些数据将被用来训练和微调LLMAgent,使其能够更好地预测和提出任务。一旦预测被接受,模拟Agent在模拟环境中执行任务并生成新事件。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img12@main/2024/12/27/1735289801960-5b00aa75-711a-40ac-b233-048a6228111d.png" style="zoom: 50%;" />
1. **环境健身房(Environment Gym)**:模拟特定背景设置中的事件,并更新环境状态。
2. **主动代理(Proactive Agent)**:基于事件历史预测用户可能分配的任务,目标是最大化用户接受其提出任务的比率。Agent的预测可以是预测到的任务,或者在Agent认为不需要任务时预测为空。
3. **用户代理(User Agent)**:是使用人类标注的数据训练的**奖励模型**,用于模拟用户判断,根据Agent的预测和自身活动决定是否接受任务。
##### 2.1 Environment Gym
收集现实世界的事件作为参考,并将其转换为自然文本描述。基于收集的事件生成真实的交互场景,并提供足够的背景信息。根据用户活动生成详细的事件,并根据历史事件和当前环境状态更新实体状态。生成新事件时,需要更新环境实体的状态和属性。
##### 2.2 Proactive Agent
Proactive Agent接收新事件后,更新其记忆,并结合历史事件和用户特征提出潜在任务。一旦用户接受预测任务,Proactive Agent在Environment Gym中执行任务,生成关于Agent与环境交互的多个事件。
##### 2.3 User Agent
User Agent根据预定义的用户特征生成活动和动作,并决定是否接受Proactive Agent提出的任务。User Agent是使用人类标注的数据训练的**奖励模型**,用于模拟用户判断。
#### 3. Agent框架
下图展示了 Proactive Agent 如何通过监控事件、更新记忆、检测需求、预测任务和执行任务来实现主动性。
<img src="11.assets/image-20241227170724942.png" alt="image-20241227170724942" style="zoom:33%;" />
Proactive Agent 持续监控来自 Environment Gym 的新事件,根据新事件更新其内部记忆,这个记忆包含了用户的历史活动和环境状态信息。通过分析更新后的记忆,可以检测用户可能需要的任务。基于检测到的需求,Proactive Agent 提出一个初步的任务预测,将草稿预测发送给 User Agent,获取用户的反馈。根据用户的反馈,Proactive Agent 优化其任务预测,以提高预测的准确性和用户接受的可能性。一旦用户接受了预测任务,Agent就会在 Environment Gym 中执行这个任务,从而可能会引发更多的事件和用户活动。
该框架使得 Proactive Agent 能够在没有明确指令的情况下,根据用户活动和环境状态主动提出帮助。
## 实验结果
1. **数据集**:下表显示了ProactiveBench数据集的统计信息,包括不同设置中的事件条目数。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img10@main/2024/12/27/1735291961886-cfb8df70-8f67-4c3b-ab5e-bed593e78b18.png" style="zoom:33%;" />
2. **奖励模型评估**:下表展示了不同模型作为奖励模型时与人类标注结果的一致性,本文提出的模型达到了91.80%的F1-Score。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img3@main/2024/12/27/1735291994221-742ca49b-3d7c-4c59-aa6b-3014c50334b9.png" style="zoom:50%;" />
3. **Proactive Agent 评估**:比较了不同模型在ProactiveBench上的性能,本文的微调模型Qwen2-7B-Proactive达到了66.47%的F1-Score,优于所有开源和闭源模型。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img7@main/2024/12/27/1735292034095-34bff6ae-03ca-4e71-abcc-1a0485a624b3.png" style="zoom:50%;" />
综上,本研究通过构建ProactiveBench数据集和奖励模型,有效提升了LLM代理的主动性,为未来人机协作的进一步发展铺平了道路。
------
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2410.12361]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库: https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:宓禹,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/RobustRF:打造鲁棒微调框架,大幅提升大模型在噪声环境下的性能.md
================================================
# RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response
*Junyu Luo, Xiao Luo 等*
*Peking University, University of California, Los Angeles 等*
本文提出了一种名为 RobustFT 的鲁棒监督微调框架,旨在缓解大语言模型(LLM)在噪声数据环境下性能下降的问题。通过多专家协作系统和推理增强机制进行噪声检测,并结合上下文增强的重标注策略和基于熵的样本选择机制实现降噪,RobustFT 构建了一个高质量的微调数据集,从而显著提升模型在下游任务中的性能。实验结果表明,该框架在多个数据集和噪声比例下均表现出色,展示了其鲁棒性和广泛适用性。RobustFT 为 LLM 在实际应用中处理噪声数据提供了有效解决方案。
## 研究内容
研究针对大语言模型在噪声环境中进行监督微调的鲁棒方法。
## 研究动机
现有的监督微调方法在处理包含噪声的数据时表现较差,这导致模型在下游任务中的性能严重下降;同时,传统的降噪方法无法有效应用于上下文丰富的开放式文本生成任务。
## 技术动机
通过多专家协作和推理增强机制,结合上下文增强的降噪策略,可以更好地检测噪声并提高数据质量,从而改善模型的下游任务性能。
## 解决方案
**RobustFT** 的解决方案通过**噪声检测**与**数据降噪**两个阶段,构建一个高质量、低噪声的微调数据集,从而增强大语言模型(LLM)的鲁棒性和性能。

#### **噪声检测**
噪声检测的目标是识别数据集中潜在的噪声样本,具体方法如下:
1. **多专家协作机制**
利用多个专家模型(包括基础模型和推理增强模型)对同一数据进行预测。
2. **推理增强策略**
通过模型的推理能力增强噪声检测:
- 逐步推理:让模型逐步生成预测结果,确保过程透明且可分析。
- 自我反思:模型在推理后对其过程进行自我审查,优化推理路径。
3. **一致性检测**
比较基础预测结果、推理增强结果与原始标签的一致性。使用一致性度量(Checker)评估样本的可靠性:如果预测结果高度一致,则标记为可靠样本(Clean Data);如果结果不一致,则标记为潜在噪声样本(Noisy Data)。
#### **数据降噪**
数据降噪的目标是对潜在噪声样本进行处理,生成更可靠的标签,具体包括以下步骤:
1. **上下文增强重标注**
- **上下文增强预测**:利用高置信度的可靠数据(Clean Data)为噪声样本(Noisy Data)提供上下文支持。将潜在噪声样本与可靠样本映射到相同的特征空间。检索与噪声样本最相似的高置信度样本,作为上下文支持。基于上下文支持生成新的标签。
- **重标注过程**:通过一个复核代理(Reviewer Agent)对新标签进行评估,结合上下文增强预测与推理增强预测,生成最终的降噪标签。
2. 基于熵的样本选择
为了进一步确保数据质量,对所有降噪后的样本计算预测熵值。根据模型的预测分布,衡量样本的不确定性。样本熵值越低,预测越确定,质量越高。根据熵值对样本排序,选取熵值最低的前 β% 样本(默认 β=50%)作为最终的高质量微调数据。
#### **框架整合**
RobustFT 将可靠样本和经过降噪筛选的样本合并为最终的微调数据集,并基于该数据集对模型进行监督微调。
### 实验结果
本文的实验在五个数据集上进行了验证,包括通用任务(如 **MMLU** 和 **ARC**)以及特定领域任务(如 **PubMedQA**、**Drop** 和 **FPB**),并在不同噪声水平(30%、50%、70%)下进行了全面比较。以下是主要实验结果:

与 Vanilla 和标准 SFT 方法相比,RobustFT 在所有噪声水平和数据集上均表现出更高的鲁棒性和更好的性能。实验还评估了不同规模的模型,包括 **Llama3.2 (3B)**、**Llama3.1 (8B)** 和 **Gemma2 (9B)**,并在不同噪声水平下验证了 ROBUSTFT 的普适性:

RobustFT 对不同规模和架构的模型均有效,尤其对小模型的噪声鲁棒性提升更加显著。
综上, RobustFT 专注于解决大语言模型(LLM)在噪声数据环境中的性能下降问题。通过多专家协作机制、推理增强策略、上下文增强重标注和基于熵值的样本选择,RobustFT 实现了从噪声检测到降噪的高效流程,显著提升了微调数据的质量和模型的下游任务性能。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.14922]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:葛宇航,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/大语言模型的 “省钱秘籍”!TALE 框架让推理成本大瘦身.md
================================================
# Token-Budget-Aware LLM Reasoning
_Tingxu Han, Chunrong Fang 等_
_Nanjing University, Rutgers University, UMass Amherst 等_
本文研究的是**如何在大语言模型推理过程中有效管理Token预算,以平衡推理效率与成本**。随着大语言模型在各类任务中的广泛应用,CoT等推理技术虽提升了性能,但也引发了Token成本过高的问题,并且在实际应用场景中,往往只需准确简洁的答案,冗长的推理过程所产生的大量冗余Token造成了资源的浪费。鉴于此,本文提出了**TALE(Token-Budget-Aware LLM Reasoning)框架**,通过创新的预算估计方法,包括零样本估计器、回归估计器以及Token - budget意识内化等手段,精准地确定token预算,并借助基于预算的提示构建策略,引导LLM在预算范围内进行高效推理,从而在保持推理准确率的同时显著降低Token成本。
## 研究内容
探究如何在保持大语言模型推理准确性的同时显著降低Token成本,具体聚焦于推理过程中的 Token 预算管理及效率优化,包括研究 LLM 推理时的 Token 冗余现象并分析其原因,并探索如何在保证推理准确性的前提下,减少不必要的 Token 消耗。
## 研究动机
大语言模型推理中的 Token 成本问题日益凸显。随着CoT等推理技术的应用,虽然提升了 LLM 在各类任务中的表现,但也导致了 token 使用量的大幅增加。同时,在很多实际场景中,只需获取准确的答案,冗长的推理和解释引入了大量资源浪费。
## 技术动机
借助Token 预算思想与动态Token预算优化Token效率。基于 LLM 能够遵循提示中的长度约束这一特性,可以将 Token 预算引入提示或对LLM进一步微调以约束其生成长度。基于资源分配和动态规划的理念,可以根据推理任务的复杂性和需求,动态分配 Token 预算,优化推理过程。
## 解决方案

提出了**TALE框架**,通过动态估计和优化 **Token预算**,减少LLM在推理过程中的 **Token冗余**,同时保持较高的推理准确性。其解决方案包括以下三步:
##### 1. 最优**Token预算搜索**
为了找到能够在保持答案正确性的同时,最小化Token开销的最优预算,TALE设计了一种基于 **二分搜索** 和 **贪心策略** 的算法。具体步骤如下:
- **初始化搜索范围**:使用传统的CoT推理生成一个答案,并计算其Token数量,作为搜索的右边界,左边界设为0,表示最小的可能预算。
- **二分搜索**:在每次迭代中,计算当前搜索范围的中点,检查当前预算是否能够生成正确的答案。如果可行,则更新右边界为中点;否则,更新左边界为中点。
- **Token Elasticity 检测**:在每次迭代中,监控实际Token开销。如果发现Token开销随着预算的减少而增加,则说明进入了 **Token Elasticity** 区域。当检测到Token Elasticity现象时,停止进一步减少预算,将当前预算作为搜索的下限,并调整搜索范围继续搜索,确保预算在合理范围内。
- **贪心策略**:在保持答案正确性的同时,结合贪心策略,将二分搜索找到的最小预算设为当前最优预算,逐步减少预算并检查新预算是否仍然能够生成正确的答案,直到找到最优预算。最终找到的预算不仅能够保持答案正确性,还能最小化实际Token开销。
##### 2. **Token预算估计**
TALE提出了三种预算估计方法:
- **零样本估计器**:直接利用LLM自身作为预算估计器,通过提示LLM估计回答问题的Token预算。这种方法无需额外训练,直接利用LLM的推理能力生成预算。
- **回归估计器**:训练一个回归模型,使用**最优Token预算搜索**的结果作为训练数据,预测给定问题的最优Token预算。通过最小化预测值与实际最优预算之间的差异,回归估计器能够动态地为新问题生成合理的预算。
- **Token-budget 意识内化**:使用**最优Token预算搜索**的结果,构建Token-budget-aware提示,生成符合预算的推理步骤作为目标输出。微调时,使用目标输出作为训练数据,优化LLM的生成机制,使其在推理时自动生成简洁且符合预算的推理步骤。微调后的LLM无需显式指定Token预算,能够直接生成高效的推理过程。
##### 3. **Token-Budget-Aware提示构建**
在获得估计的Token预算后,TALE构建一个 **Token-budget-aware提示**,并将其输入LLM以生成最终的答案。根据估计的Token预算,构建提示,例如:“Let’s think step by step and use less than [budget] tokens: [question]”。通过动态调整token预算,确保LLM在生成推理步骤时既简洁又准确。
## 实验结果
在多个数据集(如 GSM8K、GSM8K-Zero、MathBench 等)和不同 LLM(Yi-lightning、GPT-4o-mini、GPT-4o 等)上,采用零样本估计器版本的TALE 框架平均减少 68.64% 的输出 Token 成本,同时保持较高准确率(平均准确率 81.03%,准确率损失小于 5%),显示出良好的预算估计准确性和有效性,且在不同 LLM 架构上通用性良好,证明其在平衡成本效率和推理性能方面的优势。


---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.18547]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:董雪梅,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241220-20241226/英伟达和高校联合提出数据选择策略,大幅强化模型预训练效果.md
================================================
### Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining
*Steven Feng, Shrimai Prabhumoye, Kezhi Kong, Dan Su, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro*
*NVIDIA, Stanford University, Boston University*
现有的大型语言模型预训练方法在数据选择、混合与排序策略上存在局限,通常未能充分考虑不同训练阶段对数据多样性和质量的差异化需求。这种一刀切的策略导致模型在不同阶段难以取得最优表现,影响在下游任务上的准确性和泛化能力。因此,论文提出了一种**两阶段预训练策略**,针对不同训练阶段的特点,分别采用不同的数据选择和混合策略,有效解决了预训练过程中**数据多样性与质量的平衡**以及**不同阶段数据需求不匹配**的问题。
## 研究内容
在模型的预训练阶段,优化数据的选择和混合方案,提升模型在下游任务的表现。
## 研究动机
当前大模型的预训练依赖于大量数据,但关于如何最佳地选择、混合这些数据以提高模型性能这一问题尚未得到很好的解决。
## 技术动机
通过使用分阶段的方式,将模型的训练过程分为两个阶段,来应对模型训练早期和后期对数据不同的需求,从而整体提升模型性能。
## 解决方案

论文将模型的预训练过程分为了两个阶段,并且按照不同阶段的侧重点,利用不同的数据选择策略。
**Phase-1:注重数据多样性**
在预训练初期,需要确保模型能够学习广泛的语言特性和泛化能力,因此主要使用多样性更高的数据。论文在这一阶段主要使用Web Crawl来进行训练。因为Web Crawl 数据来源广泛,涵盖了海量的文本内容, 数据涵盖不同领域、风格、语言和上下文,适合在预训练初期帮助模型建立通用的语言理解能力。

**Phase-2: 质量优先**
在预训练后期,模型已经具备了一定的语言理解能力,需要进一步**细化和优化**。而Web Crawl数据集虽然足够丰富多样,但数据的信息密度往往较低,并且可能包含低质量、重复或有偏见的内容。因此在这一阶段使用高质量、结构化的数据源(如维基百科、代码、数学文本),确保训练后的模型在高复杂度任务上的表现更稳定和准确。

## 实验结果

论文在1T token的规模上设计并验证了数据混合策略, 实验结果显示,该方法在下游任务中平均准确率比随机数据排序和自然分布分别提高了3.4%和17%。接着,论文还进一步扩展到15T token和更大模型规模(25B参数),并证明了方案的有效性。此外,论文还对两阶段中不同的数据集配比等方面进行了深入的探索,为后续大模型的预训练数据选择提供了巨大的参考价值。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.15285]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:李佳晖,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241227-20250102/CCoT压缩链式思维框架,极大降低 CoT 计算开销.md
================================================
# Compressed Chain of Thought: Efficient Reasoning through Dense Representations
*Jeffrey Cheng, Benjamin Van Durme 等*
*Hopkins University 等*
本文提出了**压缩链式思维(Compressed Chain-of-Thought, CCoT)**框架,用于提高大语言模型的推理效率和性能。传统链式推理(CoT)通过显式生成推理链来分步完成复杂问题,但需要较高的生成成本和时间。CCoT通过生成压缩的内容丰富的连续表征,减少推理链长度,从而显著降低计算成本,同时保持推理性能。
## 研究内容
研究如何通过压缩的连续表征生成更高效的链式推理机制,从而在推理性能与生成效率之间实现更优的平衡。
## 研究动机
传统链式推理(CoT)虽然能够提升推理能力,但需要生成完整的推理链,导致计算开销大、生成时间长,限制了实际应用中的效率。

## 技术动机
通过将显式的语言推理链压缩为内容丰富的连续表征(连续嵌入空间),可以减少推理步骤,降低生成成本,同时保留推理链的信息,从而在性能和效率上取得平衡。
## 解决方案
**压缩链式思维(CCoT)框架**旨在通过压缩的内容表征生成推理链,以降低推理开销并提高推理性能。其核心方法包括两个主要模块:**CCOT模块**和**DECODE模块**。

#### 1. **问题背景与符号**
假设语言模型为预训练的因果解码器 $LM_\theta$,模型权重为 $\theta$。任务输入为一个查询 $w_{1:n}$,其完整推理链为 $t_{1:m}$,目标答案为 $a_{1:o}$。
推理链的压缩比例用 $r$ 表示($0 < r < 1$),压缩后推理链的长度为 $k = \lceil r \cdot m \rceil$。
#### 2. **CCOT 模块**
**目标**:生成内容丰富的连续嵌入作为压缩推理链的表征,记为 $\hat{z}_{1:k}$,以近似完整推理链的隐状态。
**训练流程**:
1. **生成隐状态**:
- 对输入 $[w_{1:n}; t_{1:m}; a_{1:o}]$ 进行嵌入和隐状态计算:
$$
[\bar{w}_{1:n}; \bar{t}_{1:m}; \bar{a}_{1:o}] = \text{EMBED}_\theta([w_{1:n}; t_{1:m}; a_{1:o}])
$$
$$
[\hat{w}_{1:n}; \hat{t}_{1:m}; \hat{a}_{1:o}] = \text{ATTN}_\theta([\bar{w}_{1:n}; \bar{t}_{1:m}; \bar{a}_{1:o}])
$$
2. **选择金标准子集隐状态**:
- 使用评分器(scorer)模块选择 $k$ 个隐状态 $I$ 索引,得到子集隐状态 $z_{1:k} = \hat{t}_I$,作为金标准。
- 评分器通过线性层实现:
$$
I = \text{SCORER}(\hat{t}_{1:m})
$$
3. **近似生成子集隐状态**:
- CCOT模块 $\phi$ 接受输入 $\hat{z}_{0:k-1}$ 生成新的隐状态表征:
$$
\hat{z}_{1,k} = \text{CCOT}_\phi(\hat{z}_{0,k-1})
$$
其中 $\hat{z}_{0,k-1}$ 是查询 $w_{1:n}$ 的最后一个隐状态。
4. **分层训练**:
- 对每一层 $l$,优化目标为缩小生成隐状态与目标隐状态之间的均方误差:
$$
\text{LOSS}_\phi = \frac{1}{k} \sum_{i=1}^k \frac{\text{MSE}(z_i^l, \hat{z}_i^l)}{\sigma^2(z_i^l)}
$$
- 在训练第 $i$ 层时,只更新该层的参数,冻结之前层的参数,分层细化隐状态近似。
#### 3. **DECODE 模块**
**目标**:利用生成的压缩推理链 $\hat{z}_{1:k}$ 和查询 $w_{1:n}$,解码最终答案 $a_{1:o}$。
**训练流程**:
1. **生成压缩推理链**:
- 使用已训练的 CCOT 模块 $\phi$ 逐步生成推理链表征:
$$
\hat{z}_i = \text{CCOT}_\phi(\hat{z}_{i-1})
$$
2. **解码答案**:
- 利用 $w_{1:n}$ 和 $\hat{z}_{1:k}$,基于条件生成模型 $\psi$ 解码答案:
$$
p(a_i | a_{1:i-1}, \hat{z}_{1:k}, w_{1:n}) = \text{DECODE}_\psi(\hat{a}_{1:i-1}, \hat{z}_{1:k}, \hat{w}_{1:n})
$$
3. **优化目标**:
- 对解码过程中的生成分布,优化交叉熵损失:
$$
\text{LOSS}_\psi = -\sum_{i=2}^o \log p(a_i | a_{1:i-1}, \hat{z}_{1:k}, w_{1:n})
$$
4. **终止条件预测**:
- 增加一个二分类模块 $\text{END}_\psi$,预测是否需要生成更多的推理链表征,直到达到终止条件。
#### 4. **推理阶段**
推理过程的两个主要阶段:
1. **生成推理链表征**:
- 使用 CCOT 模块自回归生成 $\hat{z}_{1:k}$,每一步基于上一层的隐状态生成下一步:
$$
[\hat{w}_{1:n}; \hat{z}_{1:k}] = \text{CCoT}_{\phi}([\bar{w}_{1:n}; \hat{z}_{1:k-1}])
$$
2. **生成答案**:
- 在生成的推理链和原始查询的条件下,通过 DECODE 模块逐步生成答案:
$$
\hat{a}_{1:o} = \text{DECODE}_{\psi}([\bar{w}_{1:n}; \hat{z}_{1:k}; \bar{a}_{1:o-1}])
$$
### 实验结果
本文在 **GSM8K** 数据集上测试模型性能,该数据集包含数学推理任务,要求语言模型具备多步推理能力。模型选择了 LLAMA2-7B-CHAT,使用 **LoRA**(低秩适配)技术对$CCOT_{\phi}$(rank=128)和$DECODE_{\psi}$(rank=64)的参数进行微调。以下是主要实验结果:
<img src="/Users/yuhang/Library/Application Support/typora-user-images/image-20250102161512891.png" alt="image-20250102161512891" style="zoom:50%;" />
以上结果表明,**CCoT** 在 $r=0.05,0.10$ 的低压缩比情况下,以显著低于传统CoT的生成时间实现了较好的准确率,体现了其高效性。
综上, **压缩链式思维(Compressed Chain-of-Thought, CCoT)** 框架,作为传统链式推理(CoT)的高效替代方案。通过生成压缩推理链实现了推理效率与性能的平衡,为复杂推理任务提供了更高效的解决方案,同时保留了推理链的内容表征,具有良好的扩展性和适用性。
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2412.13171]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:葛宇航,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241227-20250102/任务偏好优化:多模态大语言模型的精细视觉任务革命.md
================================================
# Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
_Ziang Yan, Zhilin Li , Yinan He Chenting Wang , Kunchang Li , Xinhao Li , Xiangyu Zeng Zilei Wang , Yali Wang ,Yu Qiao , Limin Wang , Yi Wang_
_Shanghai AI Laboratory_
现有的多模态大语言模型(MLLMs),如LLaVA和VideoChat,在处理视觉任务时,虽然展现出一定的推理和理解能力,但在细粒度视觉任务(如时间片段定位、目标跟踪和像素分割)上表现仍然不足。这主要是由于视觉任务需求与语言表征之间的冲突,难以同时兼顾精细预测与多模态推理性能。因此,本文提出了**任务偏好优化(Task Preference Optimization, TPO)**方法。该方法通过引入可学习的任务tokens和任务头架构,结合分阶段多模态训练策略,显著提升了模型在精细化视觉任务和多模态对话中的综合能力,同时保持较高的计算效率。
## 研究内容
本文研究如何设计一种新框架,使得多模态模型能够处理精细化的视觉任务(如时间定位、分割)并提升多模态对话能力。
## 研究动机
当前 MLLMs 在视觉推理任务中表现出色,但在处理精细化的视觉任务(如区域定位和时间片段标注)时能力不足,且现有方法常以牺牲整体多模态性能为代价来优化单一任务。
## 技术动机
跨任务联合训练有互补效应,但视觉预测与语言表征存在冲突,因此需要设计解耦的任务表征来解决。
## 解决方案

#### 任务偏好模型(TPM)设计
任务偏好模型(TPM)由**任务tokens**和**任务头**组成,用于处理不同的视觉任务需求。
**任务tokens:**
- 任务 tokens 是可学习的嵌入,模型通过语言输入动态激活相应的任务token。任务tokens 通过语言模型的最后一层隐藏层嵌入生成任务特定表示.
**任务头:**
任务头负责根据输入视觉特征和任务嵌入执行特定任务:
- **区域头(Region Head)**:基于两层多层感知机(MLP),用于回归边界框坐标,完成空间定位任务。
- **时间头(Temporal Head)**:结合视频编码器、文本编码器和时间定位模型,用于时间片段标注任务,输出开始和结束时间。
- **掩码头(Mask Head)**:通过像素级解码器生成目标掩码,用于分割任务。
任务头通过任务嵌入连接到视觉特征,形成紧密的任务特定优化。
#### 任务偏好优化目标
TPO 的优化目标整合了多模态对话任务和视觉任务,损失函数定义为:
$$
L = L_{\text{mllm}} + L_{\text{assign}}(G(T_q), s) + \sum_{i=1}^n L_{\text{task}}(A_i, H_i(G(v_i)))
$$
- $L_{\text{mllm}}$:多模态对话任务的最大似然损失。
- $L_{\text{assign}}(G(T_q), s)$:任务分配损失,基于用户输入指令 $T_q$ 和任务标签 $s$,使用交叉熵损失进行优化。
- $L_{\text{task}}(A_i, H_i(G(v_i)))$:任务优化损失,针对不同视觉任务使用分类或回归相关损失:
- 如区域任务采用边界框回归损失;
- 时间任务采用时间片段回归损失;
- 掩码任务采用像素级交叉熵损失。
#### **分阶段训练策略**
TPO 使用分阶段的本地到全局训练策略,确保模型在任务识别、单任务性能和多任务能力上的逐步优化。
**阶段1:任务分配阶段**
- 让模型能够识别用户输入中的任务类型,并动态激活相应的任务Tokens。使用 LoRA微调语言模型,确保任务token与任务头之间的激活准确性。
**阶段2:单任务优化阶段**
- 提高模型在单一视觉任务(如区域定位、时间标注或像素分割)上的性能。模型更新方向仅限于任务头和任务token,确保单任务的局部优化。
**阶段3:多任务联合优化阶段**
- 整合多模态对话数据和视觉任务数据,提升模型在多任务场景下的综合能力。
## 实验结果
在实验设计中,研究者选择了多个主流的多模态理解基准测试,如 MVBench、VideoMME 和 MLVU 等,用于全面验证 TPO 的有效性。实验结果表明,TPO 在多种视觉任务中展现了显著的性能提升:
- **时刻检索**:在多个基准测试中,VideoChat-TPO 超越了现有的最先进模型,表现出卓越的时间段定位能力,尤其是在需要复杂推理的场景中展现了明显优势。
- **高亮检测**:TPO 显著增强了模型在关键时刻识别和定位任务中的表现,有效处理动态视觉信息并提取重要内容。
- **空间定位**:通过实验验证,TPO 在文本指导下生成边界框的能力得到了显著提升,展现了模型在精细化空间定位任务中的优越性能。

---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.19326v1]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:徐文溢,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241227-20250102/减少不必要的计算开销,让模型不再“过度思考”.md
================================================
### Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
*Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu*
*Tencent AI Lab, Shanghai Jiao Tong University*
本文聚焦于o1类大语言模型在推理任务中的“过度思考”问题,提出了一种自训练框架,涵盖**长度偏好优化**(SFT、DPO、RPO、SIMPO)和**简化回答**(FCS、GDS)两大策略,分别通过优化推理路径长度和直接简化推理步骤,减少计算冗余并提升推理效率。实验结果表明,该方法在多个基准测试集上有效减少计算开销,同时保持了高水平的性能,展示出在资源受限场景下的广泛应用潜力。
## 研究内容
在o1类大模型的推理过程中经常出现过度思考的问题,导致推理效率较低。例如在回答“2+3等于几”的问题时,o1类的模型(o1-Preview、QwQ-32B-Preview、Deepseek-R1-Preview)会话费过多的计算资源。平均而言,o1类模型花费的Token比常规模型多出1953%。

## 研究动机
当前o1类大模型在面对简单任务时,往往使用与复杂任务相同的推理路径和计算资源,导致资源浪费,推理速度下降,限制了模型在大规模实际场景下的部署和应用。
## 技术动机
通过引入自训练机制,使模型可以学习在简单任务上减少不必要的计算步骤,同时在复杂任务上保持足够的推理深度。
## 解决方案
论文提出了一种基于自训练的优化策略,该策略包括两个核心步骤:
**长度偏好优化(Length Preference Optimization)**

首先生成10个样本响应,并丢弃未能生成正确答案的样本,使用不同的策略来选择最终的结果。实验结果发现最短的响应在结果和过程效率方面表现更好,且使用的轮次和令牌更少。由此,基于以下方法来进行长度偏好的优化:
1. **监督式微调(SFT)**:使用正合成数据对预训练模型进行微调,使模型学会将输入映射到优选的输出,通过最小化预测输出和实际输出之间的交叉熵损失。
2. **直接偏好优化(DPO)**:直接在人类偏好的回答上训练模型,增加模型产生优选回答的可能性。
3. **推理偏好优化(RPO)**:在DPO损失上增加一个负对数似然(NLL)项,增强DPO训练的稳定性,同时保持生成内容的期望格式,并防止选定响应的对数概率降低。
4. **简单偏好优化(SimPO)**:解决其他偏好优化方法中奖励函数与生成度量之间的差异,通过自训练方式提升模型效率。
**简化回答(Simplifying Responses to Further Enhance Efficiency)**
尽管较短的响应样本提高了o1类模型的效率,但它们仍然存在“过度思考”问题。通过实验发现,响应中较早的解决方案往往更高效,因此我们进一步简化响应以增强效率。我们提出了三种简化策略,这些策略在如何从开头截断响应方面有所不同。
1. **首次正确解决方案(FCS)**:仅保留最早得出正确答案的解决方案,以减少不必要的后续解决方案。
2. **FCS+Reflection**:在正例中包括第二个达到正确答案的解决方案,以保持模型的长反射能力,同时提高效率。
3. **贪婪多样化解决方案(GDS)**:贪婪地扩展提供新视角的解决方案,增加多样性。

## 实验结果
论文的实验结果表明,提出的优化策略在减少推理计算开销的同时,保持了较高的性能表现。在多个基准测试集(如GSM8K、MATH500、GPQA、AIME)上的实验显示,自训练范式(包括长度偏好优化和简化回答)有效减少了推理过程中的冗余步骤,提高了推理效率。此外,在简单任务上,模型表现出更快的响应速度,而在复杂任务上,性能几乎没有下降。这验证了所提出方法在资源受限场景中的实际应用潜力。

---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/pdf/2412.21187]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:李佳晖,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20241227-20250102/大模型 “进化密码”:加权偏好优化弥补自身短板.md
================================================
# Plug-and-Play Training Framework for Preference Optimization
**作者**:*Jingyuan Ma , Rui Li等*
**单位**:北京大学, 北京航空航天大学
本文提出一种即插即用的加权偏好优化训练框架,通过动态调整训练样本的权重,优化大语言模型在偏好优化中的表现。
## 研究内容
构建加权偏好优化训练框架。通过多次采样分析模型的输出分布,为不同难度的训练样本分配权重,并将这些权重整合到偏好优化过程中,提升模型性能。
## 研究动机
现有方法(如DPO、PPO)对所有样本同等对待,忽略了样本复杂性和模型错误倾向的差异,这种对所有样本一视同仁的做法导致模型对于困难样本的学习效果不佳。
## 技术动机
模型的输出分布可以反映其对问题的掌握程度,简单问题输出一致,复杂问题输出多样且错误率高。通过多次采样,分析模型在不同问题上的表现,动态调整样本权重,优先处理模型难以掌握的问题。
## 解决方案

该框架通过动态调整训练样本的权重,优先处理模型难以掌握的困难样本,从而提升模型在偏好优化中的表现。具体分为以下三个步骤:
#### 1. **数据收集**
- **多次采样**:对每个问题多次采样模型的输出,收集模型的响应分布。通过多次采样,能够更全面地了解模型在不同问题上的表现,尤其是模型在简单问题和复杂问题上的输出差异。
- **数据集构建**:将多次采样的结果构建成数据集 $ D = \{x, y_1, y_2, \ldots, y_n\} $,其中 $ x $ 是问题,$ y_1, y_2, \ldots, y_n $ 是模型的不同响应。
#### 2. **权重计算**
- **分析输出分布**:通过分析模型在多次采样中的输出分布,计算每个问题的正确响应和错误响应的频率。具体来说,计算正确响应的数量 $ P_c $ 和错误响应的数量 $ P_e $。
- **动态权重分配**:根据模型的表现,为每个问题分配权重。权重的计算公式如下:
$$
w = \begin{cases}
1 + \alpha \cdot \frac{P_e}{N}, & \text{if } P_c = 0, \\
\max \left(1, 1 + \alpha \cdot \frac{P_e}{P_c + \epsilon} \cdot \frac{1}{N}\right), & \text{if } P_c > 0.
\end{cases}
$$
其中,$ \alpha $ 是控制权重调整幅度的超参数,$ \epsilon $ 是一个小常数,$ N $ 是每个问题的采样次数。该公式确保模型在频繁出错的样本上获得更高的权重,从而在训练中优先处理这些困难样本。
- **构建偏好数据对**:根据权重计算结果,构建偏好数据对 $ D = \{x, y_w, y_l\} $,其中 $ y_w $ 是模型生成的正确响应,$ y_l $ 是错误最多的响应。如果模型未能生成正确响应,则使用标准答案作为 $ y_w $。
#### 3. **加权训练**
- **整合权重到优化目标**:将计算得到的权重整合到偏好优化过程中,使用 Bradley-Terry 模型优化目标函数。具体来说,优化目标为:
$$
L_R = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( w \cdot (r(x, y_w) - r(x, y_l)) \right) \right]
$$
其中,$ r(x, y_w) $ 和 $ r(x, y_l) $ 分别是模型对正确响应和错误响应的评分,$ w $ 是样本的权重,$ \sigma $ 是 sigmoid 函数。通过引入权重,模型在训练过程中会优先优化那些权重较高的困难样本。在实际训练中,权重的引入仅增加了少量的计算开销,能够在不显著增加训练时间的情况下,提升模型的训练效果。
## 实验结果
为了验证提出的加权偏好优化训练框架的有效性,作者进行了多项实验,主要围绕数学推理任务展开,使用了多个数据集和模型进行测试。在 GSM8K 和 MATH500 数据集上的实验结果表明,加权训练框架显著提升了模型的性能。例如,Qwen2-7B-Instruct 模型在 MATH500 数据集上的准确率从 51.0% 提升至 57.6%。加权训练框架在多种偏好优化方法(如 DPO、DPOP、SimPO、IPO)中均表现出色,证明了其即插即用的特性。

---
- 查看 Arxiv 原文链接请点击“**阅读原文**”
[https://arxiv.org/pdf/2412.20996]
- **更多**模型学习资料,请详见浙大 Daily 实验室 Github 仓库:**https://github.com/ZJU-LLMs/Foundations-of-LLMs**
- 本文编辑:张超 毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20250103-20250109/LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型.md
================================================
# LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Shaolei Zhang, Qingkai Fang等
中国科学院智能信息处理重点实验室, 中国科学院计算技术研究所等
本文提出了LLaVA-Mini,通过对多模态大模型注意力矩阵的逐层分析,发现视觉token主要在模型的前几层被利用,基于这一发现,文章引入了模态预融合技术,将视觉信息提前融入文本token,将输入LLM主干的视觉token压缩至一个token。
## 研究内容
多模态大模型的视觉token压缩
## 研究动机
现有方法表现不佳:现有方法依赖于预定义规则来减少视觉编码器输出的token数量,或专注于LLM主干小型化,或者其他方法,仍会导致视觉信息的大量丢失。
## 技术动机
**多模态大模型是如何理解视觉token的?**
通过提出这一疑问,本文对模型进行逐层分析,发现视觉token主要在模型的前几层被利用,随着层级的加深,关注视觉token的注意力急剧减少。
## 解决方案

基于上面的发现——视觉token在模型的浅层中对融合视觉信息至关重要,LLaVA-Mini在LLM主干网络之前引入了一个模态预融合模块,将视觉信息提前融合到文本token中。下面分别介绍LLaVA-Mini的两个重要模块,视觉token压缩模块和模态预融合模块
**视觉token压缩模块**
LLaVA-Mini 引入了$C \times C$可学习的压缩查询 $Q_v$。这些查询通过交叉注意力与所有视觉token $H_v$进行交互,选择性地提取重要的视觉信息,生成$C \times C$压缩的视觉token $\hat{H}_v \in \mathbb{R}^{C_2 \times d_h}$。为了在压缩过程中保留图像的空间信息,我们对可学习查询和原始视觉token引入了2D正弦位置编码。
**模态预融合模块**
模态预融合模块$f(\cdot)$由 $N_{\text{fusion}}$ 个Transformer块组成,每个Transformer块与LLM骨干网络共享相同的结构和超参数。视觉token $H_v$和文本token $H_q$被连接并输入到预融合模块中,然后提取与文本相关的视觉信息作为融合token,表示为:
$$
\hat{H}_q = f(\text{Concat}(H_v, H_q))[-l_q:]
$$
其中$\hat{H}_q \in \mathbb{R}^{l_q \times d_h}$是包含相关视觉信息的文本表示的融合token。
最终,压缩后的视觉token $\hat{H}_v$和融合token $\hat{H}_q$(共$C_2 + l_q$个token)一起输入到LLM中,以生成响应。
## 实验结果
本文在图像和视频理解任务上评估LLaVA-Mini,为了公平比较,采用与LLaVA-v1.5相同的配置。分为两个配置LLaVA-Mini-HD-压缩至64个token,LLaVA-Mini-压缩为一个token。实验在11个图像基准和7个视频基准上进行,实验结果分别如下:


综上,本文推出了LLaVA-Mini,结合模态预融合模块高效压缩视觉token。LLaVA-Mini在图像和视频理解方面表现出色,同时在计算效率、推理延迟和内存使用方面具有优势。
---
- 查看 Arxiv 原文请点击"**阅读原文**"[https://arxiv.org/abs/2410.10630v1]
- **更多**大模型学习资料,详见浙江大学LLMs Github仓库:
https://github.com/ZJU-LLMs/Foundations-of-LLMs
- 本文编辑:胡中豪,毛玉仁
================================================
FILE: Arxiv 一周进展报告(大模型方向)/20250103-20250109/PPT 生成革命!PPTAgent:AI 帮你一键搞定高质量演示文稿,设计、内容、逻辑全搞定!.md
================================================
# **PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides**
*Hao Zheng, Xinyan Guan, Hao Kong* 等
*Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences* 等
本文提出了 PPTAgent,通过基于编辑的两阶段方法生成高质量演示文稿,并引入 PPT Eval 评估框架,全面评估演示文稿的内容、设计和连贯性。
## 研究内容
本文研究了如何从文档自动生成演示文稿,同时平衡内容质量、视觉设计和结构连贯性。
## 研究动机
现有方法主要关注文本内容质量,忽视了视觉设计和结构连贯性,导致生成的演示文稿缺乏吸引力和逻辑性,限制了其实际应用价值。下图展示了PPTAgent和现有方法的主要区别,PPTAgent参考已有幻灯片,在已有参考的基础上进行编辑,避免从零开始制作幻灯片,与人类表示创建过程更加接近。
<img src="https://fastly.jsdelivr.net/gh/bucketio/img13@main/2025/01/09/1736424655505-9f1e0d7c-67fd-49dd-97d2-263a5cdf6f7a.png" style="zoom: 33%;" />
## 技术动机
模拟人类创作演示文稿的流程。人类通常通过选择示例幻灯片作为参考,然后总结和转移关键内容来创建演示文稿,而非从头开始创建复杂演示文稿。这种基于编辑的方法能更好地处理空间关系和设计风格。
## 解决方案
#### 1. PPTAgent
下图展示了PPTAgent的工作流程。第一阶段:演示分析,包括分析输入演示,将幻灯片聚类为组,并提取它们的内容模式。第二阶段:演示文稿,首先基于文本生成大纲,然后在大纲的指导下生成新的演示文稿,结合反馈机制以确保鲁棒性。

##### 阶段一:演示文稿分析
- **幻灯片聚类**:首先,将参考演示文稿中的幻灯片根据其功能和内容特征进行聚类。
- **功能性的幻灯片**(如开场幻灯片)通过LLM分析其文本特征进行聚类。
- 主要展示**具体内容的幻灯片**则采用层次聚类方法,利用图像相似性进行聚类。
这样可以将幻灯片分为不同的功能组,为后续的编辑和生成提供结构化的参考。
- **模式提取**:在幻灯片聚类的基础上,进一步分析每个幻灯片的内容模式。利用LLM的上下文感知能力,将幻灯片中的每个元素表示为**类别**、**模态**和**内容**,并提取出幻灯片的内容模式。这一步骤确保了在后续编辑过程中,可以有针对性地对幻灯片进行修改和内容填充,使其符合预期的展示目的和结构。
##### 阶段二:演示文稿生成
- **大纲生成**:根据输入文档和分析后的参考演示文稿,生成一个详细的
gitextract_egmte1ht/
├── Arxiv 一周进展报告(大模型方向)/
│ ├── 20241004-20241010/
│ │ ├── TOOLGEN:探索Agent工具调用新范式!.md
│ │ ├── TableRAG:让大模型轻松驾驭大规模表格数据.md
│ │ ├── 利用 KG-RAG 提升病理解释性能,并保护隐私.md
│ │ ├── 精准思考,智能分配算力.md
│ │ ├── 重要性采样,解锁Token级偏好对齐.md
│ │ └── 零额外推理开销,提升RAG性能!.md
│ ├── 20241011-20241017/
│ │ ├── TPO:平民版 OpenAI-O1,思维能力遥遥领先!.md
│ │ ├── Talker-Reasoner:继物理和化学后,诺贝尔经济学奖成为新目标?.md
│ │ ├── 北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!.md
│ │ ├── 打破选择困局:多智能体带你高效选择预训练数据.md
│ │ ├── 自回归奖励模型让 LLM 对齐不再困难!.md
│ │ └── 谷歌联合CMU提出超强奖励模型,大模型推理能力的新曙光!.md
│ ├── 20241018-20241024/
│ │ ├── DeepSeek最新多模态大模型,理解与生成同时遥遥领先!.md
│ │ ├── LongRAG:长文本问答的 “超级导航仪”,精准定位答案.md
│ │ ├── NetSafe:探秘多智能体网络安全拓扑“攻守道”(1).md
│ │ ├── SSO:无需人工标注,自动对齐 LLM!.md
│ │ ├── WMA Web Agent:让世界告诉Agent决策有风险需谨慎!.md
│ │ └── 普林斯顿大学提出 TreeBoN !大语言模型推理效能「提升秘籍」曝光.md
│ ├── 20241025-20241031/
│ │ ├── 2D-DPO:告别“一刀切”!多维度对齐 LLM 偏好.md
│ │ ├── AgentStore:智能世界的超级 “App Store”.md
│ │ ├── CMU 与普林斯顿大学携手改进 BoN 算法,打破大模型推理时计算效率瓶颈!.md
│ │ ├── Flow-DPO:像数学老师一样思考!多智能体推理链自动生成.md
│ │ └── PULSE 多模态大模型读懂你的心٨ـﮩ٨ـ🖤ﮩ.md
│ ├── 20241101-20241107/
│ │ ├── Adapting While Learning:自适应使用智能工具助力科学探索.md
│ │ ├── SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力.md
│ │ ├── StepAgent:从小白到大神,过程奖励助力 Agent 进化.md
│ │ ├── 谷歌出品 SLED 解码技术,让大语言模型输出更靠谱!.md
│ │ └── 颠覆Transformer,神经网络自演化的开端!!!1.md
│ ├── 20241108-20241114/
│ │ ├── IOPO:化身超级助手,让 LLM 轻松应对复杂指令.md
│ │ ├── Spider 2.0 来袭!大语言模型能否应对企业级 Text-to-SQL 的超强挑战?.md
│ │ └── UC Berkeley 和 CMU 出手!揭开大语言模型泛化的 “神秘面纱”.md
│ ├── 20241115-20241121/
│ │ ├── LPO:“智能控温”,自适应调整 LLM 解码温度.md
│ │ ├── XiYan-SQL:突破性Text-to-SQL框架,准确率遥遥领先!.md
│ │ └── 一键自动化:Claude 3.5与GUI Agent的破晓时刻.md
│ ├── 20241206-20241212/
│ │ ├── Coconut 从语言脑到推理脑,大模型连续潜在空间推理.md
│ │ ├── RARE 登场:大模型推理的 “智慧导航仪”,精准穿越知识迷宫.md
│ │ ├── VisionZip压缩视觉token,提升视觉模型推理效率.md
│ │ └── 迈向高效智能:大语言模型的能力密度增长与密度定律.md
│ ├── 20241213-20241219/
│ │ ├── Meta 提出大概念模型(LCM),突破词级限制的多语言多模态大语言模型.md
│ │ ├── ModernBERT:革新编码器模型,引领高效长上下文处理新时代.md
│ │ ├── RetroLLM:检索生成大融合,“鹰眼”精准定位答案.md
│ │ ├── SHAD+RFT:面向Agent-Task的大模型微调新范式.md
│ │ ├── Think&Cite:让 LLM 不再“空口无凭”,句句有出处.md
│ │ ├── 大语言模型的 “幻觉克星” 来了!DePaC 助力精准生成.md
│ │ ├── 强强联合,Meta与斯坦福发布最新视频大模型Apollo:揭示扩展一致性新规律.md
│ │ └── 腾讯提出Cal-DPO,解决DPO重大缺陷.md
│ ├── 20241220-20241226/
│ │ ├── GME:打破模态界限,全新通用多模态检索器的探索与突破.md
│ │ ├── Mulberry:多模型合作MCTS,让MLLM进入o1推理时代.md
│ │ ├── Proactive Agent:主动读取需求,让AI比你更懂你.md
│ │ ├── RobustRF:打造鲁棒微调框架,大幅提升大模型在噪声环境下的性能.md
│ │ ├── 大语言模型的 “省钱秘籍”!TALE 框架让推理成本大瘦身.md
│ │ └── 英伟达和高校联合提出数据选择策略,大幅强化模型预训练效果.md
│ ├── 20241227-20250102/
│ │ ├── CCoT压缩链式思维框架,极大降低 CoT 计算开销.md
│ │ ├── 任务偏好优化:多模态大语言模型的精细视觉任务革命.md
│ │ ├── 减少不必要的计算开销,让模型不再“过度思考”.md
│ │ └── 大模型 “进化密码”:加权偏好优化弥补自身短板.md
│ └── 20250103-20250109/
│ ├── LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型.md
│ ├── PPT 生成革命!PPTAgent:AI 帮你一键搞定高质量演示文稿,设计、内容、逻辑全搞定!.md
│ ├── 微软提出rStar-Math,7B小模型数学能力直逼o1!.md
│ └── 陈丹琦团队新作 MeCo,元数据条件化加速模型预训练.md
├── Foundations_of_LLMs(English_version)/
│ └── readme.md
├── LICENSE.md
├── readme.md
└── 大模型经典论文列表/
└── readme.md
Condensed preview — 64 files, each showing path, character count, and a content snippet. Download the .json file or copy for the full structured content (306K chars).
[
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/TOOLGEN:探索Agent工具调用新范式!.md",
"chars": 2466,
"preview": "# TOOLGEN: UNIFIED TOOL RETRIEVAL AND CALLING VIA GENERATION\n\n**作者**:*Renxi Wang, Xudong Han* 等\n\n**单位**:*LibrAI, Mohamed"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/TableRAG:让大模型轻松驾驭大规模表格数据.md",
"chars": 2480,
"preview": "# TableRAG: Million-Token Table Understanding with Language Models\n\n**作者**:*Si-An Chen, Lesly Miculicich , Julian Martin"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/利用 KG-RAG 提升病理解释性能,并保护隐私.md",
"chars": 2589,
"preview": "# LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thorac"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/精准思考,智能分配算力.md",
"chars": 2161,
"preview": "# LEARNING HOW HARD TO THINK: INPUT-ADAPTIVE ALLOCATION OF LM COMPUTATION\n\n**作者**:*Mehul Damani, Idan Shenfeld* 等 \n\n*"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/重要性采样,解锁Token级偏好对齐.md",
"chars": 3300,
"preview": "# TIS-DPO: Token-Level Importance Sampling for Direct Preference Optimization with Estimated Weights\n\n\n\n\n\n\n**作者**:*Aiwei"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241004-20241010/零额外推理开销,提升RAG性能!.md",
"chars": 2745,
"preview": "# PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference O"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/TPO:平民版 OpenAI-O1,思维能力遥遥领先!.md",
"chars": 2815,
"preview": "# Thinking LLMs: General Instruction Following with Thought Generation\n\n*Tianhao Wu, Janice Lan 等*\n\n*Meta FAIR, Universi"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/Talker-Reasoner:继物理和化学后,诺贝尔经济学奖成为新目标?.md",
"chars": 2840,
"preview": "# Agents Thinking Fast and Slow: A Talker-Reasoner Architecture\n\n**作者**:*Konstantina Christakopoulou, Shibl Mourad* 等\n\n*"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/北大 Parenting 方法登场:参数魔法解锁检索增强语言模型新高度!.md",
"chars": 3432,
"preview": "# Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailore"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/打破选择困局:多智能体带你高效选择预训练数据.md",
"chars": 2156,
"preview": "# Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining\n\n**作者**:*Tianyi Bai, Ling Yang, Zhen Hao Wong, "
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/自回归奖励模型让 LLM 对齐不再困难!.md",
"chars": 3094,
"preview": "# GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-Time Alignment\n\n**作者**:*Yuancheng Xu, Udari"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241011-20241017/谷歌联合CMU提出超强奖励模型,大模型推理能力的新曙光!.md",
"chars": 6143,
"preview": "# Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning\n\n**作者**:*Amrith Setlur, Chirag Nagpal1, Adam"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/DeepSeek最新多模态大模型,理解与生成同时遥遥领先!.md",
"chars": 2567,
"preview": "- ## Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation\n\n 作者:Chengyue Wu Xiaokang 等\n"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/LongRAG:长文本问答的 “超级导航仪”,精准定位答案.md",
"chars": 2344,
"preview": "# LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigmfor Long-Context Question Answering\n\n**作者**:*Qingfe"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/NetSafe:探秘多智能体网络安全拓扑“攻守道”(1).md",
"chars": 4275,
"preview": "# NetSafe: Exploring the Topological Safety of Multi-agent Network\n\n**作者**:*Miao Yu, Shilong Wang, Guibin Zhang, Junyuan"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/SSO:无需人工标注,自动对齐 LLM!.md",
"chars": 3013,
"preview": "# Aligning Large Language Models via Self-Steering Optimization\n\n**作者**:*Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yao"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/WMA Web Agent:让世界告诉Agent决策有风险需谨慎!.md",
"chars": 4671,
"preview": "# WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION\n\n**作者**:*Hyungjoo Chae, N"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241018-20241024/普林斯顿大学提出 TreeBoN !大语言模型推理效能「提升秘籍」曝光.md",
"chars": 5023,
"preview": "# TREEBON: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling\n\n\n\n**作者**:*Jiahao Qiu,"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241025-20241031/2D-DPO:告别“一刀切”!多维度对齐 LLM 偏好.md",
"chars": 3886,
"preview": "\n\n# 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision\n\n**作者**:Shilong Li, Yancheng He 等\n\n**单"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241025-20241031/AgentStore:智能世界的超级 “App Store”.md",
"chars": 2890,
"preview": "# AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant\n\n**作者**:*Miao Yu"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241025-20241031/CMU 与普林斯顿大学携手改进 BoN 算法,打破大模型推理时计算效率瓶颈!.md",
"chars": 4425,
"preview": "# Fast Best-of-N Decoding via Speculative Rejection\n\n\n\n**作者**:*Hanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiaha"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241025-20241031/Flow-DPO:像数学老师一样思考!多智能体推理链自动生成.md",
"chars": 3074,
"preview": "# Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning\n\n**作者**:*Yihe Deng ; Paul Mineiro*\n"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241025-20241031/PULSE 多模态大模型读懂你的心٨ـﮩ٨ـ🖤ﮩ.md",
"chars": 4074,
"preview": "# TEACH MULTIMODAL LLMS TO COMPREHEND ELECTROCARDIOGRAPHIC IMAGES\n\n*Ruoqi Liu ,Yuelin Bai , Xiang Yue, Ping Zhang* \n\n*Th"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241101-20241107/Adapting While Learning:自适应使用智能工具助力科学探索.md",
"chars": 3874,
"preview": "# **Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation**\n\n**作者**:*Bo"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241101-20241107/SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力.md",
"chars": 5522,
"preview": "# Self-Consistency Preference Optimization\n\n**SCPO:Meta 提出大模型自我进化新方法,突破复杂推理能力 **\n\n**作者**:*Archiki Prasad, Weizhe Yuan等*\n"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241101-20241107/StepAgent:从小白到大神,过程奖励助力 Agent 进化.md",
"chars": 4406,
"preview": "\n\n# From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning\n\n**作者**:*Zhirui Deng, Zhi"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241101-20241107/谷歌出品 SLED 解码技术,让大语言模型输出更靠谱!.md",
"chars": 3672,
"preview": "# SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models\n\n**作者**:*Jianyi Zhang, Da-Cheng"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241101-20241107/颠覆Transformer,神经网络自演化的开端!!!1.md",
"chars": 8364,
"preview": "## TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS\n\n作者:Haiyang Wang, Yue Fan 等\n\n单位:Max Planc"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241108-20241114/IOPO:化身超级助手,让 LLM 轻松应对复杂指令.md",
"chars": 5212,
"preview": "# IOPO: Empowering LLM s with Complex Instruction Following via Input-Output Preference Optimization\n\n**作者**:*Xinghua Z"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241108-20241114/Spider 2.0 来袭!大语言模型能否应对企业级 Text-to-SQL 的超强挑战?.md",
"chars": 6201,
"preview": "# Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows\n\n**作者**:*Fangyu Lei, Jixuan Chen"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241108-20241114/UC Berkeley 和 CMU 出手!揭开大语言模型泛化的 “神秘面纱”.md",
"chars": 4808,
"preview": "# What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?\n\n**作者**:*Katie Kang, Amrith Setlur* 等 \n\n**单"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241115-20241121/LPO:“智能控温”,自适应调整 LLM 解码温度.md",
"chars": 4187,
"preview": "# Adaptive Decoding via Latent Preference Optimization\r\n\r\n**作者**:*Shehzaad Dhuliawala, Ilia Kulikov 等*\r\n\r\n**单位**:*Meta A"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241115-20241121/XiYan-SQL:突破性Text-to-SQL框架,准确率遥遥领先!.md",
"chars": 6207,
"preview": "# XiYan-SQL: A Multi-Generator Ensemble Framework For Text-to-SQL\n\n**作者**:*Yingqi Gao, Yifu Liu等*\n\n**单位**:*Alibaba Group"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241115-20241121/一键自动化:Claude 3.5与GUI Agent的破晓时刻.md",
"chars": 2644,
"preview": "# **The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use**\n\n**作者**:*Siyuan Hu, Mingyu Ouyang, Di"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241206-20241212/Coconut 从语言脑到推理脑,大模型连续潜在空间推理.md",
"chars": 1922,
"preview": "# Training Large Language Models to Reason in a Continuous Latent Space\n\n*Shibo Hao, Sainbayar Sukhbaatar* 等\n\n*Meta, UC "
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241206-20241212/RARE 登场:大模型推理的 “智慧导航仪”,精准穿越知识迷宫.md",
"chars": 2838,
"preview": "# RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models\n\n_Hieu Tran, Zonghai Yao 等_\n\n_University of "
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241206-20241212/VisionZip压缩视觉token,提升视觉模型推理效率.md",
"chars": 1638,
"preview": "# VisionZip: Longer is Better but Not Necessary in Vision Language Models\n\n_Senqiao Yang, Yukang Chen, Zhuotao Tian, Che"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241206-20241212/迈向高效智能:大语言模型的能力密度增长与密度定律.md",
"chars": 1659,
"preview": "- # Densing Law of LLMs\n\n Chaojun Xiao , Jie Cai, Maosong Sun等\n\n _Tsinghua University ModelBest Inc.等_\n\n 本文引入了“**能力密"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/Meta 提出大概念模型(LCM),突破词级限制的多语言多模态大语言模型.md",
"chars": 2848,
"preview": "# Large Concept Models: Language Modeling in a Sentence Representation Space\n\n*LCM Team,Loïc Barrault,Paul-Ambroise Duqu"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/ModernBERT:革新编码器模型,引领高效长上下文处理新时代.md",
"chars": 3542,
"preview": "# Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetunin"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/RetroLLM:检索生成大融合,“鹰眼”精准定位答案.md",
"chars": 2266,
"preview": "# RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation\n\n_Xiaoxi Li, Zhicheng D"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/SHAD+RFT:面向Agent-Task的大模型微调新范式.md",
"chars": 3189,
"preview": "# Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning\n\n*Ziang Ye, Zhenru Zhang* 等\n\n*Uni"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/Think&Cite:让 LLM 不再“空口无凭”,句句有出处.md",
"chars": 2190,
"preview": "# Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling\n\n*Junyi Li,"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/大语言模型的 “幻觉克星” 来了!DePaC 助力精准生成.md",
"chars": 1890,
"preview": "# Dehallucinating Parallel Context Extension for Retrieval-Augmented Generation\n\n_Zexiong Ma, Shengnan An 等_\n\n_Peking Un"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/强强联合,Meta与斯坦福发布最新视频大模型Apollo:揭示扩展一致性新规律.md",
"chars": 2439,
"preview": "- - # Apollo: An Exploration of Video Understanding in Large Multimodal Models\n\n Orr Zohar , Xiaohan Wang等\n\n Meta "
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241213-20241219/腾讯提出Cal-DPO,解决DPO重大缺陷.md",
"chars": 2267,
"preview": "# Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment\n\n\n\n**作者**:*Teng Xiao, Yige Yuan等*\n\n**单"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/GME:打破模态界限,全新通用多模态检索器的探索与突破.md",
"chars": 1765,
"preview": " # GME: Improving Universal Multimodal Retrieval by Multimodal LLMs\n\n 作者:Xin Zhang, Yanzhao Zhang等\n\n 单位:Tongyi Lab, Al"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/Mulberry:多模型合作MCTS,让MLLM进入o1推理时代.md",
"chars": 2340,
"preview": "# Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search\n\n*Huanjin Yao, "
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/Proactive Agent:主动读取需求,让AI比你更懂你.md",
"chars": 3296,
"preview": "# PROACTIVE AGENT: SHIFTING LLM AGENTS FROM REACTIVE RESPONSES TO ACTIVE ASSISTANCE\n\n*Yaxi Lu, Shenzhi Yang, Cheng Qian*"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/RobustRF:打造鲁棒微调框架,大幅提升大模型在噪声环境下的性能.md",
"chars": 2533,
"preview": "# RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response\n\n*Junyu Luo, Xiao Luo 等*\n\n*Peki"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/大语言模型的 “省钱秘籍”!TALE 框架让推理成本大瘦身.md",
"chars": 2914,
"preview": "# Token-Budget-Aware LLM Reasoning\n\n_Tingxu Han, Chunrong Fang 等_\n\n_Nanjing University, Rutgers University, UMass Amhers"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241220-20241226/英伟达和高校联合提出数据选择策略,大幅强化模型预训练效果.md",
"chars": 1888,
"preview": "### Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining\n\n*Steven Feng, Shrimai Prabhumoye,"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241227-20250102/CCoT压缩链式思维框架,极大降低 CoT 计算开销.md",
"chars": 3810,
"preview": "# Compressed Chain of Thought: Efficient Reasoning through Dense Representations\n\n*Jeffrey Cheng, Benjamin Van Durme 等*\n"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241227-20250102/任务偏好优化:多模态大语言模型的精细视觉任务革命.md",
"chars": 2612,
"preview": "# Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment\n\n_Ziang Yan, Zhili"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241227-20250102/减少不必要的计算开销,让模型不再“过度思考”.md",
"chars": 2459,
"preview": "### Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs\n\n*Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20241227-20250102/大模型 “进化密码”:加权偏好优化弥补自身短板.md",
"chars": 2439,
"preview": "# Plug-and-Play Training Framework for Preference Optimization\t\n\n\n\n**作者**:*Jingyuan Ma , Rui Li等*\n\n**单位**:北京大学, 北京航空航天大学"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20250103-20250109/LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型.md",
"chars": 2029,
"preview": "# LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token\n\nShaolei Zhang, Qingkai Fang等\n\n中国科"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20250103-20250109/PPT 生成革命!PPTAgent:AI 帮你一键搞定高质量演示文稿,设计、内容、逻辑全搞定!.md",
"chars": 3023,
"preview": "# **PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides**\n\n*Hao Zheng, Xinyan Guan, Hao Kong* 等\n\n*Ch"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20250103-20250109/微软提出rStar-Math,7B小模型数学能力直逼o1!.md",
"chars": 2427,
"preview": "# rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking\n\n*Xinyu Guan, Li Lyna Zhang 等*\n\nMicro"
},
{
"path": "Arxiv 一周进展报告(大模型方向)/20250103-20250109/陈丹琦团队新作 MeCo,元数据条件化加速模型预训练.md",
"chars": 2597,
"preview": "# Metadata Conditioning Accelerates Language Model Pre-training\n\n*Tianyu Gao, Danqi Chen 等*\n\n*Princeton Language and Int"
},
{
"path": "Foundations_of_LLMs(English_version)/readme.md",
"chars": 246,
"preview": "This book is the English version of the chinese book 《大语言模型基础》。Now, It is stiil a draft version, which is directly trans"
},
{
"path": "LICENSE.md",
"chars": 17488,
"preview": "# Attribution-NonCommercial-NoDerivatives 4.0 International\n\n> *Creative Commons Corporation (“Creative Commons”) is not"
},
{
"path": "readme.md",
"chars": 5915,
"preview": "✨ News: 我们开源了一款多智能体开发框架Agent-Kernel,让大家轻松玩转大规模多智能体系统!一百个智能体在自己的笔记本电脑上就能跑起来哦~\n科研、毕设、大创、SRTP都是让人眼前一亮的创新神器!\nGithub 地址: http"
},
{
"path": "大模型经典论文列表/readme.md",
"chars": 70939,
"preview": "# 大模型基础论文列表\n\n- [语言模型基础](#语言模型基础)\n - [基于统计方法的语言模型](#基于统计方法的语言模型)\n - [基于 RNN 的语言模型](#基于-rnn-的语言模型)\n - [基于 Transformer 的"
}
]
About this extraction
This page contains the full source code of the ZJU-LLMs/Foundations-of-LLMs GitHub repository, extracted and formatted as plain text for AI agents and large language models (LLMs). The extraction includes 64 files (284.1 KB), approximately 140.9k tokens. Use this with OpenClaw, Claude, ChatGPT, Cursor, Windsurf, or any other AI tool that accepts text input. You can copy the full output to your clipboard or download it as a .txt file.
Extracted by GitExtract — free GitHub repo to text converter for AI. Built by Nikandr Surkov.