AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.25-2024.07.01

文章目录～

1.Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language
2.BioMNER: A Dataset for Biomedical Method Entity Recognition
3.BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5
4.Interactive Topic Models with Optimal Transport
5.MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment
6.InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management
7.LLMEasyQuant -- An Easy to Use Toolkit for LLM Quantization
8.Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
9.Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems
10.xTower: A Multilingual LLM for Explaining and Correcting Translation Errors
11.Changing Answer Order Can Decrease MMLU Accuracy
12.Can Large Language Models Generate High-quality Patent Claims?
13.Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs?
14.From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data
15.Decoding-Time Language Model Alignment with Multiple Objectives
16.PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
17.Role-Play Zero-Shot Prompting with Large Language Models for Open-Domain Human-Machine Conversation
18.Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers
19."Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions
20.Detecting Machine-Generated Texts: Not Just "AI vs Humans" and Explainability is Complicated
21.LLaMIPa: An Incremental Discourse Parser
22.Enhancing Data Privacy in Large Language Models through Private Association Editing

1.Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

标题:自动筛选器：从语言驱动的高质量生成数据中学习

author:Yicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen

publish:19 pages, 7 figures

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.20085v1

摘要：
基于扩散的模型在生成具有各种布局的高质量图像方面显示出巨大的潜力，这对下游感知任务大有裨益。然而，仅由语言驱动的全自动布局生成，以及衡量多个生成实例的合适指标，还没有得到很好的探索。在这项工作中，我们提出了自动樱桃拾取器（Auto Cherry-Picker，ACP），这是一个新颖的框架，可生成高质量的多模态训练实例，以增强感知和多模态训练。从一个简单的自然语言概念列表开始，我们促使大型语言模型（LLM）生成详细的描述并设计合理的布局。接下来，我们使用现成的文本到图像模型生成多幅图像。然后，使用全面设计的指标对生成的数据进行完善，以确保质量。特别是，我们提出了一个新的指标–布局和图像综合得分（CLIS），以公平地评估生成的图像。通过定制初始概念列表，我们合成的高质量示例提高了各种场景下的性能，尤其是在应对与长尾分布和不平衡数据集相关的挑战时。下游任务的实验结果表明，Auto Cherry-Picker 可以显著提高现有模型的性能。此外，我们还深入研究了 CLIS 与下游任务性能提升之间的相关性，发现 CLIS 分数越高，性能越好。这一发现显示了评价指标在各种视觉感知和 MLLM 任务中发挥作用的潜力。将提供代码。

2.BioMNER: A Dataset for Biomedical Method Entity Recognition

标题:BioMNER：生物医学方法实体识别数据集

author:Chen Tang, Bohao Yang, Kun Zhao, Bo Lv, Chenghao Xiao, Frank Guerin, Chenghua Lin

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.20038v1

摘要：
命名实体识别（NER）是自然语言处理领域的一项基本而关键的任务。特别是在生物医学方法 NER 领域，由于学术文献中特定领域术语的不断涌入，这项任务面临着显著的挑战。目前生物医学方法（BioMethod）NER 的研究资源匮乏，主要原因是方法学概念错综复杂，需要深刻理解才能准确划分。在本研究中，我们提出了一种用于生物医学方法实体识别的新型数据集，并采用自动生物医学方法实体识别和信息检索系统来辅助人工标注。此外，我们还全面探索了一系列传统和当代开放域 NER 方法，包括利用为我们的数据集定制的最先进的大规模语言模型 (LLM)。我们的实证研究结果表明，语言模型的庞大参数数令人惊讶地抑制了与生物医学方法有关的实体提取模式的有效吸收。值得注意的是，该方法利用大小适中的 ALBERT 模型（仅 11MB），结合条件随机场 (CRF) 实现了最先进的（SOTA）性能。

3.BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5

标题:BESTOW：在 GPT 和 T5 中两全其美的高效、可流式语音语言模型

author:Zhehuai Chen, He Huang, Oleksii Hrinchuk, Krishna C. Puvvada, Nithin Rao Koluguri, Piotr Żelasko, Jagadeesh Balam, Boris Ginsburg

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19954v1

摘要：
在预训练的大型语言模型中加入语音理解功能已成为一个重要的研究方向（SpeechLLM）。以往的架构可分为：i) GPT 风格，将语音提示作为纯解码器模型的 LLM 输入序列预置到文本提示中；ii) T5 风格，将语音交叉注意引入预训练 LLM 的每一层。我们提出了 BESTOW 架构，将 TwO Worlds 中的 BESt 特征整合到一个单一模型中，该模型不仅效率高，而且具有强大的多任务处理能力。此外，这两种风格都没有明确的流式解决方案，特别是考虑到该解决方案应适用于语音多任务。我们将可流式 SpeechLLM 重新表述为读写策略问题，并利用 BESTOW 架构统一了离线和流式研究。因此，我们展示了首个开源 SpeechLLM 解决方案，该解决方案可同时实现大规模流式处理和多任务处理（超越 ASR）。这种可流式解决方案在各种语音任务（ASR、AST、SQA、未见动态超强）上都取得了非常出色的性能。它可进行端到端优化，降低了训练/推理成本，并证明了 LLM 知识在语音方面的可移植性。

4.Interactive Topic Models with Optimal Transport

标题:具有最佳传输功能的交互式主题模型

author:Garima Dhanania, Sheshera Mysore, Chau Minh Pham, Mohit Iyyer, Hamed Zamani, Andrew McCallum

publish:Pre-print; Work in progress

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19928v1

摘要：
主题模型被广泛用于分析文档集。在分析人员不熟悉语料库的情况下，这些模型对于发现语料库中的潜在主题很有价值，但分析人员通常也是从了解语料库中的内容开始的。这可能是通过对语料库的初步浏览获得的类别，也可能是希望通过从高层次理论框架（如政治意识形态）中得出的一组预定义类别来分析语料库。在这些情况下，分析人员希望能有一种主题建模方法，既能结合他们对语料的理解，又能支持与模型进行各种形式的交互。在这项工作中，我们提出了一种用于标签名称监督式主题建模的方法 EdTM。EdTM 将主题建模作为一个分配问题，同时利用基于 LM/LLM 的文档-主题亲和力，并使用最优传输进行全局一致的主题分配。在实验中，我们展示了我们的框架与少数几个 LLM 分类器以及基于聚类和 LDA 的主题模型相比所具有的功效。此外，我们还展示了 EdTM 吸收各种形式的分析师反馈的能力，同时对有噪声的分析师输入保持稳健。

5.MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment

标题:MM-Instruct：为大型多模态模型配准生成可视化指令

author:Jihao Liu, Xin Huang, Jinliang Zheng, Boxiao Liu, Jia Wang, Osamu Yoshie, Yu Liu, Hongsheng Li

publish:Dataset and models are available at
https://github.com/jihaonew/MM-Instruct

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19736v1

摘要：
本文介绍了 MM-Instruct，这是一个包含各种高质量视觉教学数据的大型数据集，旨在增强大型多模态模型（LMM）的教学跟踪能力。虽然现有的视觉教学数据集通常侧重于问题解答，但它们很难推广到更广泛的应用场景，如创意写作、总结或图像分析。为了解决这些局限性，我们提出了一种构建 MM-Instruct 的新方法，利用现有 LLM 的强大指令跟踪功能，从大规模但传统的图像标题数据集中生成新的视觉指令数据。MM-Instruct 首先利用 ChatGPT，通过增强和总结，从一小部分种子指令自动生成各种指令。然后，它将这些指令与图像进行匹配，并使用开源的大型语言模型（LLM）生成指令-图像对的连贯答案。在整个答案生成过程中，LLM 以图像的详细文本描述为基础，以保证指令数据的一致性。此外，我们还引入了一个基于生成的指令数据的基准，以评估现有 LMM 的指令跟踪能力。我们通过在生成的数据上训练一个 LLaVA-1.5 模型（称为 LLaVA-Instruct）来证明 MM-Instruct 的有效性，与 LLaVA-1.5 模型相比，MM-Instruct 在指令跟随能力方面有显著提高。MM-Instruct 数据集、基准和预训练模型可在 https://github.com/jihaonew/MM-Instruct 上获取。

6.InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management

标题:InfiniGen：利用动态 KV 缓存管理实现大型语言模型的高效生成推理

author:Wonbeom Lee, Jungi Lee, Junghwan Seo, Jaewoong Sim

publish:OSDI 2024

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19707v1

摘要：
基于变换器的大型语言模型（LLM）在各种自然语言处理任务中表现出令人印象深刻的性能。然而，由于瞬态（即键值（KV）缓存）的内存占用巨大，而且会随着序列长度和批量大小的增加而增加，因此为生成长内容的 LLM 推理提供服务是一项挑战。在本文中，我们介绍了专为长文本生成定制的新型 KV 缓存管理框架 InfiniGen，它能与基于卸载的现代推理系统协同工作。InfiniGen 利用了一个重要的洞察力，即通过对当前层的输入以及后续层的部分查询权重和密钥缓存进行最小预演，可以推测出一些对计算变换器中后续关注层至关重要的重要标记。这样，我们就可以只预取必要的 KV 缓存条目（而不是全部取回），从而减轻基于卸载的 LLM 服务系统从主机内存取回数据的开销。我们在几个具有代表性的 LLM 上进行的评估表明，与之前的 KV 缓存管理方法相比，InfiniGen 将基于卸载的现代系统的整体性能提高了 3.00 倍，同时大大提高了模型的准确性。

7.LLMEasyQuant – An Easy to Use Toolkit for LLM Quantization

标题:LLMEasyQuant – 易于使用的 LLM 量化工具包

author:Dong Liu, Meng Jiang, Kaiser Pister

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19657v1

摘要：
目前，用于 LLM 量化的量化方法有很多，但用户界面友好、易于本地部署的却很少。TensorRT和Quantoh等软件包有很多底层结构和自激发内部函数，不利于开发者进行个性化开发和学习部署。因此，我们开发了 LLMEasyQuant，它是一个旨在方便量化部署的软件包，用户界面友好，适合初学者学习。

8.Mixture of In-Context Experts Enhance LLMs’ Long Context Awareness

标题:语境内专家的混合使用增强了 LLM 的长语境意识

author:Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan

publish:14 pages, 5 figures

date Time:2024-06-28

paper pdf:http://arxiv.org/pdf/2406.19598v1

摘要：
许多研究表明，大型语言模型（LLMs）对不同上下文位置的感知不均衡，其有限的上下文感知可能导致忽略关键信息，进而导致任务失败。本文针对使用 RoPE 作为位置嵌入的 LLM，介绍了一种名为 “上下文专家混合物”（MoICE）的新方法来应对这一挑战。MoICE 包括两个关键部分：集成到 LLM 中每个注意头的路由器和轻量级纯路由器训练优化策略：（1）MoICE 将每个 RoPE 角度视为 "上下文 "专家，证明其能够将注意头的注意力引导到特定上下文位置。因此，每个注意头使用路由器动态选择的多个 RoPE 角度灵活地处理标记，以关注所需的位置。这种方法降低了忽略重要语境信息的风险。(2) 只使用路由器的训练策略需要冻结 LLM 参数，并且只在几个步骤中更新路由器。在应用于包括 Llama 和 Mistral 在内的开源 LLM 时，MoICE 在长语境理解和生成的多个任务中超越了之前的方法，同时还保持了值得称赞的推理效率。

9.Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems

标题:语境很重要：时态问题解答系统中语境信息影响的实证研究

author:Dan Schumacher, Fatemeh Haji, Tara Grey, Niharika Bandlamudi, Nupoor Karnik, Gagana Uday Kumar, Jason Cho-Yu Chiang, Paul Rad, Nishant Vishwamitra, Anthony Rios

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19538v1

摘要：
大型语言模型（LLMs）往往在时间推理方面举步维艰，而时间推理对于历史事件分析和时间敏感信息检索等任务至关重要。尽管取得了进步，但最先进的模型在处理时间信息方面仍有缺陷，尤其是在面对不相关或嘈杂的上下文时。本文针对这一不足，通过实证研究了在各种语境类型（包括相关、不相关、略有改变和无语境）下训练的时态问题解答（TQA）系统的鲁棒性。我们的研究结果表明，混合使用这些语境进行训练可增强模型的稳健性和准确性。此外，我们还发现上下文相对于问题的位置会对性能产生重大影响，问题优先的位置会产生更好的结果。我们引入了两个新的语境丰富的 TQA 数据集：ContextAQA 和 ContextTQE，并为训练稳健的 TQA 模型提供了全面的评估和指导。我们的工作为开发可靠的上下文感知时态质量保证系统奠定了基础，并对增强 LLM 的鲁棒性以应对多样化和潜在的对抗性信息产生了更广泛的影响。

10.xTower: A Multilingual LLM for Explaining and Correcting Translation Errors

标题:xTower：用于解释和纠正翻译错误的多语言 LLM

author:Marcos Treviso, Nuno M. Guerreiro, Sweta Agrawal, Ricardo Rei, José Pombal, Tania Vaz, Helena Wu, Beatriz Silva, Daan van Stigt, André F. T. Martins

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19482v1

摘要：
虽然机器翻译（MT）系统在基准测试中的表现越来越好，但它们产生的译文往往存在错误和异常。了解这些错误可能有助于提高翻译质量和用户体验。本文介绍了 xTower，这是一个建立在 TowerBase 基础上的开放式大型语言模型（LLM），旨在为翻译错误提供自由文本解释，以指导生成纠正翻译。xTower 生成的解释的质量是通过内在和外在评价来评估的。我们要求专家译员从两个维度来评价解释的质量：与被解释的错误跨度的相关性，以及对理解错误和提高翻译质量的帮助。从外部来看，我们在各种实验设置中测试了 xTower 生成翻译更正的能力，结果表明 xTower 能显著提高翻译质量。我们的研究结果凸显了 xTower 的潜力，它不仅能为自动翻译提供可信且有帮助的解释，还能利用这些解释提出纠正翻译。

11.Changing Answer Order Can Decrease MMLU Accuracy

标题:改变答题顺序会降低 MMLU 的准确度

author:Vipul Gupta, David Pantoja, Candace Ross, Adina Williams, Megan Ung

publish:Short paper, 9 pages

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19470v1

摘要：
随着大型语言模型（LLMs）的普及，特定的基准已成为评估这些模型和了解模型能力的必要条件。最常见的情况是，我们使用多个子任务的平均测试准确率，以便在排行榜上对模型进行排名，从而确定哪个模型最适合我们的目的。在本文中，我们在广泛使用的多选题回答数据集 MMLU 上研究了准确率测量的稳健性。我们发现，当洗牌答案标签内容时，所有探索过的模型在 MMLU 上的准确率都会下降，但并非每个模型都同样敏感。这些发现建议对排行榜测试的标准做法进行可能的调整，即我们应额外考虑每个模型通过随机机会答对例子的百分比。

12.Can Large Language Models Generate High-quality Patent Claims?

标题:大型语言模型能否生成高质量的专利权利要求？

author:Lekang Jiang, Caiqi Zhang, Pascal A Scherz, Stephan Goetz

publish:13 pages

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19465v1

摘要：
大语言模型（LLMs）在各种文本生成任务中都表现出了卓越的性能，但在提供高度结构化和精确语言的专利领域仍未得到充分开发。本文构建了一个数据集，以研究当前 LLM 在专利权利要求生成中的性能。我们的研究结果表明，基于专利描述生成权利要求的性能优于以往依靠摘要生成权利要求的研究。有趣的是，目前针对特定专利的 LLM 性能比最先进的通用 LLM 差很多，这凸显了未来对领域内 LLM 进行研究的必要性。我们还发现，LLM 可以生成高质量的首次独立权利要求，但其性能在后续从属权利要求中明显下降。此外，微调可以提高发明特征的完整性、概念清晰度和特征联系。在经过测试的 LLM 中，GPT-4 在专利专家的人工综合评估中表现最佳，其特征覆盖率、概念清晰度和技术连贯性都更高。尽管具有这些能力，但要通过严格的专利审查并确保法律上的稳健性，仍有必要进行全面的修订和修改。

13.Fundamental Problems With Model Editing: How Should Rational Belief Revision Work in LLMs?

标题:模型编辑的基本问题：LLM 中的理性信念修正应该如何进行？

author:Peter Hase, Thomas Hofweber, Xiang Zhou, Elias Stengel-Eskin, Mohit Bansal

publish:23 pages, 4 figures

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19354v1

摘要：
模型编辑问题涉及语言模型应如何随着时间的推移学习关于世界的新事实。尽管有关模型编辑的实证研究已经引起了广泛关注，但模型编辑的概念基础仍然不稳固–这也许并不奇怪，因为模型编辑本质上是信念修正，而这是哲学中的一个老生常谈的问题，几十年来一直没有简洁的解决方案。然而，模型编辑需要一个解决方案，因为我们需要能够控制语言模型中的知识。带着这个目标，本文对模型编辑问题的标准表述进行了批判，并为模型编辑研究提出了一个形式化的试验平台。我们首先描述了模型编辑的 12 个公开问题，这些问题基于以下挑战：（1）定义问题；（2）开发基准；（3）首先假设 LLM 具有可编辑的信念。这些挑战中有许多都极难解决，例如确定编辑的深远影响、标注事实之间的概率蕴涵以及更新代理模拟器的信念。接下来，我们将基于维基数据（Wikidata）引入一个用于模型编辑的半合成数据集，在这个数据集中，我们可以根据理想化贝叶斯代理给出的标签对编辑进行评估。这样，我们就能准确说出语言模型中的信念修正是如何达不到理想的认识论标准的。我们鼓励进一步的研究，探索可以与这种黄金标准进行比较的环境。我们的代码可在以下网址公开获取： https://github.com/peterbhase/LLM-belief-revision

14.From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

标题:从人造针到真实干草堆：通过在合成数据上进行微调提高 LLM 的检索能力

author:Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.19292v1

摘要：
最近的研究表明，大型语言模型（LLM）在处理长语境输入时，很难准确检索信息并保持推理能力。为了解决这些局限性，我们提出了一种微调方法，利用精心设计的合成数据集来完成数值键值检索任务。我们在 GPT-3.5 Turbo 和 Mistral 7B 等模型上进行的实验表明，在该数据集上对 LLM 进行微调可显著提高 LLM 在较长上下文环境中的信息检索和推理能力。我们对经过微调的模型进行了分析，说明了从合成评估到实际任务评估的技能转移（例如，GPT-3.5 Turbo 在 $10$ 位置的 $20$ 文档 MDQA 上提高了 $10.5\%$ ）。我们还发现，经过微调的 LLM 在一般基准上的性能几乎保持不变，而在其他基线长上下文增强数据上微调的 LLM 则会产生幻觉（例如，在 TriviaQA 上，在我们的合成数据上微调的 Mistral 7B 不会导致性能下降，而其他基线数据则会导致从 2.33%$ 到 6.19%$ 不等）。我们的研究凸显了在合成数据上进行微调以提高 LLM 在较长上下文任务中的性能的潜力。

15.Decoding-Time Language Model Alignment with Multiple Objectives

标题:解码时语言模型与多重目标的统一

author:Ruizhe Shi, Yifang Chen, Yushi Hu, Alisa Liu, Hannaneh Hajishirzi, Noah A. Smith, Simon Du

date Time:2024-06-27

paper pdf:http://arxiv.org/pdf/2406.18853v2

摘要：
将语言模型（LM）与人类偏好相匹配已成为一个重要的追求目标，使这些模型能够更好地满足用户的不同需求。现有方法主要侧重于针对单一奖励函数优化语言模型，从而限制了其对不同目标的适应性。在这里，我们提出了 $\textbf{多目标解码（MOD）}$ ，这是一种解码时间算法，它可以根据不同目标的任意给定权重，从所有基础模型预测的线性组合中输出下一个标记。我们利用 $f$ 发散正则化配准方法系列（如 PPO、DPO 及其变体）中的共同形式，通过 Legendre 变换确定闭式解，并推导出一种高效的解码策略。我们从理论上说明了为什么现有方法即使在自然环境下也可能是次优的，并为我们的方法获得了最优性保证。经验结果证明了算法的有效性。例如，与参数合并基线相比，在对 3$ 目标进行同等优化时，MOD 的总体奖励提高了 12.8%。此外，我们还利用 MOD 对三个不同模型大小的全微调 LLM 进行了组合实验，每个模型都针对不同的目标，如安全性、编码和一般用户偏好。传统方法需要对混合数据集进行精心策划才能实现全面改进，与之不同的是，我们可以利用 MOD 快速试验偏好权重，从而找到最佳模型组合。我们的最佳组合将 Toxigen 的毒性降低到近 0%，并在其他三个指标（ $\textit{i.e.}$ 、Codex@1、GSM-COT、BBH-COT）上实现了 7.9–33.3% 的改进。

16.PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

标题:PrExMe！用于机器翻译和总结评估的大规模开源 LLM 快速探索

author:Christoph Leiter, Steffen Eger

publish:Preprint

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18528v1

摘要：
大型语言模型（LLMs）给自然语言处理领域带来了革命性的变化。值得注意的是，大型语言模型的上下文学习能力也使其能够用作自然语言生成的评估指标，这使其在资源匮乏的场景和时间受限的应用中尤其具有优势。在这项工作中，我们介绍了 PrExMe，这是一个大规模的提示探索指标，我们在机器翻译（MT）和摘要数据集上评估了超过 720 个基于开源 LLM 指标的提示模板，总评估次数超过 660 万次。这种广泛的比较（1）可作为近期开源 LLM 作为度量标准的性能基准，（2）可探索不同提示策略的稳定性和可变性。我们发现，一方面，有些情况下提示是稳定的。例如，一些 LLMs 显示出特异性偏好，倾向于用文本标签对生成的文本进行评分，而另一些 LLMs 则倾向于返回数字分数。另一方面，提示和模型排名的稳定性很容易受到看似无害的变化的影响。例如，将要求的输出格式从 “0 到 100 “改为”-1 到 +1” 就会对我们评估中的排名产生很大影响。我们的研究有助于理解不同提示方法对基于 LLM 的 MT 和摘要评估指标的影响，突出了最稳定的提示模式和潜在的局限性。

17.Role-Play Zero-Shot Prompting with Large Language Models for Open-Domain Human-Machine Conversation

标题:利用大型语言模型为开放域人机对话提供角色扮演零点提示

author:Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre

publish:Updated version of a paper originally submitted at SIGDIAL 2023

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18460v1

摘要：
最近，人们提出了各种方法来创建具有大型语言模型（LLM）的开放域对话代理。这些模型能够回答用户的询问，但采用的是单向问答形式，而不是真正的对话。在特定数据集上进行微调是修改其风格以提高对话能力的常用方法，但这种方法成本高昂，而且通常只适用于少数语言。在本研究中，我们利用受过服从指令训练的多语言 LLMs（Beeching et al.我们设计了一个提示系统，当它与指令遵循模型（这里是 Vicuna，Chiang 等人，2023 年）相结合时，产生的对话代理在两个不同任务的法语人类评估中可以与微调模型相媲美，甚至超过微调模型。

18.Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers

标题:法律硕士会梦到大象吗（当被告知不要梦到大象时）？变压器中的潜在概念关联和联想记忆

author:Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18400v1

摘要：
大型语言模型（LLM）具有存储和调用事实的能力。通过对开源模型的实验，我们发现这种检索事实的能力可以很容易地通过改变语境来操纵，即使不改变其事实含义也是如此。这些发现突出表明，LLMs 的行为可能类似于联想记忆模型，其中上下文中的某些标记可以作为检索事实的线索。我们通过研究 LLM 的构件–转换器如何完成这种记忆任务，从数学角度探索了这一特性。我们用单层转换器研究了一个简单的潜在概念联想问题，并从理论和经验上证明，转换器利用自我注意收集信息，并使用联想记忆的值矩阵。

19.“Vorbeşti Româneşte?” A Recipe to Train Powerful Romanian LLMs with English Instructions

标题:"Vorbeşti Româneşte？用英语指导培训罗马尼亚法学硕士的秘诀

author:Mihai Masala, Denis C. Ilie-Ablachim, Alexandru Dima, Dragos Corlatescu, Miruna Zavelca, Ovio Olaru, Simina Terian, Andrei Terian, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea

publish:arXiv admin note: text overlap with arXiv:2405.07703

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18266v2

摘要：
近年来，大语言模型（LLM）在各种任务中取得了几乎与人类相同的性能。虽然有些 LLM 已在多语言数据上进行了训练，但大多数训练数据都是英语的；因此，它们在英语中的表现大大超过了其他语言。据我们所知，我们是第一个收集和翻译大量文本、指令和基准，并针对罗马尼亚语进行训练、评估和发布开源 LLM 的公司。我们在四个不同的类别上对我们的方法进行了评估，包括学术基准、MT-Bench（人工翻译），以及由专业人员建立的适应罗马尼亚语的历史、文化和社会基准。我们通过全面获得最先进的结果来证明 RoLLMs 的实用性和高性能。我们公开发布所有资源（即数据、训练和评估代码、模型），以支持和鼓励对罗马尼亚语 LLMs 的研究，同时创建一个可推广的方法，以适用于其他低资源或资源较少的语言。

20.Detecting Machine-Generated Texts: Not Just “AI vs Humans” and Explainability is Complicated

标题:检测机器生成的文本：不仅是 "人工智能与人类 "之争，可解释性也很复杂

author:Jiazhou Ji, Ruizhe Li, Shujun Li, Jie Guo, Weidong Qiu, Zheng Huang, Chiyu Chen, Xiaoyu Jiang, Xinru Lu

publish:19 pages, 2 figures

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18259v1

摘要：
随着 LLM 的迅速发展，我们在网上和现实世界中看到的文本的实际作者风险问题日益受到关注。由于机器和人类行为的细微差别和重叠，区分 LLM 撰写的文本的任务变得复杂起来。在本文中，我们对目前将 LLM 生成的文本检测视为区分人类和人工智能的二元分类任务的做法提出了质疑。取而代之的是，我们引入了一种新颖的三元文本分类方案，增加了一个 "未定 "类别，用于分类可归属于任一来源的文本，并且我们表明，这一新类别对于理解如何使检测结果更易于向非专业用户解释至关重要。这项研究将范式从单纯的分类转向解释机器生成的文本，强调检测器需要向用户提供清晰易懂的解释。我们的研究包括创建四个新的数据集，这些数据集由来自不同 LLM 和人类作者的文本组成。在新数据集的基础上，我们进行了二元分类测试，以确定最有效的 SOTA 检测方法，并识别出能够生成较难检测文本的 SOTA LLM。我们构建了一个新的数据集，其中包含由两个性能最佳的 LLM 和人类作者生成的文本，并要求三名人类注释者生成带有解释说明的三元标签。我们利用这个数据集研究了三种性能最好的 SOTA 检测器在新的三元分类环境中的表现。我们的结果凸显了为什么从可解释性的角度来看，"未决定 "类别是非常必要的。此外，我们还对三个表现最好的检测器的可解释性和人类注释者的解释说明进行了分析，揭示了机器生成文本的可解释检测的复杂性。最后，我们提出了开发具有更强解释能力的未来检测系统的指导原则。

21.LLaMIPa: An Incremental Discourse Parser

标题:LLaMIPa：增量式话语解析器

author:Kate Thompson, Akshay Chaturvedi, Julie Hunter, Nicholas Asher

publish:12 pages, 2 figures

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18256v1

摘要：
本文首次在以 SDRT（Asher，1993 年；Asher 和 Lascarides，2003 年）风格注释的语料库上使用经过微调的大型语言模型（LLM）进行话语分析实验。结果产生了一个话语分析器 LLaMIPa（LLaMA 增量分析器），它能够更充分地利用话语上下文，与只使用编码器模型来提供局部的、对上下文敏感的话语单元表示的方法相比，性能有了很大提高。此外，它还能增量处理话语数据，这对于在下游任务中最终使用话语信息至关重要。

22.Enhancing Data Privacy in Large Language Models through Private Association Editing

标题:通过私人关联编辑增强大型语言模型的数据隐私性

author:Davide Venditti, Elena Sofia Ruzzetti, Giancarlo A. Xompero, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto

date Time:2024-06-26

paper pdf:http://arxiv.org/pdf/2406.18221v1

摘要：
大型语言模型（LLM）是应用广泛的强大工具，但其记忆私人信息的倾向引起了人们的极大关注，因为私人数据很容易泄漏。在本文中，我们介绍了私人关联编辑（PAE）–一种针对私人数据泄漏的新型防御方法。PAE 旨在有效删除个人身份信息（PII），而无需重新训练模型。我们的方法包括四个步骤：检测已记忆的 PII、应用 PAE 卡以减少私人数据的记忆、验证对定向数据提取 (TDE) 攻击的适应性，以及确保编辑后 LLM 的一致性。PAE 允许批量修改，其通用性和效率大大提高了 LLM 中的数据隐私。实验结果证明了 PAE 在减少隐私数据泄露方面的有效性。我们相信 PAE 将成为持续保护 LLM 数据隐私的重要工具，鼓励为现实世界的应用开发更安全的模型。