AI 论文阅读

欢迎你来读这篇博客，这篇博客主要是关于AI 论文收集。

序言

在学习Ai的过程中，需要阅读大量的论文，我在此记录我所阅读过的关于AI的论文，如果您好更好的见解，欢迎到仓库的Issue
提交，我会进行合并处理（署名为你的GitHub Name和主页）。

论文推荐

DL

Deep learning

doi:10.1038/nature14539

这篇论文价值极高，论文最后一章关于深度学习未来的探讨，和当今的发展高度吻合，作为学术考古和初学者来说，相信可以带来很大的启发。

摘要：深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表示。这些方法极大地提高了语音识别、视觉对象识别、对象检测和许多其他领域（如药物发现和基因组学）的技术水平。深度学习通过使用反向传播算法来指示机器应该如何改变其内部参数，从而发现大型数据集中复杂的结构，这些参数用于从前一层的表示计算每一层的表达。深度卷积网络在处理图像、视频、语音和音频方面取得了突破，而递归网络则在文本和语音等序列数据方面大放异彩。

引言
- 机器学习技术在现代社会中发挥着重要作用，涵盖了从网络搜索到社交网络内容过滤，再到电子商务网站的推荐等多个方面，越来越多地应用于消费类产品如相机和智能手机中。
- 传统的机器学习技术在处理原始数据方面存在局限性，需要经过精心设计的特征提取器将原始数据转换为适当的内部表示或特征向量，以便进行模式识别或分类。
- 表征学习是一组方法，允许机器使用原始数据并自动发现用于检测或分类的表示。深度学习是具有多层表示的表征学习方法，通过组合简单但非线性的模块，将每个层次的表示转换为更高、稍微抽象的层次。
- 深度学习在解决长期困扰人工智能社区的问题方面取得了重大进展，特别擅长发现高维数据中的复杂结构，可应用于科学、商业和政府等多个领域。
- 深度学习在图像识别、语音识别、药物分子活性预测、粒子加速器数据分析、大脑回路重建等多个领域取得了突破性成果，并在自然语言理解方面表现出极大的潜力，尤其在主题分类、情感分析、问答和语言翻译等任务上表现出色。
- 预计深度学习在未来会取得更多成功，因为它几乎不需要手工工程，能够轻松利用计算和数据量的增加，并且当前正在开发的新学习算法和架构将加速这一进展。
监督学习
- 监督学习使得在AI训练的过程中，实现了自学习。
- 简要介绍了一下训练方法和迭代过程及效果。
反向传播算法
- 反向传播（backpropagation）是一种计算多层模块权重相对于目标函数梯度的实用方法，其核心思想是利用导数的链式法则。
- 反向传播过程中的梯度下降训练过程中的问题。
卷积神经网络
- 卷积神经网络背后的四个关键思想利用了自然信号的特性：局部连接、共享权重、池化和多层次使用。前几个阶段由两种类型的层组成：卷积层和池化层。
- ConvNets的成功得益于其对自然信号特性的深刻理解，并且通过构建层次化的特征表示来实现对复杂数据模态的高效处理和识别。
基于深度卷积神经网络的图片理解
- 介绍正则化在DL中的应用
分布表示和语言模型
- 学习分布式表示：这允许模型泛化到看不见的特征组合，从而获得更好的性能。层的组成：堆叠多层表示可以进行更强大的学习。
- DL模型学习捕获语义特征的词向量。这些特征不是预定义的，而是由网络在训练期间发现的。相似的单词具有相似的矢量表示，从而可以进行泛化。
循环神经网络
- 循环神经网络是一种特殊的人工神经网络，能够处理序列化的输入数据。RNN
  在处理序列数据时，会将历史信息存储在一个叫做“状态向量”的隐藏单元中。通过反向传播算法，我们可以训练 RNN
  模型，使其能够预测序列中的下一个元素
- 由于梯度爆炸和消失问题，早期 RNN 模型的训练难度较大。近年来，随着 RNN 架构和训练方法的改进，RNN 模型在各种序列处理任务上取得了显著成效。
深度学习的未来
- 从91-98年的无监督学习开始，深度学习重新引起了人们对人工智能的兴趣，但后来纯粹的监督学习取得了更大的成功，导致了对无监督学习的忽视。
- 虽然本文没有专门讨论无监督学习，但我们预计在长期内，无监督学习会变得更加重要。人类和动物的学习很大程度上是无监督的：我们通过观察世界来发现其结构，而不是被告知每个对象的名称。
- 人类视觉是一种主动过程，使用小型、高分辨率的中央凹区和大型、低分辨率的周围区域以智能、任务特定的方式顺序采样视觉阵列。
  我们预计未来视觉领域的进展将来自于端到端训练的系统，将卷积神经网络与循环神经网络相结合，并使用强化学习来决定注视点的位置。
- 结合深度学习和强化学习的系统处于初期阶段，但它们已经在分类任务上胜过了被动视觉系统，并在学习玩许多不同视频游戏方面取得了令人印象深刻的成果。
- 自然语言理解是另一个深度学习即将在未来几年产生巨大影响的领域。我们期望使用循环神经网络理解句子或整个文档的系统，在学习逐步关注一部分内容的策略时会变得更加优秀。
- 最终，人工智能领域的重大进展将通过将表示学习与复杂推理相结合的系统实现。尽管深度学习和简单推理长期以来一直用于语音和手写识别，但需要新的范例来取代基于规则的符号表达式操作，而是使用大型向量的操作。

CV

NLP

Efficient Estimation of Word Representations in Vector Space

arXiv.1301.3781v3

author: google team

总结：验证word2vector的重要性。

碎碎念：目前基本上做NLP的入门阶段必读此论文。对NLP领域的贡献是毋庸置疑的。

Introduction
- 介绍 word embedding 背景，本文目标，前人工作
Model Architecture
- 介绍前人工作
- LSA/LDA、前向神经网络、循环神经网络、并行神经网络；
New Log-liner Models
- 介绍CBOW 和 Skip-grams
Results
- 评价任务描述;最大化正确率;模型结构比较;
- 模型上大量数据的并行计算;微软研究院句子完成比赛
Examples of the LearnedRelationships
- 例子:学习到的词与词之间的关系
Conclusion
- 高质量词向量;高效率训练方式;作为预训练词向量作用于其他nlp任务能提升效果
Follow-Up Work
- 后续工作:C++单机代码

LLM

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

arXiv.2403.03853v2

author : 百川智能 - 中科院软件所

总结：提出层去除和度量冗余层的方法，减少25%的层将会导致模型性能大幅下降。效果看起来还是很不错的，还可以和量化结合。

碎碎念：不失是一个好方法，在LLM小型化的方向上，模型设计小型化、量化&剪枝。属于剪枝创新。我感觉是挺索然无味的，质量不够啊，还得再加加。

Introduction
- 简单说了点 LLM 现状、量化、剪枝
- 工作内容：通过 BI 分析层冗余、删除冗余层剪枝
Methodology
- 层冗余：分析词嵌入矩阵。（想基于retnet开展吧可能）
- 层重要性：提出 BI 新指标
- 层去除
Experiments
- 模型选择：llama-2；benchmark & baseline : 自己看论文吧
- 结果：有用
Analysis
- 剪枝比例的影响
- 深度冗余与宽度冗余
- 对非TF架构的LLM的效果探究
- BI标准
Limitation
- 层去除25% 性能严重下滑。研究存在局限，需要更多的验证。
Related works
- 受前人工作启发：模型剪枝 & 知识蒸馏 & 量化 & 低秩分解 & 模型冗余
Conclusion
- 提出BI这种度量标准和层冗余、层去除的方法。对探索DNN&LLM都有帮助。

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

arXiv.2404.07143v1

author : Google

总结：提出一种 infini-attention 的架构，为attention家族添砖加瓦。类似LLMs内部的RAGSys-思路清晰。

碎碎念：和Ring-Attention属于同一个课题。上下文限制的主要原因还是计算成本，一个是并行计算方向努力，一个是降低单机成本，提高单机效果。
有趣的是，做测试均测试的 1m 的token，这个是 2404 发的。ring-attention 是 2310 发的，后续工作是 LWM 2402 发的（验证 1m token）。

Introduction
- 对与 transformers 及 LLMs 来说，长上下文的计算和内存成本很高。前人提出一种压缩记忆的方法。
- 基于此，提出 infini-attention。将旧的KV状态压缩存储，检索召回，聚合计算。效果/实验结果描述-阿巴阿巴。
Methods
- 每层attention都有全局压缩状态和局部状态
- 与 multi-attention 方法类似、每层都是并行压缩。缩放点积注意力、压缩存储、检索、更新。几个关键步骤讲了一下。
- 支持无限上下文、详细说了一下压缩存储状态。
Experiments
- 长上下文建模、LLM持续预训练
Related works
- 描述了一些前人工作和自己所受的启发。
Conclusion
- 记忆(压缩存储召回)对于长上下文、推理、计划和适应性都有价值。1m的token。

Retentive Network: A Successor to Transformer for Large Language Models

arXiv.2307.08621v4

author : Microsoft Research - Tsinghua University

总结：算了，没看到模型怎么搞的。目前这个模型好像并没有爆炸性扩散。[2024-4]

碎碎念：[一年后重读]。

Introduction
- TF一家独大，但是RetNet有望实现“不可能三角”，介绍了三种前人工作，均不能实现不可能三角。
- 简要介绍RetNet。测试结果还不错。
Retentive Networks
- 理论介绍与实现：看不懂。
Experiments
- 语言建模性能与Zero/few-shot学习 & 速度、内存消耗、延迟。
- Setup | 与tf比较 | 训练消耗 | 推理消耗 | 与tf变体比较 | 消融实验
Conclusion
- 性能不错，可能会成为tf的理想继承者。

Ring Attention with Blockwise Transformers for Near-Infinite Context

arXiv.2310.01889v4

author : 加州大学伯克利分校

总结：文中提出了一种 Ring-Attention 的扩展上下文进行并行计算的新的TF内存高效计算架构。具有卓越的性能和上下文扩展能力。这种架构具有广阔的前景。

碎碎念：TF架构并行计算领域的一大扩展。降低训练瓶颈，原本需要A100，现在多搞点4090就行了。颇有三个臭皮匠，顶个诸葛亮的感觉。
这项工作已经被验证了对 LLMs （arXiv.2402.08268v2 - LWM 已经验证同 UC Berkeley）具有卓越的影响。新的多模态大模型时代即将到来。而这，只是
AI 时代的序章。

LWM - WORLD MODEL ON MILLION-LENGTH VIDEO ANDLANGUAGE WITH BLOCKWISE RINGATTENTION

arXiv.2402.08268v2

author : 加州大学伯克利分校

总结：这篇论文主要介绍了一种结合视频和语言的模型，通过使用Blockwise RingAttention和Blockwise
Transformer来训练长篇视频和书籍的数据集，并逐渐增加序列长度，从32K到1M
tokens，以提高模型对复杂任务的理解能力。论文还介绍了一种构建QA数据集的方法，以便训练模型进行长序列对话。最后，论文展示了该模型在理解长视频和语言序列方面的出色表现。

碎碎念：个人认为LWM开启了一个新的训练方式（也可能是我孤陋寡闻，论文看少了）。这种训练方式方式带来的多模态大模型，从32K到1M的token，渐进式训练方式，化是渐化，变是顿变。
变，言其著；化，言其渐。这种训练方式可能会帮助以后的 LLM 读取更长的token，这种方式也比较合乎成长规律。文中也介绍了一些作者们训练时候的小技巧，提到了一种使用
Pallas 将
Blockwise Transformer 和 RingAttention 融合到一起的技巧，和他们的QA数据集。结合开源数据集有很好的效果。我强烈建议将弱智吧
数据也加进去。
文中关于 Encoder 层做了较多的描述。但是对于 Decoder 层并没有做过多的描述。基于TF来说，如果能将 BERT(Encoder) 和 GPT(
Decoder) 这两种类型融合一下，

Introduction
- 介绍了一下这个领域当前的工作和挑战。
- 通过文本和长视频联合建模，提高模型对多模态和长文本的理解能力。
- 使用blockwise ring-attention技术降低计算成本，渐进式训练，混合训练，设计了一种屏蔽序列打包方式，多模态混合训练的平衡很重要，开发了一种QA训练方式。
- 贡献：context转换器、长视频理解、平衡性问题、QA数据集、开源。
Overview
- 基于llama-2训练了一个自回归tf模型，将context扩展到1M，对多模态序列进行联合训练。
阶段1：训练long-context 语言模型
- 使用 Blockwise RingAttention 扩展上下文，并行将 Blockwise RingAttention 与 FlashAttention 融合。渐进训练。
- 分五个阶段，渐进训练。构建QA数据集，并微调，UltraChat和论文自建的QA数据集，很好的配合训练。
- 评估：Multi-Needle Retrieval、基于上下文评估、聊天评估
阶段2：训练long-context vision-language 模型
- 基于阶段1 输入video序列，进行训练。稍微修改了一下输入数据的架构。
- 用阶段1 的模型进行训练，混合渐进式训练。
- 评估：长视频理解、图像理解、短视频理解、图像和视频生成
更多细节
- 描述了一下，训练所需资源，超参数
相关工作
- 工作涉及扩展语言模型的上下文窗口以允许更多tokens。跟CLIP架构做了一下对比。
结论
- 效果很好，开创了一个需要资源少的、渐进式的训练方式，希望以后token可以更长、多模态能力更强。

RAG

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

arXiv.2403.14403v2

author : 韩国高级科学技术研究院

总结：提出了一种自适应增强检索模型，再次为 Prompt Engineering 加一分。

碎碎念：根据我的判断，这个项目是有价值的，后续我个人认为扩展方向可以往拓扑图及存储方向努力。
但是我已经提出了一种树形结构，来辅助检索召回，这份工作，我可以进行复现并进一步整合到我的工作中。
前段时间还有另外一篇论文论述了关于召回的不精确性问题，那个好像是二次召回。这两篇可以进一步整合到RAGSys。

Introduction
- 大模型很强，但是也有很严重的幻觉问题。基于RAG的LLM在QAsys上有很大的作用。但是检索是较为复杂的过程。
- 提出了一个基于pre-train LM 的选择/分类器，预测所需的数据集。自适应选择数据包。增强效率和准确性。结果证明，很有用。
Related works
- QA 系统很大的问题就是幻觉现象。RAG一定程度上优化了这个情况。但是复杂问题需要多跳RAG-QA，效率不高。前人也有一些思维链和自适应检索的工作。基于这些work，
- Adaptive-RAG 是预先确定复杂度并调整LLM的操作。
Method
- 介绍一下QA-RAG-LLM 主要是多跳情况。
- Adaptive-RAG：介绍一下和说明运行逻辑。
实验
- 数据集、模型、评估指标、实现细节
- 结果分析：Adaptive-RAG 表现出色。效果和效率都不错。
  - 分类器性能、分类器效率、分类器训练数据分析、分类器大小分析、案例研究
Conclusion
- 设计目的是根据遇到的查询的复杂性，在统一检索增强的 LLM 中动态调整其查询处理策略。
- 基于开放域 QA 数据集的集合，涵盖多种查询复杂性，包括单跳和多跳问题。
- Adaptive-RAG 提高了 QA 系统的整体准确性和效率，分配更多的资源来处理复杂的查询，同时有效地处理更简单的查询。最大化的过度查询复杂性。
Limitations
- 自标记的模型可能会错误标记、分类器的可解释性问题、
道德声明：阿巴阿巴
致谢：阿巴阿巴

RAG 鼻祖 - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

arXiv.2005.11401v4

author : 伦敦大学 - 纽约大学 - facebook AI 研究院

总结：这篇论文介绍了检索增强生成（Retrieval-Augmented Generation，RAG）模型的研究。
这些模型结合了预训练的参数化记忆和非参数化记忆，用于语言生成任务。作者提出了两种RAG模型的形式，一种是在整个生成序列中条件于相同的检索到的段落，另一种是可以针对每个标记使用不同的段落。
他们在广泛的知识密集型自然语言处理任务上进行了微调和评估，并在三个开放领域问答任务上取得了最先进的结果，优于参数化的seq2seq模型和特定任务的检索和提取架构。
对于语言生成任务，研究发现RAG模型生成的语言比最先进的仅参数化的seq2seq基线更具体、更多样化和更符合事实。

个人一点小想法：RAG从如今来看，无疑是带来了巨大反响。基于RAG的应用，层出不穷，后面又出现的LangChain，我感觉扩展了RAG的定义，不再拘泥于文本任务，结合Function
Call和Memory，LLM-Agent等，
相信 Robot+Multi-RAGSys 将会重塑世界。

Introduce
提出Pre-train神经语言模型的可以用，但是难以扩展，存在幻觉情况，通过参数记忆和非参数(检索)记忆可以检查并解释。提出了RAG模型，配图挺有意思的。效果还行。
Method
- 提出两个模型，一个是基于Sequence，一个是基于Token。
- 检索使用DPR。
- 生成使用BERT。
- 训练方法简要介绍
- 解码的话，知识储备不够，看不懂
Experiments
- 开放QA场景
- 抽象QA场景
- 危险问题生成：评估真实性和特异性
- 事实审查：从wiki检索，然后对其进行推理审查。
Results
- 简述对以上测试场景进行测评的结果
- RAG之后，比原模型，完胜。
Related Work
- 单任务检索：功能更强大。
- NLP通用架构：增强原模型功能。
- 学习检索：获得更强大的性能。
- 基于存储架构：记忆。
- 检索和编辑方法：针对输出要求指定格式。RAG未来可能有更好的应用。
Discussion
- 工作表明，RAG更加真实、具体。可以热插拔检索功能。为NLP领域探究了一个新方向（现在来看，确实如此，甚至，不仅NLP）
- 解决幻觉问题
- 缺点：容易受检索到的知识的影响，比如wiki或者web的内容有失偏颇。

https://arxiv.org/pdf/2404.04204.pdf

author : 斯坦福大学 - 佐治亚理工学院

总结：这篇论文为社交恐惧症患者设计了一个交互应用，旨在帮助此类人群培养社交语言艺术，论文中提到了一个新模型 APAM
，有两个不同性格的角色，帮助用户训练对话能力，设计了 2 + 3 种 Agent ，应对多种场景。文中也对 AI
带来的伦理道德问题进行了研究，对模型进行了测试。并针对一些问题，提出了解决方案，例如 LLM 幻觉问题，人文相关风险等。
最终对他们的工作进行了总结，对模型的未来发展进行了一定的论述，比如法律风险，对受众提供无风险实践机会等。

我个人感觉还是很有价值的，目前市场来说是有空缺的，提出的新模型也有一定的优势。但是感觉不够深入，还是基于Prompt工程进行LLM应用开发设计。

简介
对当前现状进行了分析，目前是基于心理咨询师等进行沟通，提出如果基于大模型来说，成本将很低，风险也低。
用于性格植入和模拟的LLMs
论述了很多相关技术如RAG和一些心理学上的理论。提出：模型是将重点关注基于 LLM 的模拟，将其作为更灵活和可扩展的解决方案。提示的
LLM 可以有效地扮演可信的角色。
APAM framework
- AI partner：用户对话对象
- AI monitor：扮演一个哲学家、心理学家的角色进行辅导用户
- APAM插图很形象，可以到论文里面看一看
- 方法论：了解用户，然后设计一个partner进行对话，创建一个monitor导师进行辅助，将这两个AI agent 植入到场景中，辅助用户开始训练。
- 示例：有个表，可以到论文里看看。
Vision for Safe Deployment
- AI Partner Continuum：提出了几个partner的设计。基于模拟学习的、基于角色扮演的、标准版。
- AI Mentor Continuum：提出了几个monitor的设计。基于对话内容的、基于心理学理论体系的、结构化反馈的。
Technical Challenge
- 长对话优化：多轮对话不忘记问题、不幻想-基于对话互动、因人而异-因材施教。
- 集成专家框架：系统、有效、安全。基于APAM，模型应该进行反思并优化自己。
- 基于用户控制的设计：允许用户微调。
- 个性化：基于用户情况进行针对性设计接下来的交互节奏。
Evaluation
- 完成以上挑战和愿景很有困难。进行了全自动评估和用户评估两种方式，参考指标例如困惑度或 Kullback-Leibler 散度。
- 开发人员进行了保证一致性等内容的prompt工程，解决评估问题，需要用户参与，不能单靠系统。
- 对于系统，存在一些风险，如模拟失败、幻觉、过度依赖等问题，问题要详细暴露，不能汇总后传阅。（我猜，详细文本更有利于fitting，毕竟nlp就这样）。
讨论
- 社会影响：很有用，帮助人学会换位思考等等。成本低，利好穷人。
- 担忧：法律风险和人文风俗风险。
- Distributional Shifts：应该让用户意识到，他们对话的只是AI，不是真人，现实中，应该随机应变。
- Job Risks：APAM不是为了代替人的工作，而是减轻心理咨询师的工作。针对偏远地区，进行普惠。
总结
- 阿巴阿巴。

Chain of thought prompting elictis reasoning in LLMs

TODO 4-7

鸽子了、有空再说吧

prompt engineering

LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS

arXiv.2211.01910v2 ICLR-2023

author : 多伦多大学 - Vector Institute - 滑铁卢大学

总结：这篇论文主要介绍了一种自动化生成指令的方法，称为 Automatic Prompt Engineer (APE)，通过搜索一组指令候选项来最大化所选的评分函数，从而选择最合适的指令。
实验结果表明，与人类生成的指令相比，利用APE生成的指令在各种任务上都能够取得更好的性能。论文提出，APE可以帮助LLM在 few/zero
shot 上取得更好的学习效果。

个人想法：算是为prompt工程领域添砖加瓦吧。AI时代，终将大量AI替代这些繁琐的工作，且具备高效性和高质量。
工业革命本就是机器代替人，去标准化作业。电气时代，是电气设备的标准作业。信息时代是信息软件的标准作业。AI时代，换成了AI进行标准作业。
目的均是追求生产统一的标准化产品。把误差控制在一定范围，越小越代表实力。不过，这个世界没有银弹，一切都要根据需求进行权衡。

Introduction
- 从LLM时代以来，一直在探索如何挖掘处LLM的指令。由于黑盒的特性，很难发掘出为什么看似相似的文本却让LLM的输出有较大的差异。为什么解决这个问题，设计了APE结构去进行探索。
- 使用LLM生成prompt指令，使用启发式搜索（迭代蒙特卡洛搜索方法）去筛选，作为黑盒优化。（关于可解释性问题，在其他论文中有提及，但是不多。）
Related Work
- 作者将LLM视作黑盒计算机，进行探索如何使用LLM生成指令来控制LLM行为。
- 简单介绍了一下 prompt engineering 和程序实现，主要是叙述了一下前人的工作和自己的做法。
具体工作
- prompt：首先LLM提出一些prompt文本。采用前向生成与反向生成。通过反向生成模型，自定义补充提示。有一些插图，和一个代码流程伪代码，可以看看。
- score：
  - 精度：采用的一个前人工作。
  - 对数概率
  - 分数评估：提出一种自适应过滤（高质量的接收多一点输入，低质量的少接受，类似ResNet概念的拓展）降低计算成本。
- 迭代蒙特卡洛搜索方法：不懂
LLM 是类人工程师
- 从四个角度进行研究：零样本性能、少样本上下文学习性能、零样本思维链推理和真实性。我们的实验表明，APE
  可以找到提高任务绩效的提示，其表现与人类编写的提示相同甚至更好。
- 任务效果：好。
- 大bench：好。
- 零样本思维链：好。
- 问答的真实性：很高。
定量分析
- 增大模型，效果更好。
- 他们这个效果挺好，小模型多练练，效果也还行。评估指标也挺好。吹一下。
- 迭代蒙特卡洛搜索：迭代是有用的。
总结：这项工作为控制和引导生成人工智能奠定了基础。
- 笔者：确实，现在这方面做的还是不够好，虽然有 LangChain 这么方便的工具，但是 LangChain 没有引入 APE 进行自动生成
  prompt。2023-4-11

Robot Agent

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

arXiv.2304.13653v1

author : DeepMind - Google - University of Oxford

总结：这项工作对未来大型机器人的具身智能训练指导了方向。对于后续小型机器人也可以进一步研究。对于未来的讨论很具有启发性。

碎碎念：什么时候研发色情服务机器人？

Introduction
- 介绍具身智能、介绍历史与前人工作
- 这项工作研究动态多智能体环境中小型人形机器人的全身控制和对象交互。结论：效果很好。Agent的训练是通过重放和端到端训练和简单奖励实现的。证明了由虚拟仿真迁移到物理机器人也是可行的。
Experimental Setup
- 介绍用于训练代理的模拟和真实足球环境以及机器人硬件。
Methods
- 目标是训练一个智能体，将足球所需的各种技能（包括走、踢、起身、得分和防守）转化为长期战略行为，然后我们可以将其转移到真正的机器人上。
- 训练分两个阶段：1、针对某一技能特定训练（如走、踢球、防卫等）2、基于第一阶段学会了走进行战术和策略学习。对打越来越强的对手。考虑噪声情况以增强模型能力。
- 3.1 概述 - 看不懂。
- 3.2 训练 - 详细介绍了一下训练方式。
- 3.3 simulation to real world
Results
- 1v1 robot agent 表现了很优秀的能力（如：跌倒快速恢复、转身、移动踢球、战略行为等）
- 和 baseline 比较：1、定量分析（速度、跌倒起身能力、踢球 - DRL效果很好）2、skill embedding
- 定位球：7/10 - real
- Value Function Analysis：研究了学习到的价值函数，以便直接验证代理对球、球门和对手的观察是否敏感
- 自我对弈：很重要。类似GAN的思想吧。
Related works
- 1、robot learning 2、Skill and Transfer Learning 3、Multi-agent Reinforcement Learning 4、RoboCup and Other
  Competitive Games : 介绍了一下历史和现状
Discussion
- 局限：可以进一步均衡稳定性和活动。训练数据存在局限性，不利于用真实数据进行pre-train。控制方法有待优化。仅用于小型机器人，大型机器人未考虑。
- Comparison to RoboCup：灵感来自 RoboCup，未来工作的一个令人兴奋的方向是培训由两个或更多代理组成的团队。
- Playing Soccer from Raw Vision：对环境的交互能力可以进一步提升。
Conclusion
- sim to real 得到了令人惊讶的良好表现。本次实验了在小型机器人上的可行性，后续可以推广到大型机器人。
Acknowledgements:阿巴阿巴

Software Engineering

AutoDev: Automated AI-Driven Development

arXiv.2403.08299v1

author : Microsoft Redmond USA

总结：吹牛逼居多。是一个方向，但是任务艰巨。目前的AI尚无此能力。看看GPT-5出来之后啥情况吧。如果GPT-5结合Ring-Attention
大幅扩展上下文，还是有机会十年内的。

碎碎念：协作是一个不错的方向，但是精细化控制是做不到的。AI没这种能力。后续持续优化此方向吧，厚积薄发，还是要看 Pre-train
Model的能力。 2077年或许可以完全AI化。

Introduction
- 现在的AI助手基本上还是 Copilot 这种类型。AutoDev 是全流程管理。基于Auto Gen 的灵感，基于Auto GPT。
AutoDev Design
- Rules, Actions, and Objective Configuration ： Yaml文件
- Conversation Manager：人机交互，随机决策。
  - Parser、Output Organizer、Conversation Conclusion、
- Agent Scheduler：编排 agent 协同工作。
  - Agents：LLM & SLM
- Tools Library：供 Function Call
  - File Editing、Retrieval、Build & Execution、Testing & Validation、Git、Communication
- Evaluation Environment：Docker中
- Putting Everything Together：以上部分综合到一起，组合成AutoDev
Empirical Design
- Research Question：代码生成效果、测试任务生成效果、效率
- AutoDev Settings：无人工干预效果怎么样
Empirical Results
- 代码生成任务：好；测试任务生成：还行；效率：还行；（大概率是测试集的问题导致还不错，目前AI并没有复杂工程能力[2024.4]）
Discussion
- AutoDev in Action：有几张演示图
- Multi-Agent Collaboration：协同效果会更好。联邦学习？
- Human in the Loop：人机交互通过ask和talk进行传递指令，后续进行扩展。
- AutoDev Integrations：未来希望集成到IDE中，目前还是命令行。
Related Works
- AI in Software Engineering : 本文介绍了 AutoDev framework
- Evaluation of LLMs in Software Engineering : 后续进行更复杂任务的训练
- AI in Software Engineering Interactions : 总结了一下前人工作，可以看看。
  - AutoDev 将这些想法专门用于软件工程领域，提供了一个灵活的框架，允许人工智能代理完全自主地完成复杂的 SE
    任务。我们的工作旨在弥合传统软件工程实践和人工智能驱动的自动化之间的差距，促进开发人员和人工智能代理之间的协作。通过引入多功能工具库，AutoDev
    使人工智能代理能够自主执行复杂的任务，从而在人工智能辅助软件开发领域取得了有希望的进步。
Conclusion : 阿巴阿巴

参考资料

启示录

富贵岂由人，时会高志须酬。

能成功于千载者，必以近察远。

paper

#paper #Deep Learning

AI 论文阅读

https://allendericdalexander.github.io/2024/04/03/paper/

作者

AtLuoFu

发布于

2024年4月3日

许可协议

系统分析师备考第六章-计算机网络上一篇

黄油下一篇

AI 论文阅读

序言

论文推荐

DL

Deep learning

CV

NLP

Efficient Estimation of Word Representations in Vector Space

LLM

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Retentive Network: A Successor to Transformer for Large Language Models

Ring Attention with Blockwise Transformers for Near-Infinite Context

LWM - WORLD MODEL ON MILLION-LENGTH VIDEO ANDLANGUAGE WITH BLOCKWISE RINGATTENTION

RAG

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity

RAG 鼻祖 - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Social Skill Training with Large Language Models

Chain of thought prompting elictis reasoning in LLMs

prompt engineering

LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS

Robot Agent

Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning

Software Engineering

AutoDev: Automated AI-Driven Development

参考资料

启示录