波士顿大学「鸭嘴兽 DATE: 2023-12-11 09:13:55
新智元报道
编辑:Lumina 润
【新智元导读】鸭嘴兽 70B登上Hugging Face上的开源大模型榜一 ,变强的学鸭缘故是采用优化过的数据集训练以及更高效的PEFT和独特的LoRA微调。
Hugging Face上的嘴兽开源大模型排名榜又更新了,这次荣登榜一的波士是:鸭嘴兽(Platypus 2-70B)!
和现在抱脸开源榜单上大部分的模型一致 ,鸭嘴兽是嘴兽来自波士顿大学的研究人员基于Llama2微调而来。
同时 ,波士鸭嘴兽的学鸭进步就像之前所有的开源大模型那样:在提升性能的同时,使用更少的嘴兽计算资源和数据 。
一个13B的波士鸭嘴兽模型可以在单个A100 GPU使用25k个问题在5小时内完成训练。
论文地址 :https://arxiv.org/pdf/2308.07317.pdf
根据研究人员的论文描述 ,鸭嘴兽70B变强的嘴兽缘故主要是两点:
1. 编辑数据集:删除相似和重复的问题
2. 使用LoRA和PEFT对模型进行了优化,重点关注非注意力模块
而在检查测试数据泄漏和训练数据污染方面,波士鸭嘴兽也做出了自己的学鸭贡献 ,这为未来的嘴兽研究提供了有价值的参照。
多快好省的鸭嘴兽
鸭嘴兽主要是通过在一个小而强大的数据集Open-Platypus上使用参数高效调整(PEFT)和LoRA中对非注意力部分的微调来改进模型的性能。
与一般专注于专业领域的模型在微调是耗时又昂贵不同,鸭嘴兽既做到了在总体上的模型性能提升 ,同时在特定领域的体现也很优秀 。
在研究中发现,领域特定的数据集可以提高在所选任务类别上的性能 。当与模型合并结合使用时 ,能够显著减少训练时间。
开源数据集
研究团队通过Hugging Face向公众开放了鸭嘴兽的数据集Open-Platypus :
Open-Platypus由11个开源数据集组成,主要由人为设计的问题组成 ,仅仅有大约10%的问题由LLM生成,能够以最小的微调时间和成本实现强大的性能 。侧重于提高LLM的STEM和逻辑能力。
同时,研究团队也对这些数据集进行了优化,这有助于缩小数据集并最大限度地减少数据冗余。
具体操作包括 :
通过相似性排除的方法来最小化记忆,删除了所有逐字逐句的重复指令,然后删除了与训练集中其他指令的SentenceTransformers 嵌入具有80%余弦相似度的指令 。
并且默认保留具有更详细答案的问题与答案对 。因而较长的答案很可能对应更详细的解释和/或逐步解决方案 。
解决数据污染
研究团队深入探索了开放式LLM训练集中的污染问题 ,并介绍了对鸭嘴兽数据进行过滤过程。
研究团队数据过滤的方法,其核心是确保基准测试题不会无意中泄漏到训练集中,这是为了防止测试数据的记忆对基准成果造成歪曲。
考虑到这一点 ,在确定是否应将问题标记为重复问题并从训练集中删除时,应留有余地 。
在确定可疑义题时允许必定的灵活性,因而查询有多种措辞方式 ,同时 ,通用领域知识可能会阻止问题被视作重复。
为此,研究团队开发了以下启发式方法,用于指导人工筛选来自 Open-Platypus 的 、与一切基准问题相似度大于 80% 的问题 。
研究团队将潜在问题分为三类:重复 、灰色区域和相似但不同。但为了谨慎起可见 ,研究团队会将它们全部从训练集中删除 。
1. 重复 :
这些问题几乎是测试集问题的完全复制品,可能仅仅有一个微小的词语变化或轻微的重新排列。
这是我们将之定义为“真正”的污染类别,如上表中泄漏问题的数量所示。这种情况的具体示例如下:
2. 灰色区域
这组问题被称为灰色区域