训练一个LORA模型要多久
文章标题:大模型微调方法与本征维度的探索
最近,与大模型一起备受关注的,还有其微调方法。这类方法仅使用少量数据,就能让大模型在原本表现平平的下游任务中脱颖而出,成为该领域的专家。其中,LoRA方法无疑是当前最火的。那么,包括LoRA在内,这类方法的核心原理究竟是什么?它和大模型之间的关系又是如何?接下来,我们一起深入探讨。
从备受瞩目的LoRA说起。LoRA(《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》)是在ICLR2022上提出的一种大模型微调方法。它通过利用低秩适配的方法,仅在使用大模型适配下游任务时训练少量参数即可达到很好的效果。
LoRA是如何微调适配下游任务的呢?流程很简单。LoRA利用对应下游任务的数据,只通过训练新加部分参数来适配下游任务。当训练好新的参数后,利用重参的方式,将新参数和老的模型参数合并,这样既能在新任务上达到fine-tune整个模型的效果,又不会在推断的时候增加推断的耗时。
接下来,我们重点介绍一下本征维度这一概念。在训练一个网络时,往往包含设计网络结构、选择对应的loss、对网络中的参数进行随机初始化以及训练网络降低loss等步骤。而训练阶段可以认为是在一个固定的目标图上寻找有效的路径。对于参数量为D的模型,我们只需要优化其中的d个参数就可以找到一个有效的解。这个d就是所谓的本征维度。
那么,为什么LoRA的思路能够work得不错呢?答案就在于大模型存在本征维度的概念。由于本征维度的存在,只需要调整少量参数就能在下游任务上得到很好的效果。这也是为什么现在使用几百或几千张图片就可以对大模型进行有效的微调的原因。
为了进一步验证本征维度的概念,一些研究进行了实验。例如,在预训练模型时,通过保存不同预训练次数的模型,测试这些模型在不同任务上的本征维度。结果发现,预训练次数越多,模型在各个任务上的本征维度越低。这证明了预训练模型的表征能力越强,本征维度越小。实验还发现模型越大,本征维度越小。也就是说,越强大的模型其本征维度越低。
为了验证本征维度与泛化能力的关系,实验还进行了不同数据集的测试。结果发现本征维度低的模型其准确率更高,也就是说本征维度越低,泛化性能越好。
LoRA等微调方法之所以能够成功,是因为大模型存在本征维度的概念。而本文的介绍只是为了让大家了解这一领域的研究进展和思路,具体细节和实验结果需要查阅相关论文进行深入探讨。
参考文献:
[1]en.//Gradient_descent
[2]/pdf/1804.08838.pdf
[3]/pdf/2012.13255.pdf
[4]/pdf/2106.09685.pdf
— 完 —