记性差一点大模型反而更强训练大模型tokens少反而强
训练大模型时,有时让它“记性差一点”,反而更聪明?
由于大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。而来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)。
顾名思义,金鱼损失就是让模型像金鱼一样,不去死记每一个细节,而是在损失函数计算时随机剔除一小部分token。
由此,模型不再逐字记住训练集内容,但仍能学会语言规律。
实验显示,LLaMA-2在使用金鱼损失后:
- 记忆化内容显著减少:模型不再复现训练数据
- 下游任务性能几乎不受影响:仍然能流畅生成文本
用网友的精辟评论概括就是:dropout,但损失函数!