LLMs之Falcon:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读
导读:2023年6月1日,Falcon 是由TII(阿联酋阿布扎比技术创新研究)发布的大语言模型,包含 1B、7B、40B 三种规模。该模型曾因其在 40B 上的性能超越 65B LLaMA 而被人们广泛关注。尽管近期有文章指出,排行榜对 LLaMA 的计算可能存在一些问题,Falcon 并不一定真正击败 LLaMA,不过这并不影响人们对这一开源且参数更小的强大模型的给与极高的关注度。
Falcon = 基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)1B/7B/40B+侧重严格数据清洗的MRD流程+基于RefinedWeb互联网数据集【5000B的token】和人工精选数据集(精选+过滤+去重)
>>Falcon靠洗数据击败 LLaMA:本