什么是指令微调?—— 就是教会模型能够“听懂人话”并且“按要求办事”的过程 大语言模型的成长可以分成两个阶段:

  1. 预训练(知识积累) 模型在海量的文本(wiki、代码、图书等)上进行训练,目标是预测下一个字。但是此时你问他:“帮我写一个有关猫的故事”,他可能会回答错误,因为他无法理解“指令”。
  2. 指令微调 Instruction Tuning(学会对话) 这个阶段的训练数据是大量的“指令(Instruction) + 回答(Output)”的数据对,比如
  • 指令:“总结这段话的意思。” 回答:“这段话主要讲了……”
  • 指令:“把这段代码转换成 Python。” 回答:“好的,这是转换后的代码……” 通过这种训练,模型明白自己的身份是一个“助手”,能够理解用户指令,根据用户的意图去提取第一阶段获取的内部知识,并按指令和要求进行输出,而不是机械地去预测下一个字。