SFT越强,RL反而越弱?

从289篇论文中选出24篇

重点关注

也值得关注