只保留256个token就能逼近全量注意力性能

从540篇论文中选出22篇

重点关注

也值得关注