论文来源 | 语料编译成目录，日志训LLM替身

重点关注

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework score 10
入选 HF Daily Papers；HF 热度: 25 upvotes (+4)；有代码实现；关键词(3): scaling, deployment, throughput
DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation score 9
入选 HF Daily Papers；HF 热度: 25 upvotes (+4)；有代码实现
Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models score 8
入选 HF Daily Papers；HF 热度: 8 upvotes (+2)；有代码实现；关键词(3): distillation, deployment, vision-language
UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards score 8
入选 HF Daily Papers；HF 热度: 8 upvotes (+2)；有代码实现；关键词(5): GRPO, retrieval-augmented, RAG, reasoning, vision-language
TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification score 8
入选 HF Daily Papers；HF 热度: 6 upvotes (+2)；有代码实现；关键词(4): lightweight, deployment, production, open-source
LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories score 9
入选 HF Daily Papers；HF 热度: 6 upvotes (+2)；关键词(3): fine-tuning, GRPO, post-training；顶会接收: CVPR
Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG score 7
入选 HF Daily Papers；HF 热度: 4 upvotes (+1)；有代码实现；关键词(3): retrieval-augmented, RAG, agentic
MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation score 8
入选 HF Daily Papers；HF 热度: 5 upvotes (+2)；有代码实现；关键词(1): agentic
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens score 6
入选 HF Daily Papers；HF 热度: 17 upvotes (+3)
LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning score 6
入选 HF Daily Papers；HF 热度: 5 upvotes (+2)；关键词(3): quantization, GRPO, reasoning

也值得关注

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes score 4
入选 HF Daily Papers；HF 热度: 4 upvotes (+1)
Dissecting Failure Dynamics in Large Language Model Reasoning score 4
关键词(2): scaling, reasoning；顶会接收: ACL
Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors score 4
关键词(3): compression, pruning, latency；顶会接收: CVPR
MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation score 4
关键词(3): scaling, code generation, reasoning；顶会接收: ACL
CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification score 4
关键词(2): deployment, fine-tuning；顶会接收: ACL
CURA: Clinical Uncertainty Risk Alignment for Language Model-Based Risk Prediction score 4
关键词(1): fine-tuning；顶会接收: ACL
SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models score 4
关键词(2): instruction tuning, pre-training；顶会接收: ACL
NG-GS: NeRF-Guided 3D Gaussian Splatting Segmentation score 4
关键词(1): lightweight；顶会接收: CVPR
OmniGCD: Abstracting Generalized Category Discovery for Modality Agnosticism score 4
关键词(2): fine-tuning, synthetic data；顶会接收: CVPR
ClimateCause: Complex and Implicit Causal Structures in Climate Reports score 4
关键词(1): reasoning；顶会接收: ACL
MambaSL: Exploring Single-Layer Mamba for Time Series Classification score 4
关键词(2): state space, mamba；顶会接收: ICLR
VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models score 4
机构: Huawei；关键词(3): compression, pruning, vision-language