论文来源 | 12k样本赢金融SOTA，CUDA优化快35%

重点关注

Agentic Planning with Reasoning for Image Styling via Offline RL score 8
机构: Microsoft；入选 HF Daily Papers；HF 热度: 2 upvotes (+1)；关键词(4): post-training, agentic, reasoning, synthetic data
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing score 8
机构: Tencent；入选 HF Daily Papers；有代码实现
Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training score 7
入选 HF Daily Papers；HF 热度: 11 upvotes (+3)；关键词(5): distillation, deployment, post-training, reasoning, open-source
AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery score 5
入选 HF Daily Papers；HF 热度: 4 upvotes (+1)；关键词(2): PPO, pretraining
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering score 5
入选 HF Daily Papers；有代码实现