Sources | 3D at 0.1% Tokens, Video Fine-Tuning's Hidden Spatial Cost

Featured

Complementary Reinforcement Learning score 10
入选 HF Daily Papers; HF 热度: 31 upvotes (+4); 有代码实现; 关键词(1): agentic
GigaWorld-Policy: An Efficient Action-Centered World--Action Model score 10
入选 HF Daily Papers; HF 热度: 22 upvotes (+4); 有代码实现; 关键词(2): deployment, reasoning
LoST: Level of Semantics Tokenization for 3D Shapes score 10
入选 HF Daily Papers; HF 热度: 20 upvotes (+4); 有代码实现; 关键词(1): compression
Prompt-Free Universal Region Proposal Network score 9
入选 HF Daily Papers; 有代码实现; 关键词(1): fine-tuning; 顶会接收: CVPR
Stereo World Model: Camera-Guided Stereo Video Generation score 9
入选 HF Daily Papers; HF 热度: 10 upvotes (+3); 有代码实现; 关键词(2): distillation, embodied
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs score 8
入选 HF Daily Papers; HF 热度: 8 upvotes (+2); 有代码实现; 关键词(4): scaling, lightweight, pruning, vision-language
MOSS-TTS Technical Report score 8
入选 HF Daily Papers; HF 热度: 6 upvotes (+2); 有代码实现; 关键词(2): deployment, pretraining
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models score 7
入选 HF Daily Papers; HF 热度: 18 upvotes (+3); 关键词(2): serving, fine-tuning
FINER: MLLMs Hallucinate under Fine-grained Negative Queries score 7
入选 HF Daily Papers; HF 热度: 2 upvotes (+1); 有代码实现; 关键词(2): finetuning, DPO
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute score 7
入选 HF Daily Papers; HF 热度: 2 upvotes (+1); 有代码实现; 关键词(1): scaling

Also Worth Noting

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement score 4
机构: Tsinghua; 关键词(3): deployment, GRPO, vision-language
VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection score 4
关键词(2): pretraining, vision-language; 顶会接收: CVPR
EI: Early Intervention for Multimodal Imaging based Disease Recognition score 4
关键词(2): edge, fine-tuning; 顶会接收: CVPR
PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery score 4
关键词(1): reasoning; 顶会接收: CVPR
Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing score 4
关键词(1): reasoning; 顶会接收: CVPR
ReLaGS: Relational Language Gaussian Splatting score 4
关键词(2): pruning, reasoning; 顶会接收: CVPR
STEP: Detecting Audio Backdoor Attacks via Stability-based Trigger Exposure Profiling score 4
机构: Zhejiang University; 关键词(1): deployment
CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution score 4
机构: Zhejiang University; 关键词(1): reasoning
Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients score 4
关键词(4): quantization, deployment, latency, post-training; 顶会接收: CVPR
TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models score 4
关键词(2): deployment, text-to-image; 顶会接收: CVPR
CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents score 4
机构: Carnegie Mellon; 关键词(2): agentic, coding
Video Understanding: From Geometry and Semantics to Unified Models score 4
机构: Cambridge; 关键词(1): reasoning
CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention score 4
关键词(1): fine-tune; 顶会接收: ICLR
AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception score 4
关键词(3): compression, quantization, pruning; 顶会接收: CVPR
Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization score 4
关键词(1): DPO; 顶会接收: ICLR