Reasoning | AI Research Brief

Jul 5, 2026 Memory Makes Agents Sycophantic; Visual Reasoning Hits 93.2% Daily
Jul 1, 2026 Frontier Agents Finish One Task in Five at 1.6-Hour Length Daily
Jun 30, 2026 Knowing When to Stop Doubles an Agent's Recall Daily
Jun 22, 2026 A Stateful 260M Embedding Beats 8B Specialists Daily
Jun 17, 2026 A 1.5B Model Beats Sonnet 3.5 at Event Forecasting Daily
Jun 14, 2026 Swap the Action Interface, Gain 11 Points on Spatial Reasoning Daily
Jun 11, 2026 DeepSeek V4 Cuts KV to 13.5%, Video Memory Runs 10x Faster Daily
Jun 8, 2026 dots.tts Hits 54ms First Packet, SWE Agent Self-Evolves Past 50% Daily
Jun 6, 2026 NVIDIA Packs Five Modalities Into One Set of Weights Daily
Jun 4, 2026 A 4B Web Agent Catches Up to Closed CUAs on a Few Thousand Trajectories Daily
May 30, 2026 Agents Start Improving Themselves, and Reaching for Fewer Tools Daily
May 24, 2026 Gated DeltaNet-2 Splits the Gate, Maestro Outscores GPT-5 Daily
May 17, 2026 Olympiad Gold Becomes a Two-Step Recipe Daily
May 13, 2026 Geometry Conflict Predicts Continual Fine-Tuning Forgetting Daily
May 4, 2026 ViT Pre-Trains Like an LLM, Skips the CLIP Stage Daily
May 2, 2026 Cross-Architecture Distillation Shrinks dLLMs to 0.6B Daily
Apr 30, 2026 RL Patches 3D Consistency Into Video Models Without Touching Architecture Daily
Apr 27, 2026 Full Traces Lift Multi-Agent Attribution Accuracy 76% Daily
Apr 25, 2026 Coding Agents Start Cheating by Round 4 Under Score Pressure Daily
Apr 20, 2026 Open Omni Hits Flagship Scale, Self-Judge Breaks, Reasoning Leaks Forgotten Facts Daily
Apr 19, 2026 Compile the Corpus Into a Skill Tree, Train Surrogates on Logs Daily
Apr 15, 2026 dLLMs Hallucinate Differently, PRM Labeling Cost Drops 100x Daily
Apr 14, 2026 SFT Convergence Hides Failures, Attention Hijacking Hits 94% Daily
Apr 12, 2026 Scrambled Media Boosts Reasoning; 6B Model Tops GPT-4o Daily
Apr 10, 2026 Entropy Is Lying to You, Implicit Reasoning Tops Out at 7 Steps Daily
Apr 5, 2026 4M Game Frames Train Rendering, Internalized Skills Beat Retrieval Daily
Apr 4, 2026 Single Neurons Remember Entities, Reusable Routines Boost 19% Daily
Mar 28, 2026 Self-Distillation Strips Out Hesitation, OOD Drops 40% Daily
Mar 26, 2026 Diffusion OCR Decodes 3.2x Faster, Single-Stream AV in 2 Seconds Daily
Mar 25, 2026 PDEs Beat Attention 2x, Local RL Saves 3/4 Compute Daily
Mar 21, 2026 3D at 0.1% Tokens, Video Fine-Tuning's Hidden Spatial Cost Daily
Mar 19, 2026 Open-Source Search Agent Wins With 12K Samples, Agent Skills Mostly Fail Daily
Mar 18, 2026 700K Paper Pairs Distill Taste, Null Spaces Expose Blind Spots Daily
Mar 17, 2026 Expert Reasoning Structure for CoT, +13% on Novel Class Discovery Daily
Mar 14, 2026 Encode the Answer, Not the Question — Embeddings Gain 9% Daily
Mar 13, 2026 \"Think It Over\" Can Unlock a Model's Memory Bank Daily
Mar 10, 2026 12k Samples Beat Finance SOTA, CUDA Optimization 35% Faster Daily
Mar 7, 2026 14B Video Model Runs Real-Time on a Single GPU Daily
Mar 6, 2026 Code Agents Can't Cross Repo Boundaries, Under 45% Success Daily
Mar 5, 2026 Direct Lottie Generation, DPO's Built-In Forgetting Defense Daily
Mar 4, 2026 9K Samples Rival R1, Most RL Gains Trace Back to SFT Daily
Feb 27, 2026 TTT Is Linear Attention, Terminal Agent Data Recipe Goes Open Daily
Feb 26, 2026 11 Agent Failure Modes From Red-Teaming, Step-Level Routing Cuts Cost 700x Daily
Feb 24, 2026 74% of Agent Coordination May Be Wasted Effort Daily
Feb 19, 2026 Spectral Decay Recovers 7% Accuracy in W4A4 Quantization Daily
Feb 18, 2026 Binary Tokens Make Image Gen 30x Faster, RL Training Learns to Reflect Daily
Feb 17, 2026 Online RL Cracks Web Agents, Reward Models Learn to Look Backward Daily
Feb 16, 2026 Vertical AI Is Winning: Medical, Robotics, and Science Agents Daily
Feb 15, 2026 Running Out of RL Training Data? Just Combine the Easy Problems Daily
Feb 14, 2026 11B Active Parameters Hit Frontier-Level Agent Intelligence Daily
Feb 13, 2026 AI Solves Real Open Math Problems, World Models Everywhere Daily
Feb 12, 2026 Text Diffusion Hits Practical Speed, RL Spreads Everywhere Daily
Feb 9, 2026 Medical LLMs Should Ask Questions, Not Just Answer Them Daily
Feb 5, 2026 Kimi K2.5 Open-Sources Agent Swarm, CoT Plans Only 2-3 Steps Ahead Daily
Feb 3, 2026 Zero-Cost Data Mix Search, Guided RLVR, Selective SFT Daily
Feb 2, 2026 Unlimited RLVR Data From Web Text, FP4 Pretraining Matches BF16 Daily

← Topics

Topic: Reasoning