Paradigm - a Augusteinia Collection

Augusteinia 's Collections

Math

VLM

3DV

Paradigm

updated Jun 26, 2025

Parallel Scaling Law for Language Models

Paper • 2505.10475 • Published May 15, 2025 • 83
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective

Paper • 2505.15045 • Published May 21, 2025 • 54
Scaling Diffusion Transformers Efficiently via μP

Paper • 2505.15270 • Published May 21, 2025 • 35
Vision Transformers Don't Need Trained Registers

Paper • 2506.08010 • Published Jun 9, 2025 • 22
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper • 2506.13585 • Published Jun 16, 2025 • 273
Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression

Paper • 2506.09482 • Published Jun 11, 2025 • 45