🧬Architectures

State Space Models

SSMs including Mamba architecture

100 papers3,663 total citations

Compare with other topics

Feb '24 — Jan '26406 papers

Top Conferences

ICLR: 22 CVPR: 22 NeurIPS: 16 AAAI: 13 ECCV: 12 ICCV: 10

Top Papers

#1

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu et al.

VideoMamba: State Space Model for Efficient Video Understanding

Kunchang Li, Xinhao Li, Yi Wang et al.

Why Do Multi-Agent LLM Systems Fail?

Mert Cemri, Melissa Z Pan, Shuyi Yang et al.

NeurIPS 2025arXiv:2503.13657

multi-agent llm systemsfailure pattern analysissystem failure taxonomyllm-as-a-judge+3

188

citations

#4

ZigMa: A DiT-style Zigzag Mamba Diffusion Model

Tao Hu, Stefan Andreas Baumann, Ming Gui et al.

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM

Mingrui Li, Shuhong Liu, Heng Zhou et al.

ECCV 2024arXiv:2402.03246

gaussian splattingvisual slamsemantic segmentationneural implicit slam+4

131

citations

#6

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Liliang Ren, Yang Liu, Yadong Lu et al.

Motion Mamba: Efficient and Long Sequence Motion Generation

Zeyu Zhang, Akide Liu, Ian Reid et al.

ECCV 2024arXiv:2403.07487

state space modelsmotion generationlong sequence modelinghuman motion generation+4

108

citations

#8

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

Mingjin Zhang, Yuchun Wang, Jie Guo et al.

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

Guanxing Lu, Shiyi Zhang, Ziwei Wang et al.

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Saaket Agashe, Jiuzhou Han, Shuyu Gan et al.

Point Cloud Mamba: Point Cloud Learning via State Space Model

Tao Zhang, Haobo Yuan, Lu Qi et al.

UMA: A Family of Universal Models for Atoms

Brandon Wood, Misko Dzamba, Xiang Fu et al.

NeurIPS 2025arXiv:2506.23971

atomic simulationsmaterials sciencemixture of linear expertsempirical scaling laws+4

62

citations

#13

Hymba: A Hybrid-head Architecture for Small Language Models

Xin Dong, Yonggan Fu, Shizhe Diao et al.

ICLR 2025arXiv:2411.13676

small language modelshybrid-head architecturetransformer attention mechanismsstate space models+3

55

citations

#14

ReMamber: Referring Image Segmentation with Mamba Twister

Yuhuan Yang, Chaofan Ma, Jiangchao Yao et al.

SubT-MRS Dataset: Pushing SLAM Towards All-weather Environments

Shibo Zhao, Yuanjun Gao, Tianhao Wu et al.

OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

Han Liang, Jiacheng Bao, Ruichi Zhang et al.

BAMM: Bidirectional Autoregressive Motion Model

Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang et al.

Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking

Heli Ben-Hamu, Itai Gat, Daniel Severo et al.

TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Han Shu, Wenshuo Li, Yehui Tang et al.

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

Yun Li, Yiming Zhang, Tao Lin et al.

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM Optimization

Zhenlong Yuan, Jiakai Cao, Zhaoxin Li et al.

AAAI 2024arXiv:2401.06385

multi-view stereo3d reconstructiontextureless areassegment anything model+4

35

citations

#22

Scaling Wearable Foundation Models

Girish Narayanswamy, Xin Liu, Kumar Ayush et al.

WISA: World simulator assistant for physics-aware text-to-video generation

Jing Wang, Ao Ma, Ke Cao et al.

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

Swarnadeep Saha, Archiki Prasad, Justin Chen et al.

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Jianhao Zheng, Zihan Zhu, Valentin Bieri et al.

Longhorn: State Space Models are Amortized Online Learners

Bo Liu, Rui Wang, Lemeng Wu et al.

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

Baijiong Lin, Weisen Jiang, Pengguang Chen et al.

VSSD: Vision Mamba with Non-Causal State Space Duality

Yuheng Shi, Mingjia Li, Minjing Dong et al.

ICCV 2025arXiv:2407.18559

state space modelsvision transformersnon-causal modelingimage classification+4

24

citations

#30

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

Duojun Huang, Xinyu Xiong, Jie Ma et al.

MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding

Rongchang Xie, Chen Du, Ping Song et al.

VideoMamba: Spatio-Temporal Selective State Space Model

Jinyoung Park, Hee-Seon Kim, Kangwook Ko et al.

Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors

Weixuan Wang, JINGYUAN YANG, Wei Peng

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

Guibin Zhang, Muxin Fu, Kun Wang et al.

Robust Tracking via Mamba-based Context-aware Token Learning

Jinxia Xie, Bineng Zhong, Qihua Liang et al.

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

Jingwei Zhang, Anh Tien Nguyen, Xi Han et al.

CVPR 2025arXiv:2412.00678

state space modelsimage representationwhole slide imagingcomputational efficiency+4

20

citations

#37

QMambaBSR: Burst Image Super-Resolution with Query State Space Model

Xin Di, Long Peng, Peizhe Xia et al.

OccMamba: Semantic Occupancy Prediction with State Space Models

Heng Li, Yuenan Hou, Xiaohan Xing et al.

SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models

Shuaijie Shen, Chao Wang, Renzhuo Huang et al.

Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment

Yongxu Liu, Yinghui Quan, Guoyao Xiao et al.

AAAI 2024arXiv:2401.02614

image quality assessmentvideo quality assessmentdata sampling methodsmulti-scale representation+4

17

citations

#41

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures

Junxuan Wang, Xuyang Ge, Wentao Shu et al.

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

Yan Li, Yifei Xing, Xiangyuan Lan et al.

Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence

Shangbin Feng, Zifeng Wang, Yike Wang et al.

Quamba: A Post-Training Quantization Recipe for Selective State Space Models

Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin et al.

MambaIC: State Space Models for High-Performance Learned Image Compression

Fanhu Zeng, Hao Tang, Yihua Shao et al.

JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba

Xiaoyong Lu, Songlin Du

CVPR 2025arXiv:2503.03437

local feature matchingmamba architecturelinear complexityscan-merge strategy+3

14

citations

#47

Symphony: Symmetry-Equivariant Point-Centered Spherical Harmonics for 3D Molecule Generation

Ameya Daigavane, Song Eun Kim, Mario Geiger et al.

Stable Segment Anything Model

Qi Fan, Xin Tao, Lei Ke et al.

DG-Mamba: Robust and Efficient Dynamic Graph Structure Learning with Selective State Space Models

Haonan Yuan, Qingyun Sun, Zhaonan Wang et al.

Efficiently Parameterized Neural Metriplectic Systems

Anthony Gruber, Kookjin Lee, Haksoo Lim et al.

Fast training and sampling of Restricted Boltzmann Machines

Nicolas BEREUX, Aurélien Decelle, Cyril Furtlehner et al.

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

Fengxiang Wang, Yulin Wang, Mingshuo Chen et al.

Motion Diversification Networks

Hee Jae Kim, Eshed Ohn-Bar

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Jianping Jiang, Weiye Xiao, Zhengyu Lin et al.

Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM

Yizhou Huang, Yihua Cheng, Kezhi Wang

Compositional simulation-based inference for time series

Manuel Gloeckler, Shoji Toyota, Kenji Fukumizu et al.

Learning Semantic Latent Directions for Accurate and Controllable Human Motion Prediction

Guowei Xu, Jiale Tao, Wen Li et al.

Hyperion – A fast, versatile symbolic Gaussian Belief Propagation framework for Continuous-Time SLAM

David Hug, Ignacio Alzugaray Lopez, Margarita Chli

PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

Ciyu Ruan, Ruishan Guo, Zihang GONG et al.

LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba

Yubo Cui, Zhiheng Li, Jiaqiang Wang et al.

Sparse Learning for State Space Models on Mobile

Xuan Shen, Hangyu Zheng, Yifan Gong et al.

Distilling Structural Representations into Protein Sequence Models

Jeffrey Ouyang-Zhang, Chengyue Gong, Yue Zhao et al.

ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling

Zikang Zhou, Hengjian Zhou, Haibo Hu et al.

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

Tingting Zheng, Kui Jiang, Yi Xiao et al.

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Peishan Cong, Ziyi Wang, Yuexin Ma et al.

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

Peihao Wang, Ruisi Cai, Yuehao Wang et al.

S4M: S4 for multivariate time series forecasting with Missing values

Jing Peng, Meiqi Yang, Qiong Zhang et al.

ICLR 2025arXiv:2503.00900

multivariate time series forecastingmissing data handlingstructured state space modelsend-to-end forecasting+4

7

citations

#68

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Jingli Lin, Chenming Zhu, Runsen Xu et al.

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

Xinqi Liu, Li Zhou, Zikun Zhou et al.

Momentum Multi-Marginal Schrödinger Bridge Matching

Panagiotis Theodoropoulos, Augustinos Saravanos, Evangelos Theodorou et al.

NeurIPS 2025arXiv:2506.10168

schrödinger bridge matchingmulti-marginal optimal controlmeasure-valued splinesstochastic bridges+4

6

citations

#71

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

Hantao Lou, Changye Li, Jiaming Ji et al.

RadarMOSEVE: A Spatial-Temporal Transformer Network for Radar-Only Moving Object Segmentation and Ego-Velocity Estimation

Changsong Pang, Xieyuanli Chen, Yimin Liu et al.

AAAI 2024arXiv:2402.14380

moving object segmentationego-velocity estimationradar point cloudsspatial-temporal transformer+4

6

citations

#73

Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan et al.

State Space Models are Provably Comparable to Transformers in Dynamic Token Selection

Naoki Nishikawa, Taiji Suzuki

Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models

Fusheng Liu, Qianxiao Li

Parameter-Efficient Fine-Tuning of State Space Models

Kevin Galim, Wonjun Kang, Yuchen Zeng et al.

GroupMamba: Efficient Group-Based Visual State Space Model

Abdelrahman Shaker, Syed Talal Wasim, Salman Khan et al.

SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer

Hongda Liu, Longguang Wang, Ye Zhang et al.

Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models

Benjamin Walker, Lingyi Yang, Nicola Muca Cirone et al.

NeurIPS 2025arXiv:2505.17761

controlled differential equationsstate-transition matricessequence modelingparallel-in-time computation+3

6

citations

#80

Multi-Modal View Enhanced Large Vision Models for Long-Term Time Series Forecasting

ChengAo Shen, Wenchao Yu, Ziming Zhao et al.

NeurIPS 2025arXiv:2505.24003

long-term time series forecastingmulti-modal viewstrend-seasonal decompositionlarge vision models+2

5

citations

#81

SEGS-SLAM: Structure-enhanced 3D Gaussian Splatting SLAM with Appearance Embedding

Tianci Wen, Zhiang Liu, Yongchun Fang

MOSCATO: Predicting Multiple Object State Change Through Actions

Parnian Zameni, Yuhan Shen, Ehsan Elhamifar

Learning Safe Action Models with Partial Observability

Hai Le, Brendan Juba, Roni Stern

🎧MOSPA: Human Motion Generation Driven by Spatial Audio

Shuyang Xu, Zhiyang Dou, Mingyi Shi et al.

ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding

LinshuangDiao, Sensen Song, Yurong Qian et al.

SBSC: Step-by-Step Coding for Improving Mathematical Olympiad Performance

Kunal Singh, Ankan Biswas, Sayandeep Bhowmick et al.

Epistemic Monte Carlo Tree Search

Yaniv Oren, Viliam Vadocz, Matthijs T. J. Spaan et al.

Sable: a Performant, Efficient and Scalable Sequence Model for MARL

Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock et al.

Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling

Mónika Farsang, Radu Grosu

OuroMamba: A Data-Free Quantization Framework for Vision Mamba

Akshat Ramachandran, Mingyu Lee, Huan Xu et al.

SSAN: A Symbol Spatial-Aware Network for Handwritten Mathematical Expression Recognition

Haoran Zhang, Xiangdong Su, Xingxiang Zhou et al.

Learning long range dependencies through time reversal symmetry breaking

Guillaume Pourcel, Maxence Ernoult

GG-SSMs: Graph-Generating State Space Models

Nikola Zubic, Davide Scaramuzza

End-to-End Multi-Modal Diffusion Mamba

Chunhao Lu, Qiang Lu, Meichen Dong et al.

ICCV 2025arXiv:2510.13253

multi-modal diffusionmamba architectureunified variational autoencoderimage generation+4

3

citations

#95

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient 3D Shape Generation

Shentong Mo

Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention

Arya Honarpisheh, Mustafa Bozdag, Octavia Camps et al.

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Jiahui Wang, Zuyan Liu, Yongming Rao et al.

4D Gaussian Splatting SLAM

Yanyan Li, Youxu Fang, Zunjie Zhu et al.

Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation

Xingguang Zhang, Nicholas M Chimitt, Xijun Wang et al.

Monte Carlo Tree Search in the Presence of Transition Uncertainty

Farnaz Kohankhaki, Kiarash Aghakasiri, Hongming Zhang et al.

AAAI 2024arXiv:2312.11348

monte carlo tree searchtransition uncertaintyimperfect environment modelssearch-based decision making+3

3

citations

State Space Models

Top Conferences

Related Topics (Architectures)

Top Papers

WorldSimBench: Towards Video Generation Models as World Simulators

VideoMamba: State Space Model for Efficient Video Understanding

Why Do Multi-Agent LLM Systems Fail?

ZigMa: A DiT-style Zigzag Mamba Diffusion Model

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Motion Mamba: Efficient and Long Sequence Motion Generation

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Point Cloud Mamba: Point Cloud Learning via State Space Model

UMA: A Family of Universal Models for Atoms

Hymba: A Hybrid-head Architecture for Small Language Models

ReMamber: Referring Image Segmentation with Mamba Twister

SubT-MRS Dataset: Pushing SLAM Towards All-weather Environments

OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

BAMM: Bidirectional Autoregressive Motion Model

Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking

TinySAM: Pushing the Envelope for Efficient Segment Anything Model

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM Optimization

Scaling Wearable Foundation Models

WISA: World simulator assistant for physics-aware text-to-video generation

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Longhorn: State Space Models are Amortized Online Learners

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

VSSD: Vision Mamba with Non-Causal State Space Duality

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding

VideoMamba: Spatio-Temporal Selective State Space Model

Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

Robust Tracking via Mamba-based Context-aware Token Learning

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

QMambaBSR: Burst Image Super-Resolution with Query State Space Model

OccMamba: Semantic Occupancy Prediction with State Space Models

SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models

Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence

Quamba: A Post-Training Quantization Recipe for Selective State Space Models

MambaIC: State Space Models for High-Performance Learned Image Compression

JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba

Symphony: Symmetry-Equivariant Point-Centered Spherical Harmonics for 3D Molecule Generation

Stable Segment Anything Model

DG-Mamba: Robust and Efficient Dynamic Graph Structure Learning with Selective State Space Models

Efficiently Parameterized Neural Metriplectic Systems

Fast training and sampling of Restricted Boltzmann Machines

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

Motion Diversification Networks

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM

Compositional simulation-based inference for time series

Learning Semantic Latent Directions for Accurate and Controllable Human Motion Prediction

Hyperion – A fast, versatile symbolic Gaussian Belief Propagation framework for Continuous-Time SLAM

PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba

Sparse Learning for State Space Models on Mobile

Distilling Structural Representations into Protein Sequence Models

ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling

M3amba: Memory Mamba is All You Need for Whole Slide Image Classification

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

S4M: S4 for multivariate time series forecasting with Missing values

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking

Momentum Multi-Marginal Schrödinger Bridge Matching

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

RadarMOSEVE: A Spatial-Temporal Transformer Network for Radar-Only Moving Object Segmentation and Ego-Velocity Estimation

Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

State Space Models are Provably Comparable to Transformers in Dynamic Token Selection

Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models

Parameter-Efficient Fine-Tuning of State Space Models