Xin Jin

24

Papers

215

Total Citations

Papers (24)

Language-Image Pre-training with Long Captions

Multi-Prompts Learning with Cross-Modal Alignment for Attribute-Based Person Re-identification

Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion

Bridging Past and Future: End-to-End Autonomous Driving with Historical Prediction and Planning

Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices

Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE Distillation and Diffusion Probabilistic Feedback

Rate-Distortion-Cognition Controllable Versatile Neural Image Compression

One at a Time: Progressive Multi-Step Volumetric Probability Learning for Reliable 3D Scene Perception

DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts

Towards RAW Object Detection in Diverse Conditions

Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning

Classic Video Denoising in a Machine Learning World: Robust, Fast, and Controllable

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning

Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions

UniScene: Unified Occupancy-centric Driving Scene Generation

Dis²Booth: Learning Image Distribution with Disentangled Features for Text-to-Image Diffusion Models

GeoFormer: Geometry Point Encoder for 3D Object Detection with Graph-based Transformer

UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection

SwiftPillars: High-Efficiency Pillar Encoder for Lidar-Based 3D Detection

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

Diff-BGM: A Diffusion Model for Video Background Music Generation

Inter-X: Towards Versatile Human-Human Interaction Analysis

ReGenNet: Towards Human Action-Reaction Synthesis

StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization