Jie Zhou

47

Papers

2,147

Total Citations

1

Affiliations

Affiliations

Tencent Inc.

Papers (47)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

Large Language Models Are Not Robust Multiple Choice Selectors

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

FlowIE: Efficient Image Enhancement via Rectified Flow

LiDAR-based Person Re-identification

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering

Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Continuous Visual Autoregressive Generation via Score Maximization

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

Path Choice Matters for Clear Attributions in Path Methods

Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution

A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

NeurIPS 2025arXiv

D3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

LowRankOcc: Tensor Decomposition and Low-Rank Recovery for Vision-based 3D Semantic Occupancy Prediction

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

Memory-based Adapters for Online 3D Scene Perception

Towards Accurate Post-training Quantization for Diffusion Models

Language Generation with Strictly Proper Scoring Rules

Exploring the Benefit of Activation Sparsity in Pre-training

On Prompt-Driven Safeguarding for Large Language Models

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Learning Counterfactually Decoupled Attention for Open-World Model Attribution

EFTViT: Efficient Federated Training of Vision Transformers with Masked Images on Resource-Constrained Clients

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

WalkVLM: Aid Visually Impaired People Walking by Vision Language Model

MCID: Multi-aspect Copyright Infringement Detection for Generated Images

Authentic 4D Driving Simulation with a Video Generation Model

SpectralAR: Spectral Autoregressive Visual Generation

Entropy-Adaptive Diffusion Policy Optimization with Dynamic Step Alignment

From Imitation to Innovation: The Emergence of AI's Unique Artistic Styles and the Challenge of Copyright Protection

Learning with Open-world Noisy Data via Class-independent Margin in Dual Representation Space

Teaching Large Language Models to Translate with Comparison

MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA

Tree-of-Reasoning Question Decomposition for Complex Question Answering with Large Language Models

Learning Multi-Scale Video-Text Correspondence for Weakly Supervised Temporal Article Gronding

Generative Multi-Modal Knowledge Retrieval with Large Language Models

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft