Jie Zhou

163

Papers

2,784

Total Citations

1

Affiliations

Affiliations

Tencent Inc.

Papers (163)

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Runtime Neural Pruning

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

Large Language Models Are Not Robust Multiple Choice Selectors

Temporal Coherence or Temporal Motion: Which is More Critical for Video-based Person Re-identification?

Graph-Based Social Relation Reasoning

MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down Distillation

FlowIE: Efficient Image Enhancement via Rectified Flow

LiDAR-based Person Re-identification

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding

CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection

Continuous Visual Autoregressive Generation via Score Maximization

Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution

Path Choice Matters for Clear Attributions in Path Methods

Secret Lies in Color: Enhancing AI-Generated Images Detection with Color Distribution Analysis

A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

FADE: Frequency-Aware Diffusion Model Factorization for Video Editing

LowRankOcc: Tensor Decomposition and Low-Rank Recovery for Vision-based 3D Semantic Occupancy Prediction

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

Memory-based Adapters for Online 3D Scene Perception

Towards Accurate Post-training Quantization for Diffusion Models

Language Generation with Strictly Proper Scoring Rules

Exploring the Benefit of Activation Sparsity in Pre-training

On Prompt-Driven Safeguarding for Large Language Models

Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind

Multi-Manifold Deep Metric Learning for Image Set Classification

Deep Hashing for Compact Binary Codes Learning

Learning Compact Binary Descriptors With Unsupervised Deep Neural Networks

Learning Deep Binary Descriptor With Multi-Quantization

Consistent-Aware Deep Learning for Person Re-Identification in a Camera Network

Deep Adversarial Metric Learning

Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition

Learning Globally Optimized Object Detector via Policy Gradient

Deep Hashing via Discrepancy Minimization

GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning

Hardness-Aware Deep Metric Learning

Spherical Fractal Convolutional Neural Networks for Point Cloud Recognition

Learning Channel-Wise Interactions for Binary Convolutional Neural Networks

Structural Relational Reasoning of Point Clouds

Deep Fitting Degree Scoring Network for Monocular 3D Object Detection

BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation

COIN: A Large-Scale Dataset for Comprehensive Instructional Video Analysis

UniformFace: Learning Deep Equidistributed Representation for Face Recognition

Deep Embedding Learning With Discriminative Sampling Policy

Enhanced Bayesian Compression via Deep Reinforcement Learning

BiDet: An Efficient Binarized Object Detector

Deep Metric Learning via Adaptive Learnable Assessment

Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds

Deep Face Super-Resolution With Iterative Collaboration Between Attentive Recovery and Landmark Estimation

Structure-Preserving Super Resolution With Gradient Guidance

Uncertainty-Aware Score Distribution Learning for Action Quality Assessment

Self-Supervised Video Hashing via Bidirectional Transformers

Structure-Aware Face Clustering on a Large-Scale Graph With 107 Nodes

Objects Are Different: Flexible Monocular 3D Object Detection

Deep Compositional Metric Learning

Meta-Mining Discriminative Samples for Kinship Verification

Pseudo Facial Generation With Extreme Poses for Face Recognition

WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition

Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware Regression

PV-RAFT: Point-Voxel Correlation Fields for Scene Flow Estimation of Point Clouds

HyperDet3D: Learning a Scene-Conditioned 3D Object Detector

Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion

Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos

FineDiving: A Fine-Grained Dataset for Procedure-Aware Action Quality Assessment

Back to Reality: Weakly-Supervised 3D Object Detection With Shape-Guided Label Enhancement

Dimension Embeddings for Monocular 3D Object Detection

Point-BERT: Pre-Training 3D Point Cloud Transformers With Masked Point Modeling

DenseCLIP: Language-Guided Dense Prediction With Context-Aware Prompting

Attributable Visual Similarity Learning

SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation

Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Towards All-in-One Pre-Training via Maximizing Multi-Modal Mutual Information

LOGO: A Long-Form Video Dataset for Group Action Quality Assessment

Deep Factorized Metric Learning

BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision

FLAG3D: A 3D Fitness Activity Dataset With Language Instruction

Diffusion-SDF: Text-To-Shape via Voxelized Diffusion

Siamese Image Modeling for Self-Supervised Vision Representation Learning

Binarizing Sparse Convolutional Networks for Efficient Point Cloud Analysis

DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion

Multiple Feature Fusion via Weighted Entropy for Visual Tracking

Simultaneous Local Binary Feature Learning and Encoding for Face Recognition

Local Subspace Collaborative Tracking

Learning Discriminative Aggregation Network for Video-Based Face Recognition

Attention-Aware Deep Reinforcement Learning for Video Face Recognition

Cross-Modal Deep Variational Hashing

Neighborhood Preserving Hashing for Scalable Video Retrieval

Deep Meta Metric Learning

Self-Critical Attention Learning for Person Re-Identification

Robust Variational Bayesian Point Set Registration

Group-Aware Contrastive Regression for Action Quality Assessment

Instance Similarity Learning for Unsupervised Feature Representation

PoinTr: Diverse Point Cloud Completion With Geometry-Aware Transformers

Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection

Deep Relational Metric Learning

RandomRooms: Unsupervised Pre-Training From Synthetic Shapes and Randomized Layouts for 3D Object Detection

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-View Stereo

Generalizable Mixed-Precision Quantization via Attribution Rank Preservation

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Gait Recognition in the Wild: A Benchmark

Human Trajectory Prediction via Counterfactual Analysis

Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-Identification

OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions

Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models

Token-Label Alignment for Vision Transformers

Skip-Plan: Procedure Planning in Instructional Videos via Condensed Action Space Learning

TCOVIS: Temporally Consistent Online Video Instance Segmentation

CLIP-Cluster: CLIP-Guided Attribute Hallucination for Face Clustering

SurroundOcc: Multi-camera 3D Occupancy Prediction for Autonomous Driving

Unleashing Text-to-Image Diffusion Models for Visual Perception

Deep Credible Metric Learning for Unsupervised Domain Adaptation Person Re-identification

Reinforced Axial Refinement Network for Monocular 3D Object Detection

Structural Deep Metric Learning for Room Layout Estimation

Deep Hashing with Active Pairwise Supervision

Rotation-robust Intersection over Union for 3D Object Detection

Spatial Geometric Reasoning for Room Layout Estimation via Deep Reinforcement Learning

Shap-CAM: Visual Explanations for Convolutional Neural Networks Based on Shapley Value

Label2Label: A Language Modeling Framework for Multi-Attribute Learning

Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis

Learning Series-Parallel Lookup Tables for Efficient Image Super-Resolution

AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers

Dynamic Metric Learning with Cross-Level Concept Distillation

LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object Detection

Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question

NeurIPS 2015arXiv

Towards Interpretable Deep Metric Learning With Structural Matching

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Learning Counterfactually Decoupled Attention for Open-World Model Attribution

EFTViT: Efficient Federated Training of Vision Transformers with Masked Images on Resource-Constrained Clients

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

WalkVLM: Aid Visually Impaired People Walking by Vision Language Model

MCID: Multi-aspect Copyright Infringement Detection for Generated Images

D3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

Authentic 4D Driving Simulation with a Video Generation Model

SpectralAR: Spectral Autoregressive Visual Generation

Entropy-Adaptive Diffusion Policy Optimization with Dynamic Step Alignment

From Imitation to Innovation: The Emergence of AI's Unique Artistic Styles and the Challenge of Copyright Protection

Learning with Open-world Noisy Data via Class-independent Margin in Dual Representation Space

Teaching Large Language Models to Translate with Comparison

MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA

Tree-of-Reasoning Question Decomposition for Complex Question Answering with Large Language Models

Learning Multi-Scale Video-Text Correspondence for Weakly Supervised Temporal Article Gronding

Generative Multi-Modal Knowledge Retrieval with Large Language Models

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

Global Filter Networks for Image Classification

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

NeurIPS 2021arXiv

Topology-Imbalance Learning for Semi-Supervised Node Classification

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression

MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Fed-FA: Theoretically Modeling Client Data Divergence for Federated Language Backdoor Defense