Bin Wang

47

Papers

599

Total Citations

Papers (47)

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

ToolACE: Winning the Points of LLM Function Calling

LEGION: Learning to Ground and Explain for Synthetic Image Detection

Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts

Towards Faithful XAI Evaluation via Generalization-Limited Backdoor Watermark

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoor Object Detection from Multi-view Images

Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding

ROSE: Remove Objects with Side Effects in Videos

A New Dataset and Framework for Real-World Blurred Images Super-Resolution

Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration

LLM4RSR: Large Language Models as Data Correctors for Robust Sequential Recommendation

Stability and Generalization of Zeroth-Order Decentralized Stochastic Gradient Descent with Changing Topology

Towards Ship License Plate Recognition in the Wild: A Large Benchmark and Strong Baseline

Automatic Thumbnail Generation Based on Visual Representativeness and Foreground Recognizability

Multi-Stage Multi-Recursive-Input Fully Convolutional Networks for Neuronal Boundary Detection

LEA2: A Lightweight Ensemble Adversarial Attack via Non-overlapping Vulnerable Frequency Regions

Few-Shot Physically-Aware Articulated Mesh Generation via Hierarchical Deformation

Reconstructed Convolution Module Based Look-Up Tables for Efficient Image Super-Resolution

Fan-Beam Binarization Difference Projection (FB-BDP): A Novel Local Object Descriptor for Fine-Grained Leaf Image Retrieval

V3Det: Vast Vocabulary Visual Detection Dataset

A Novel Line Integral Transform for 2D Affine-Invariant Shape Retrieval

Robust Network Architecture Search via Feature Distortion Restraining

GeoAug: Data Augmentation for Few-Shot NeRF with Geometry Constraints

Filter Pruning via Feature Discrimination in Deep Neural Networks

Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Chimera: Improving Generalist Model with Domain-Specific Experts

Shift the Lens: Environment-Aware Unsupervised Camouflaged Object Detection

Hybrid Layout Control for Diffusion Transformer: Fewer Annotations, Superior Aesthetics

OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation

Spatiotemporal-aware Trend-Seasonality Decomposition Network for Traffic Flow Forecasting

Reverse Distribution Based Video Moment Retrieval for Effective Bias Elimination

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

W2P: Switching from Weak Supervision to Partial Supervision for Semantic Segmentation

Distributed Bilevel Optimization with Communication Compression

Can Walking and Measuring Along Chord Bunches Better Describe Leaf Shapes?

Graph Structured Network for Image-Text Matching

Self-Supervised Video Representation Learning by Context and Motion Decoupling

BCOT: A Markerless High-Precision 3D Object Tracking Benchmark

Graph Geometry Interaction Learning

Model-Based Reinforcement Learning via Imagination with Derived Memory

DOMINO: Decomposed Mutual Information Optimization for Generalized Context in Meta-Reinforcement Learning

Theoretically Guaranteed Bidirectional Data Rectification for Robust Sequential Recommendation

Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought