Bernard Ghanem

103

Papers

3,043

Total Citations

Papers (103)

ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding

GES : Generalized Exponential Splatting for Efficient Radiance Field Rendering

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders

Generalizability of Adversarial Robustness Under Distribution Shifts

Privacy-Preserving Optics for Enhancing Protection in Face De-Identification

Towards Automated Movie Trailer Generation

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

DATENeRF: Depth-Aware Text-based Editing of NeRFs

SimCS: Simulation for Domain Incremental Online Continual Segmentation

SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning

Tune-An-Ellipse: CLIP Has Potential to Find What You Want

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives

Evaluation of Test-Time Adaptation Under Computational Time Constraints

Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation

Structural Sparse Tracking

On the Relationship Between Visual Attributes and Convolutional Networks

Robust Manhattan Frame Estimation From a Single RGB-D Image

L0TV: A New Method for Image Restoration in the Presence of Impulse Noise

3D Part-Based Sparse Tracker With Automatic Synchronization and Registration

Fast Temporal Activity Proposals for Efficient Detection of Human Actions in Untrimmed Videos

In Defense of Sparse Tracking: Circulant Sparse Tracker

Context-Aware Correlation Filter Tracking

SCC: Semantic Context Cascade for Efficient Action Detection

FFTLasso: Large-Scale LASSO in the Fourier Domain

Diverse Image Annotation

SST: Single-Stream Temporal Action Proposals

A Matrix Splitting Method for Composite Function Minimization

Finding Tiny Faces in the Wild With Generative Adversarial Network

W2F: A Weakly-Supervised to Fully-Supervised Framework for Object Detection

ISTA-Net: Interpretable Optimization-Inspired Deep Network for Image Compressive Sensing

Tagging Like Humans: Diverse and Distinct Image Annotation

Analytic Expressions for Probabilistic Moments of PL-DNN With Gaussian Input

Leveraging Shape Completion for 3D Siamese Tracking

SGAS: Sequential Greedy Architecture Search

A Context-Aware Loss Function for Action Spotting in Soccer Videos

G-TAD: Sub-Graph Localization for Temporal Action Detection

Active Speakers in Context

PU-GCN: Point Cloud Upsampling Using Graph Convolutional Networks

Robust Optimization As Data Augmentation for Large-Scale Graphs

3DeformRS: Certifying Spatial Deformations on Point Clouds

MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions

Ego4D: Around the World in 3,000 Hours of Egocentric Video

vCLIMB: A Novel Video Class Incremental Learning Benchmark

Spatio-Temporal Relation Modeling for Few-Shot Action Recognition

Real-Time Hyperspectral Imaging in Hardware via Trained Metasurface Encoders

Large-Capacity and Flexible Video Steganography via Invertible Neural Network

Real-Time Evaluation in Online Continual Learning: A New Hope

NewsNet: A Novel Dataset for Hierarchical Temporal Segmentation

PIVOT: Prompting for Video Continual Learning

AdaptiveMix: Improving GAN Training via Feature Space Shrinkage

Computationally Budgeted Continual Learning: What Does Matter?

Re2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

Where Is My Wallet? Modeling Object Proposal Sets for Egocentric Visual Query Localization

Intrinsic Scene Decomposition From RGB-D images

What Makes an Object Memorable?

ML-MG: Multi-Label Learning With Missing Labels Using a Mixed Graph

High Order Tensor Formulation for Convolutional Sparse Coding

Constrained Convolutional Sparse Coding for Parametric Based Reconstruction of Line Drawings

2D-Driven 3D Object Detection in RGB-D Images

3D Instance Segmentation via Multi-Task Metric Learning

DeepGCNs: Can GCNs Go As Deep As CNNs?

Video Self-Stitching Graph Network for Temporal Action Localization

MVTN: Multi-View Transformation Network for 3D Shape Recognition

MAAS: Multi-Modal Assignation for Active Speaker Detection

3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

High Quality Disparity Remapping With Two-Stage Warping

Learning To Cut by Watching Movies

Exploring Open-Vocabulary Semantic Segmentation from CLIP Vision Encoder Distillation Only

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries

Localizing Moments in Long Video Via Multimodal Guidance

Automatic Animation of Hair Blowing in Still Portrait Photos

Learning to Identify Critical States for Reinforcement Learning from Videos

A Unified Continual Learning Framework with General Parameter-Efficient Tuning

Re-ReND: Real-Time Rendering of NeRFs across Devices

Rapid Adaptation in Online Continual Learning: Are We Evaluating It Right?

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

Gabor Layers Enhance Network Robustness

AdvPC: Transferable Adversarial Perturbations on 3D Point Clouds

MovieCuts: A New Dataset and Benchmark for Cut Type Recognition

On the Robustness of Quality Measures for GANs

R-DFCIL: Relation-Guided Representation Learning for Data-Free Class Incremental Learning

End-to-End Active Speaker Detection

Boundary-Sensitive Pre-Training for Temporal Localization in Videos

BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization

Diffusion-Based Imaginative Coordination for Bimanual Manipulation

HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction

MatchDiffusion: Training-free Generation of Match-Cuts

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

UnMix-NeRF: Spectral Unmixing Meets Neural Radiance Fields

ResidualViT for Efficient Temporally Dense Video Encoding

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

SPAD: Spatially Aware Multi-View Diffusers

Dr2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Low-Fidelity Video Encoder Optimization for Temporal Action Localization

ASSANet: An Anisotropic Separable Set Abstraction for Efficient Point Cloud Representation Learning

Egocentric Video-Language Pretraining

PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies

Dynamically Masked Discriminator for GANs

CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society