ResearchAlpha Leak

Conferences Topics Top Authors Rankings Browse All

Home/Authors/Josef Sivic

Josef Sivic

Topic trends: 31,945 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,180 papers | Abstracts: 30,565 (89.4%) | Citations: 34,180 (100.0%) | arXiv: 25,708 (75.2%)

Built: Feb 3, 2026, 9:32 PM AMS

26

papers

228

total citations

papers (26)

Efficient Neighbourhood Consensus Networks via Submanifold Sparse Convolutions

Learning to design protein-protein interactions with enhanced generalization

ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions

Learning to engineer protein flexibility

Improving Personalized Search with Regularized Low-Rank Parameter Updates

Discovering Divergent Representations between Text-to-Image Models

Large-scale Pre-training for Grounded Video Caption Generation

ResidualViT for Efficient Temporally Dense Video Encoding

GenHowTo: Learning to Generate Actions and State Transformations from Instructional Videos

End-to-End Learning of Visual Representations From Uncurated Instructional Videos

Single-View Robot Pose and Joint Angle Estimation via Render & Compare

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval With Transformers

Look for the Change: Learning Object States and State-Modifying Actions From Untrimmed Web Videos

Focal Length and Object Pose Estimation via Render and Compare

TubeDETR: Spatio-Temporal Video Grounding With Transformers

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Meta-Personalizing Vision-Language Models To Find Named Instances in Video

Language-Guided Music Recommendation for Video via Prompt Analogies

Just Ask: Learning To Answer Questions From Millions of Narrated Videos

Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions

CosyPose: Consistent multi-view multi-object 6D pose estimation

Learning Actionness via Long-range Temporal Order Verification

Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-Modal Distillation

Zero-Shot Video Question Answering via Frozen Bidirectional Language Models

NeurIPS 2022arXiv

VidChapters-7M: Video Chapters at Scale

NeurIPS 2023arXiv

POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images

NeurIPS 2023arXiv