Ruoxi Jia

21

Papers

20

Total Citations

Papers (21)

LLMs Can Plan Only If We Tell Them

Detecting Adversarial Data Using Perturbation Forgery

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Rethinking Data Shapley for Data Selection Tasks: Misleads and Merits

Position: A Safe Harbor for AI Evaluation and Red Teaming

Scalability vs. Utility: Do We Have To Sacrifice One for the Other in Data Importance Quantification?

Label-Only Model Inversion Attacks via Boundary Repulsion

Knowledge-Enriched Distributional Model Inversion Attacks

Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study

The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks

Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation

Probing Hidden Knowledge Holes in Unlearned LLMs

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning

A Randomized Approach to Tight Privacy Accounting

A Privacy-Friendly Approach to Data Valuation

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources