Nathaniel Li

Hi, I'm Nat! I work on ML evaluations and preparedness at Meta Superintelligence Labs to develop frontier models that contribute to a prosperous future. Previously, I was a researcher at Scale AI and the Center for AI Safety and studied computer science at UC Berkeley 🐻.

Primary

Humanity's Last Exam
L. Phan^*, A. Gatti^*, Z. Han^*, N. Li^*, J. Hu, H. Zhang, A. Khoja, R. Kim, J. Hausenloy, O. Zhang, M. Mazeika, [633 not listed], S. Yue^**, A. Wang^**, D. Hendrycks^** Nature TL;DR ⬆️ / paper / website / dataset / New York Times

LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet
N. Li, Z. Han, I. Steneker, W. Primack, R. Goodside, H. Zhang, Z. Wang, C. Menghini, S. Yue NeurIPS 2024 Red Teaming Workshop (Oral) TL;DR ⬆️ / paper / website / dataset

The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning
N. Li^*, A. Pan^*, A. Gopal^†, S. Yue^†, D. Berrios^†, A. Gatti^‡, J. Li^‡, A. Dombrowski^‡, S. Goel^‡, L. Phan^‡, G. Mukobi, N. Helm-Burger, R. Lababidi, L. Justen, A. Liu, M. Chen, I. Barrass, O. Zhang, X. Zhu, R. Tamirisa, B. Bharathi, A. Khoja, Z. Zhao, A. Herbert-Voss, C. Breuer, S. Marks, O. Patel, A. Zou, M. Mazeika, Z. Wang, P. Oswal, W. Lin, A. Hunt, J. Tienken-Harder, K. Shih, K. Talley, J. Guan, R. Kaplan, I. Steneker, D. Campbell, B. Jokubaitis, A. Levinson, J. Wang, W. Qian, K. Karmakar, S. Basart, S. Fitz, M. Levine, P. Kumaraguru, U. Tupakula, V. Varadharajan, Y. Shoshitaishvili, J. Ba, K. Esvelt, A. Wang^**, D. Hendrycks^** ICML 2024 TL;DR ⬆️ / paper / website / code / TIME / Scale AI blog / CAIS blog

Supporting

Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models
B. Wei, Z. Che, N. Li, U. Sehwag, J. Götting, S. Nedungadi, J. Michael, S. Yue, D. Hendrycks, P. Henderson, Z. Wang, S. Donoughe, M. Mazeika NeurIPS 2025 Biosecurity Workshop TL;DR ⬆️ / paper / website / code

Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark
J. Götting^*, P. Medeiros^*, J. Sanders^*, N. Li, L. Phan, K. Elabd, L. Justen, D. Hendrycks, S. Donoughe arXiv Preprint TL;DR ⬆️ / paper / website / TIME

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal
M. Mazeika, L. Phan, X. Yin, A. Zou, Z. Wang, N. Mu, E. Sakhaee, N. Li, S. Basart, B. Li, D. Forsyth, D. Hendrycks ICML 2024 TL;DR ⬆️ / paper / website / code

Representation Engineering: A Top-Down Approach to AI Transparency
A. Zou, L. Phan^*, S. Chen^*, J. Campbell^*, P. Guo^*, R. Ren^*, A. Pan, X. Yin, M. Mazeika, A. Dombrowski, S. Goel, N. Li, M. Byun, Z. Wang, A. Mallen, S. Basart, S. Koyejo, D. Song, M. Fredrikson, Z. Kolter, D. Hendrycks arXiv Preprint TL;DR ⬆️ / paper / website / code

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark
A. Pan^*, C. Shern^*, A. Zou^*, N. Li, S. Basart, T. Woodside, J. Ng, H. Zhang, S. Emmons, D. Hendrycks ICML 2023 (Oral) TL;DR ⬆️ / paper / website / code