Accepted Papers · AI Agents for Discovery in the Wild

Oral Presentations

Featured Orals

AI-PROPELLER: Warehouse-Scale Interprocedural Code Layout Optimization with AlphaEvolve

Chaitanya Mamatha Ananda, Rajiv Gupta, Mircea Trofin, Aiden Grossman, Sriraman Tallam, Xinliang Li, Amir Yazdanbakhsh
Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

Young-Jun Lee, Seungone Kim, Minki Kang, Alistair Cheong Liang Chuen, Zerui Chen, Seungho Han, Taehee Jung, Dongyeop Kang
Meta-Harness: Harness Search for Agents Under Expensive Evaluation

Yoonho Lee, Roshen Sanjay Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn

Lightning Talk

Featured Lightning Talk

SimpleTES: Evaluation-driven Scaling for Scientific Discovery

Haotian Ye et al.

All Accepted Papers

Agentic Architect: An Agentic AI Framework for Architecture Design Exploration and Optimization Alexander Blasberg, Vasilis Kypriotis, Dimitrios Skarlatos
AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment Yuxuan Gao, Megan Wang, Yi Ling Yu
AI-PROPELLER: Warehouse-Scale Interprocedural Code Layout Optimization with AlphaEvolve Oral Chaitanya Mamatha Ananda, Rajiv Gupta, Mircea Trofin, Aiden Grossman, Sriraman Tallam, Xinliang Li, Amir Yazdanbakhsh
AttackEvolve: Using In-Context Learning Enhanced Searches to Improve the Search Efficiency of LM-Based Search Algorithms Marsalis Gibson, Claire Tomlin, S. Shankar Sastry
Autonomous Agent Learning in Production Xinhao Cheng, Jianan Ji, Zhihao Jia, Vasilis Kypriotis, Dimitrios Skarlatos, Eliot H. Solomon, Zhihao Zhang, Yu Zhou
Beyond Fault Injection: Leveraging LLMs for Autonomous Chaos Engineering Gerard Matthew, Philip Godfrey
BIORESEARCHER: Scenario-Guided Multi-Agent for Translational Medicine Remigiusz Kinas, Joanna Krawczyk, Rafal Powalski, Przemysław Pietrzak, Agnieszka Kowalewska, Krzysztof Kolmus, Maciej Sypetkowski, Łukasz Smoliński, Tomasz Jetka
CadAgent: A Multi-Agent System for Manufacturing Process Classification from 2D Engineering Drawings Jaerim choi
Chasing the Public Score: User Pressure and Evaluation Exploitation in Coding Agent Workflows Hardy Chen, Nancy Lau, Haoqin Tu, Shuo Yan, Xiangyan Liu, Zijun Wang, Juncheng Wu, Michael Qizhe Shieh, Alvaro A. Cardenas, Cihang Xie, Yuyin Zhou
ClinSeekAgent: Automating Multi-modal Evidence Seeking for Agentic Clinical Reasoning Juncheng Wu, Letian Zhang, Yuhan Wang, Haoqin Tu, Hardy Chen, Zijun Wang, Cihang Xie, Yuyin Zhou
Context or Capability? Debugging Agentic Workflows Paulina Toro Isaza, Saurabh Jha, Yu Deng
Declarative Data Services: Structured Agentic Discovery for Composing Data Systems Shanshan Ye, Duo Lu
DeepRoot: A KG-Coordinated Multi-Agent System for Therapeutic Reasoning over Historical Medical Texts Zijian Carl Ma, Sean J. Wang, Sijbren Manuel Kramer, Li Erran Li
Deploying Agents in the Wild: Failure Modes from Healthcare Access Optimization Diego Estuar
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas Victor Gallego
Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics Jishnu Sethumadhavan Nair, Patrice Bechard, Rishabh Maheshwary, SRAVAN RAMACHANDRAN, Surajit Dasgupta, Aakash Bhagat, Shruthan Radhakrishna, Pulkit Pattnaik, Johan Obando-Ceron, Shiva Krishna Reddy Malay, Sagar Davasam, Seganrasan Subramanian, Vipul Mittal, Sridhar Krishna Nemala, Christopher Pal, Srinivas Sunkara, Sai Rajeswar
Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks Oral Young-Jun Lee, Seungone Kim, Minki Kang, Alistair Cheong Liang Chuen, Zerui Chen, Seungho Han, Taehee Jung, Dongyeop Kang
Exploring Structures in Physics Problems: Can AI Agents Discover Statistical Mechanical Mappings? Wanyu Zhao, Wanbing Zhao
Foundry: Host-Owned Trust and Memory for Long-Horizon Agent Swarms Monishwaran Maheswaran, Leon Lakhani, Shu Liu, Yuqing Jian, Tianyi Zhang, Kurt Keutzer, James Zou, Aditya Akella, Ben Athiwaratkun, Chenfeng Xu
How Do Tool-Augmented LLM Agents Perform on Real-World Energy Analytics Tasks? David Akinpelu, Akintonde Abbas, RERELOLUWA VICTOR ALIMI, Ayodeji Lana
Interpretable Early Termination of Web Navigation Agents via Closed Sequential Pattern Mining Sergio Talavera, Magdalini Eirinaki
Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo
LEVI: Stronger Search Architectures Can Substitute for Larger LLMs in Evolutionary Search Temoor Ali
LiteSR: Literature-Guided Agentic Retrieval for Symbolic Regression ZALISH MAHMUD, Anantaa Kotal, Lixin Jin, Anthony Darrouzet-Nardi, Aritran Piplai, Nan Jiang
MatPref: Training the Reasoning Backbone of Materials Discovery Agents with Verifiable Rewards Sarrah Mikhail Leung, Taehan Kim, Jeongbin Park
Meta-Harness: Harness Search for Agents Under Expensive Evaluation Oral Yoonho Lee, Roshen Sanjay Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents Minghao Yan, Bo Peng, Benjamin Coleman, Ziqi Chen, Zhouhang Xie, Shuo Chen, Zhankui He, Noveen Sachdeva, Weili Wang, Ed H. Chi, Shivaram Venkataraman, Wang-Cheng Kang, Derek Zhiyuan Cheng, Beidou Wang
PaperDoctor: Evidence-Grounded and Actionable Feedback for Scientific Papers in Progress Kevin Qinghong Lin, Siyuan Hu, Pan Lu, Yu Chen, Yanzhe Chen, Owen Queen, Yupeng Chen, Jialin Yu, Junchi Yu, Zifeng Ding, Yuanfeng Ji, Sheng Liu, Jindong Gu, Linjie Li, Mike Zheng Shou, Philip Torr, James Zou
PromptKV: A Workflow for Building AI-Driven Distributed KV Stores Anthony Tafoya, Keshab Agarwal
RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution Jinming Nian, Fangchen Li, Dae Hoon Park, Yi Fang
Red-Teaming Claude and ChatGPT-based Security Advisors for Trusted Execution Environments Kunal Mukherjee, Spandan Mukherjee
ScientistOne: Verifiable Autonomous Research via Chain-of-Evidence Rui Meng, Bhavana Dalvi Mishra, Jiefeng Chen, Chun-Liang Li, Palash Goyal, Mihir Parmar, Yiwen Song, Yale Song, Rajarishi Sinha, Parthasarathy Ranganathan, Burak Gokturk, Jinsung Yoon, Tomas Pfister
Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi
Side Effects Are the Output: Evaluating AI Agents That Act on Live Systems Ganeshkumar Ashokavardhanan
Spilling the TE: Lessons from AI-driven evolution of Traffic Engineering Rahul Bothra, Alexander Krentsel, Philip Godfrey, Sylvia Ratnasamy
Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Richard Charles Hooper, Yuezhou Hu, Rishabh Tiwari, Jue WANG, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu
Stage–Audit: Auditable Source-Frontier Discovery for Cross-Wiki Tables Chen Shen
Stochastic Agent Descent: Adaptive Agents for the Future of Non-Convex Optimization Justin Singh Kang
The Partial Testimony of Logs: Evaluation of Language Model Generation under Confounded Model Choice Jikai Jin, Vasilis Syrgkanis
Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw Zijun Wang, Haoqin Tu, Letian Zhang, Hardy Chen, Juncheng Wu, Xiangyan Liu, Zhenlong Yuan, Tianyu Pang, Michael Qizhe Shieh, Fengze Liu, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie

Featured Orals

AI-PROPELLER: Warehouse-Scale Interprocedural Code Layout Optimization with AlphaEvolve

Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks

Meta-Harness: Harness Search for Agents Under Expensive Evaluation

Featured Lightning Talk

SimpleTES: Evaluation-driven Scaling for Scientific Discovery

All Accepted Papers