2 Posts

Evals

2 Posts

Latest posts(2)

Agents, Evals

Introducing COMPOSITE-STEM, 70 expert-curated agentic tasks across Physics, Biology, Chemistry, and Math, compatible with the Harbor Framework.

by Kyle Waters & Lucas Nuzzi & Tadhg Looram Apr 15, 2026

Agents, Evals

In our recent paper, we introduce AsymmetryZero, a framework for operationalizing human expert preferences as semantic evals.

by Tadhg Looram & Lucas Nuzzi & Kyle Waters Mar 27, 2026