GraphWalks
Материалы SCQR, упоминающие тему «GraphWalks» — короткие сигналы, разборы и колонки в одной подборке.
1 материалов ← Архив
Бенчмарк перестал быть одним числом. Эпоха насыщения reasoning-метрик закрылась за апрель 2026-го
Грег Бёрнем (Epoch AI) призывает «отказаться хотя бы от одного из четырёх свойств классического бенчмарка»: text-only, short time horizon, easy to grade, expert human superiority. Eric Bezzam с командой HuggingFace вводит private hold-out от Appen и DataoceanAI как защиту от benchmaxxing. ARC Research поднимает уровень дискуссии до mechanistic-evaluation. Zvi Mowshowitz фиксирует, что system card к GPT-5.5 продаёт ограничения, не достижения. Это четыре независимых сигнала одного и того же сдвига — рынок измерения AI-моделей перестраивается на multi-endpoint.
AI evaluationEpoch AIGreg BurnhamGraphWalks