Назад в ленту

AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

📰 AI IQ: Теперь у нас есть линейка, чтобы мерить интеллект ИИ… *сарказм*.

Ребята из VentureBeat раскопали, что кто-то решил применить старый добрый тест IQ к этим новомодным нейронкам. Да, вы не ослышались, теперь у нас есть рейтинг ИИ по уровню а-ля человеческого интеллекта. Сайт aiiq.org уже вызвал бурю эмоций в IT-тусовке.

Короче, некий Райан Ши (бывший сооснователь блокчейн-платформы Stacks и инвестор во всякие единорожьи стартапы типа OpenSea) запилил проект AI IQ. Суть проста: берем 50+ самых мощных языковых моделей и распихиваем их по кривой Гаусса, как школьников на экзамене.

Идея, конечно, спорная, но хайпанула знатно. Одни техно-комментаторы типа Тибо Мелена пишут в X (бывший Twitter, ага), что теперь им "намного легче понимать прогресс моделей", чем копаться в километровых таблицах лидеров. Другие бизнес-стратеги вторят, мол "помогает, и в целом соответствует личному опыту".

Но, как обычно, не обошлось без хейтеров. Аккаунт AI Deeply (говорящее название, правда?) выдал тираду в духе "это бред, ИИ слишком сложен, чтобы его измерять одной цифрой". И многие исследователи с ним солидарны. Мол, свести все возможности языковой модели к одному числу – это опасная иллюзия точности.

А теперь к мясу. Как эта штука вообще работает?

AI IQ берет 12 бенчмарков и делит их на четыре категории: абстрактное мышление, математическое мышление, программное мышление и академические знания. Итоговый IQ – это просто среднее арифметическое этих четырех показателей. Вроде бы ничего сложного.
IQ = ¼ (IQ_Abstract + IQ_Math + IQ_Prog + IQ_Acad)

Абстрактное мышление оценивается по тестам ARC-AGI-1 и ARC-AGI-2. Это такие хардкорные задачки на распознавание паттернов, которые должны проверять общий "плавный интеллект". Математическое мышление – это FrontierMath, AIME и ProofBench. Программное – Terminal-Bench 2.0, SWE-Bench Verified и SciCode. А академические знания – это Humanity's Last Exam, CritPt и GPQA Diamond.
Каждый результат бенчмарка преобразуется в "предполагаемый IQ" с помощью "ручных калибровочных кривых сложности". Звучит как шаманство, но, видимо, так и есть. Важный момент: для "легких" бенчмарков есть потолок, чтобы модели не накручивали себе IQ выше 100. Типа, чтобы не было читерства. Если данных по какому-то аспекту нет, то результат не учитывается, нужна инфа хотя бы по двум категориям.

В общем, затея интересная, но попахивает попыткой засунуть невпихуемое в прокрустово ложе. С другой стороны, хоть какая-то попытка сравнивать эти ИИ-монстров между собой. Хотя, скорее всего, все это просто очередная маркетинговая уловка.

И да, перед тем как вы начнете меряться IQ своих нейронок, помните: "карта – это не территория".

📢 ТехноЛут