Шокуюча новина: «
думаючі» моделі насправді...
не думають 😱
Apple несподівано випустили
дослідження, в якому вони вивчали, як працює ланцюжок думок в популярних CoT-моделях типу
Gemini 2.5 Pro,
OpenAI o3 та
DeepSeek R1.
Тестували на логічних головоломках, як от
Ханойські вежі або загадка про
вовка, козу та капусту, поступово ускладнюючи їх.
Результат ВБИВ 💀
🪙
TL;DR: усі моделі намагаються удаати, що «
думають», але насправді просто шукають схожі задачки у своїй базі даних. AGI не буде, канал закривається;
🪙 Знайшлася цікава проблема
overthinking (
це вони підгледіли у людей): якщо задачка досить проста, модель швидко знаходить відповідь, а потім ще якийсь час палить кредити, перевіряючи інші варіанти, через що іноді помилково видає неправильну відповідь;
🪙 Моделі з великим бюджетом на роздуми не так ефективні, як здається — якщо задачка буде занадто складною, нейромережі просто почнуть швидше «
опускати руки». Навіть нескінченний бюджет на роздуми не допоможе пробити бар'єр складності;
🪙
Few-shot промтинг (
це коли ви даєте приклади вирішення вашої задачі) з цим типом моделей неефективний: якщо розписати покроковий алгоритм розв'язання, модель не подужає надскладну для неї задачу;
🪙
Ну й найцікавіше: моделі майже ідеально поралися з задачками Хайноської вежі, навіть у ситуаціях, де для вирішення потрібно було прописати
100+ (!) кроків. Натомість у надпростій задачці, де треба перевезти вовка, козу та капусту через річку, моделі верзли дурниці вже на 4 кроці.
Розгадка проста: дитяча загадка з річкою не так часто зустрічалася у тренувальному датасеті моделей.
Цікаво, що
Apple підкололи усіх своїх конкурентів +- за добу до
WWDC 2025. А самі щось покажуть завтра? 😁
ооо донат на збір (лишилося 5 025.71)