ChatGPT провалив тест: чому система дає протилежні відповіді на ті самі запити
Дослідження показало суперечливі відповіді ChatGPT на однакові запити
ChatGPT / © Pexels
ChatGPT може формулювати відповіді впевнено та переконливо, однак нове дослідження показало: за цією впевненістю часто стоїть нестабільність. Під час тестування на основі наукових гіпотез система продемонструвала низький рівень узгодженості відповідей.
Про це повідомило видання earth.com.
Йдеться про експеримент, у якому моделі неодноразово ставили однакові запитання, взяті з наукових гіпотез. Як виявилося, навіть без змін у формулюванні ChatGPT міг давати різні відповіді — від «правда» до «хиба». Це зафіксував дослідник Месут Чічек з Університету штату Вашингтон, який повторював ті самі запити до десяти разів.
Загальна точність відповідей у 2025 році на перший погляд виглядала відносно високою — близько 80%. Втім після врахування випадкових вгадувань цей показник знижувався приблизно до 60%, що відповідає результату на рівні «низької двійки».
Найбільше помилок система допускала у випадках непідтверджених гіпотез. У таких ситуаціях ChatGPT правильно визначав хибність тверджень лише у 16,4% випадків. Дослідники пояснюють це схильністю моделі погоджуватися з формулюванням, якщо воно звучить знайомо.
Окрему проблему виявила повторюваність тестів. Лише 72,9% відповідей залишалися незмінно правильними після десяти однакових запитів. В інших випадках відповіді змінювалися, що свідчить про нестабільність системи.
“Ця нестабільність означає, що окрема відповідь може виглядати надійною, тоді як повторні перевірки показують, наскільки вона насправді крихка”, — йдеться в статті.
Причина цього полягає в принципі роботи мовних моделей. Вони прогнозують ймовірні слова на основі великих масивів тексту, а не перевіряють факти у реальному світі. Через це відповіді можуть бути грамотно сформульованими, але не завжди достовірними.
Дослідники наголошують: штучний інтелект варто використовувати як допоміжний інструмент, а не як джерело остаточних рішень. Найбезпечніший підхід — перевіряти інформацію, повторювати запити та зіставляти відповіді з надійними джерелами.
Попри певне покращення результатів порівняно з 2024 роком, ChatGPT поки що не можна вважати стабільним інструментом для складних аналітичних завдань. Висновок дослідників однозначний: остаточну оцінку фактів і логіки має здійснювати людина.
Нагадаємо, австралійський підприємець використав ChatGPT і штучний інтелект, щоб створити персональну mRNA-вакцину від раку для своєї собаки. Пухлина почала зменшуватися, а вчені зацікавилися експериментом.