Вивчення виявило непослідовні реакції ChatGPT на ідентичні питання

ChatGPT / © Pexels
ChatGPT здатний формувати відповіді впевнено та переконливо, проте свіже дослідження продемонструвало: за цією самовпевненістю часто ховається мінливість. У ході тестування на основі наукових положень система показала низький ступінь узгодженості відповідей.
Про це поінформувало видання earth.com.
Мова йде про експеримент, в якому моделі багато разів задавали ті ж самі питання, взяті з наукових гіпотез. Як з’ясувалося, навіть без правок у формулюванні ChatGPT міг видавати різні результати — від «істина» до «брехня». Це задокументував дослідник Месут Чічек з Університету штату Вашингтон, який повторював ті самі запити до десяти разів.
Загальна правильність відповідей у 2025 році на перший погляд виглядала доволі високою — близько 80%. Однак після обліку випадкових вгадувань цей показник зменшувався приблизно до 60%, що відповідає результату на рівні «слабкої трійки».
Найбільше похибок система робила у випадках непідтверджених гіпотез. У таких ситуаціях ChatGPT вірно визначав хибність тверджень тільки у 16,4% випадків. Дослідники це пояснюють тенденцією моделі погоджуватися з формулюванням, якщо воно звучить звично.
Окрему проблему виявила повторюваність тестів. Лише 72,9% результатів залишалися незмінно вірними після десяти ідентичних запитів. У решті випадків результати змінювалися, що свідчить про нестабільність системи.
“Ця мінливість означає, що окрема відповідь може здаватися надійною, в той час як повторні перевірки виявляють, наскільки вона насправді нестійка”, — зазначено у статті.
Причина цього полягає в принципі функціонування мовних моделей. Вони передбачають вірогідні слова на основі великих масивів тексту, а не перевіряють факти в реальності. З цієї причини результати можуть бути добре сформульованими, але не завжди правдивими.
Дослідники підкреслюють: штучний інтелект слід застосовувати як допоміжний інструмент, а не як джерело остаточних висновків. Найбільш безпечний підхід — перевіряти інформацію, дублювати запити та порівнювати результати з перевіреними джерелами.
Незважаючи на певне поліпшення результатів у порівнянні з 2024 роком, ChatGPT поки що не можна вважати стійким інструментом для складних аналітичних задач. Висновок дослідників однозначний: остаточну оцінку фактів і логіки повинна здійснювати людина.
Нагадаємо, австралійський підприємець застосував ChatGPT і штучний інтелект, щоб створити індивідуальну mRNA-вакцину від раку для свого пса. Пухлина почала зменшуватися, а науковці зацікавилися експериментом.
Source: tsn.ua
