ChatGPT не пройшов перевірку: з якої причини платформа видає суперечливі відповіді на ідентичні питання

Вивчення виявило непослідовні реакції ChatGPT на ідентичні питання

ChatGPT здатний формувати відповіді впевнено та переконливо, проте свіже дослідження продемонструвало: за цією самовпевненістю часто ховається мінливість. У ході тестування на основі наукових положень система показала низький ступінь узгодженості відповідей.

Про це поінформувало видання earth.com.

Мова йде про експеримент, в якому моделі багато разів задавали ті ж самі питання, взяті з наукових гіпотез. Як з’ясувалося, навіть без правок у формулюванні ChatGPT міг видавати різні результати — від «істина» до «брехня». Це задокументував дослідник Месут Чічек з Університету штату Вашингтон, який повторював ті самі запити до десяти разів.

Загальна правильність відповідей у 2025 році на перший погляд виглядала доволі високою — близько 80%. Однак після обліку випадкових вгадувань цей показник зменшувався приблизно до 60%, що відповідає результату на рівні «слабкої трійки».

Найбільше похибок система робила у випадках непідтверджених гіпотез. У таких ситуаціях ChatGPT вірно визначав хибність тверджень тільки у 16,4% випадків. Дослідники це пояснюють тенденцією моделі погоджуватися з формулюванням, якщо воно звучить звично.

Окрему проблему виявила повторюваність тестів. Лише 72,9% результатів залишалися незмінно вірними після десяти ідентичних запитів. У решті випадків результати змінювалися, що свідчить про нестабільність системи.

“Ця мінливість означає, що окрема відповідь може здаватися надійною, в той час як повторні перевірки виявляють, наскільки вона насправді нестійка”, — зазначено у статті.

Причина цього полягає в принципі функціонування мовних моделей. Вони передбачають вірогідні слова на основі великих масивів тексту, а не перевіряють факти в реальності. З цієї причини результати можуть бути добре сформульованими, але не завжди правдивими.

Дослідники підкреслюють: штучний інтелект слід застосовувати як допоміжний інструмент, а не як джерело остаточних висновків. Найбільш безпечний підхід — перевіряти інформацію, дублювати запити та порівнювати результати з перевіреними джерелами.

Незважаючи на певне поліпшення результатів у порівнянні з 2024 роком, ChatGPT поки що не можна вважати стійким інструментом для складних аналітичних задач. Висновок дослідників однозначний: остаточну оцінку фактів і логіки повинна здійснювати людина.

Нагадаємо, австралійський підприємець застосував ChatGPT і штучний інтелект, щоб створити індивідуальну mRNA-вакцину від раку для свого пса. Пухлина почала зменшуватися, а науковці зацікавилися експериментом.

Source: tsn.ua

No votes yet.

Please wait...

Залишити відповідьСкасувати відповідь