Оценка лингвистического мастерства искусственного интеллекта глубокое погружение в морфологические навыки ChatGPT на разных языках

Оценка лингвистического мастерства искусственного интеллекта глубокое погружение в морфологические навыки ChatGPT на различных языках

“`html

Исследователи тщательно исследуют морфологические способности ChatGPT на четырех языках (английском, немецком, тамильском и турецком). ChatGPT уступает специализированным системам, особенно в английском языке. Анализ подчеркивает ограничения ChatGPT в морфологических навыках и вызывает сомнения в утверждениях о способностях к языку, близким к человеческим.

Недавние исследования больших языковых моделей (LLM) в основном фокусировались на синтаксисе и семантике, пренебрегая морфологией. Существующая литература по LLM часто должна обращать больше внимания на полный спектр языковых явлений. В то время как в прошлых исследованиях исследовались паст времени английского языка, требуется всесторонний анализ морфологических способностей в LLM. Метод использует тест Wug для оценки морфологических навыков ChatGPT на четырех упомянутых языках. Полученные результаты оспаривают утверждения о способностях ChatGPT к языку, близким к человеческим, и указывают на его ограниченности по сравнению со специализированными системами.

В то время как недавние большие языковые модели, такие как GPT-4, LLaMA и PaLM, показали перспективы в лингвистических способностях, имеется заметный пробел в оценке их морфологических возможностей – способности систематически генерировать слова. Предыдущие исследования в основном фокусировались на синтаксисе и семантике, пренебрегая морфологией. Подход избавляется от этого недостатка, систематически анализируя морфологические навыки ChatGPT с использованием теста Wug на четырех упомянутых языках и сравнивая его результаты с результатами специализированных систем.

Предложенный метод оценивает морфологические способности ChatGPT с помощью теста Wug, сравнивая его результаты с помощью точности с контрольными значениями и аннотациями людей. Создаются уникальные наборы данных для проверки на новых словах, чтобы убедиться, что ChatGPT не имел предварительного опыта. Используются три стиля подачи, нулевой, однократный и несколькократный, с несколькими запусками для каждого стиля. При оценке учитывается морфологическое варьирование между говорящими и освещает четыре языка: английский, немецкий, тамильский и турецкий, сравнивая результаты со специальными системами для оценки производительности.

Исследование показало, что ChatGPT нуждается в более специализированных системах с морфологическими способностями, особенно на английском языке. Производительность варьировалась в зависимости от языка, при этом немецкий достигал уровня примерно человеческой производительности. Значение k (количество ранжированных ответов, рассматриваемых) оказало влияние, увеличивая разрыв между контрольными значениями и ChatGPT по мере увеличения k. ChatGPT имел тенденцию генерировать неправдоподобные формы, потенциально подверженные предубеждению в пользу реальных слов. Результаты подчеркивают необходимость дальнейших исследований морфологических способностей больших языковых моделей и предостерегают от поспешных утверждений о способностях к языку, близким к человеческим.

Исследование тщательно анализировало морфологические возможности ChatGPT на четырех указанных языках, выявив его несостоятельность, особенно в английском языке. Оно подчеркивает необходимость дополнительных исследований морфологических способностей больших языковых моделей и предупреждает от преждевременных утверждений о способностях к языку, близким к человеческим. ChatGPT продемонстрировал различную производительность на разных языках, причем немецкий достигал уровня производительности человека. В исследовании также отмечается предвзятость ChatGPT к реальным словам, что подчеркивает важность учета морфологии при оценке языковых моделей в силу ее фундаментальной роли в человеческом языке.

В исследовании использовалась одна модель (gpt-3.5-turbo-0613), что ограничивает обобщаемость на другие версии GPT-3 или на GPT-4 и далее. Концентрация на небольшом наборе языков вызывает вопросы о обобщаемости результатов на разные языки и наборы данных. Сравнение языков представляет сложности из-за неуправляемых переменных. Ограниченное количество аннотаторов и низкое согласование между аннотаторами для тамильского языка может повлиять на надежность. Различия в производительности ChatGPT на разных языках указывают на потенциальные ограничения в обобщаемости.

“`