Познакомьтесь с LegalBench совместно созданным открытым бенчмарком для оценки юридического рассуждения в англоязычных моделях большого объема на основе искусственного интеллекта.

Познакомьтесь с LegalBench - бенчмарком для оценки юридического рассуждения в англоязычных моделях на основе ИИ.

Американские юристы и администраторы переоценивают правовую профессию из-за достижений в области больших языковых моделей (LLM). По мнению их сторонников, LLM могут изменить подход адвокатов к таким задачам, как написание кратких заметок и корпоративное соблюдение правил. Они могут в конечном итоге способствовать разрешению давней проблемы доступа к правосудию в Соединенных Штатах, увеличивая доступность юридических услуг. Это мнение основано на том, что LLM обладают уникальными качествами, которые делают их более подходящими для юридической работы. Затраты, связанные с ручной разметкой данных, которые часто увеличивают стоимость создания юридических языковых моделей, могут быть снижены благодаря возможности моделей обучаться новым задачам на основе небольшого количества размеченных данных.

Они также хорошо подходят для тщательного изучения права, которое включает в себя расшифровку сложных текстов с большим количеством жаргона и проведение инференционных процедур, объединяющих несколько видов мышления. Однако высокий риск в юридических применениях снижает этот энтузиазм. Исследования показали, что LLM могут создавать оскорбительную, обманные и фактически неверную информацию. Если эти действия повторяются в юридическом контексте, они могут нанести серьезный ущерб, особенно маломочным и маргинализированным группам. Таким образом, существует неотложная необходимость в создании инфраструктуры и процедур для оценки LLM в юридическом контексте, учитывая вопросы безопасности.

Однако практикам, которые хотят оценить, могут ли LLM использовать юридическое мышление, стоят перед серьезными препятствиями. Первое препятствие – это небольшая экология юридических эталонов. Например, большинство существующих эталонов сосредоточены на задачах, которые модели изучают, настраиваясь или обучаясь на специфических задачах. Эти стандарты не отражают характеристики LLM, которые вызывают интерес в практике права, а именно их способность выполнять различные задачи с помощью коротких подсказок. Аналогично, инициативы по созданию эталонов сосредоточены на профессиональных сертификационных экзаменах, таких как Единый экзамен на право, хотя они не всегда отражают реальные приложения LLM в реальном мире. Вторая проблема – расхождение между тем, как адвокаты и установленные стандарты определяют “юридическое мышление”.

В настоящее время используемые эталоны широко классифицируют любую работу, требующую юридических знаний или законов, как оценку “юридического мышления”. В то же время адвокаты знают, что термин “юридическое мышление” широкий и охватывает различные виды мышления. Различные юридические обязанности требуют разных навыков и знаний. Юристам сложно оценить производительность современных LLM в контексте их представления о юридической компетентности, так как существующие юридические стандарты необходимо учитывать эти различия. Юридическая профессия не использует такой же жаргон или концептуальные рамки, как юридические стандарты. Учитывая эти ограничения, они считают, что для тщательной оценки юридических навыков мышления LLM необходимо больше вовлечения юридического сообщества в процесс создания эталонов.

Для этого они представляют LEGALBENCH, который представляет собой начальный этап создания междисциплинарного совместного эталона юридического мышления на английском языке.3 Авторы этого исследования сотрудничали в течение последнего года для создания 162 задач (из 36 различных источников данных), каждая из которых тестирует определенную форму юридического мышления. Они опирались на свой юридический и компьютерный опыт. Насколько им известно, LEGALBENCH является первым проектом по созданию открытого юридического эталона. Этот метод разработки эталонов, в котором эксперты в области предмета активно участвуют в разработке задач оценки, является примером одного из видов междисциплинарного сотрудничества в исследованиях LLM. Они также утверждают, что это демонстрирует важную роль, которую должны играть юридические практики в оценке и развитии LLM в праве.

Они подчеркивают три аспекта LEGALBENCH как исследовательского проекта:

1. LEGALBENCH был создан с использованием комбинации предварительно существующих юридических наборов данных, которые были отформатированы для парадигмы LLM с небольшим количеством данных, и созданных вручную наборов данных, которые были разработаны и предоставлены юридическими специалистами, которые также были указаны в качестве авторов этой работы. Юридические эксперты, участвующие в этом сотрудничестве, были приглашены предоставить наборы данных, которые либо проверяют интересные юридические навыки мышления, либо представляют практически ценное применение LLM в праве. Таким образом, хорошая производительность по заданиям LEGALBENCH предлагает соответствующие данные, которые адвокаты могут использовать для подтверждения своего мнения о юридической компетентности LLM или для поиска LLM, которые могут быть полезными в их рабочем процессе.

2. Задачи на LEGALBENCH разделены на подробную типологию, которая описывает виды юридического мышления, необходимые для выполнения задания. Юридические специалисты могут активно участвовать в дебатах о производительности LLM, так как эта типология основана на общих рамках для юридического сообщества и использует терминологию и концептуальную основу, с которыми они уже знакомы.

3. Наконец, LEGALBENCH разработана для службы платформой для дальнейших исследований. LEGALBENCH предлагает существенную помощь в понимании того, как правильно подстегивать и оценивать различные деятельности для исследователей по искусственному интеллекту без юридической подготовки. Они также намерены расширить LEGALBENCH, продолжая получать и включать работы юристов, поскольку все больше представителей юридического сообщества взаимодействует с потенциальным влиянием и функцией LLM.

Они вносят следующий вклад в эту работу:

1. Они предлагают типологию для классификации и характеризации юридических обязанностей в соответствии со необходимыми обоснованиями. Эта типология основана на рамках, которые адвокаты используют для объяснения юридического рассуждения.

2. Затем они дает обзор деятельности в LEGALBENCH, описывая, как они были созданы, существенные измерения гетерогенности и ограничения. В приложении приводится подробное описание каждого задания.

3. Для анализа 20 LLM из 11 разных семейств с различными размерами они используют LEGALBENCH в качестве последнего шага. Они проводят предварительное исследование нескольких тактик инженерии подсказок и делают замечания о эффективности различных моделей.

Эти результаты в конечном итоге иллюстрируют несколько потенциальных тем исследования, которые LEGALBENCH может способствовать. Они ожидают, что различные сообщества найдут эту платформу интересной. Практикующие юристы могут использовать эти деятельности, чтобы решить, следует ли и как включать LLM в текущие процессы для улучшения результатов клиентов. Различные виды аннотаций, которые способны делать LLM, и различные типы эмпирических научных исследований, которые они позволяют, могут быть интересны для юридических академиков. Успех этих моделей в области права, где особые лексические характеристики и сложные задачи могут выявить новые инсайты, может быть интересен компьютерным ученым.

Прежде чем продолжить, они разъясняют, что целью данной работы не является оценка того, должны ли вычислительные технологии заменить адвокатов и юридический персонал или понимание преимуществ и недостатков такой замены. Вместо этого они хотят создать артефакты, чтобы помочь затронутым сообществам и соответствующим заинтересованным сторонам лучше понять, насколько хорошо LLM могут выполнять определенные юридические обязанности. Учитывая распространение этих технологий, они считают, что решение этой проблемы является важным для обеспечения безопасного и этичного использования вычислительных юридических инструментов.