Полное руководство по обучению BERT с нуля Подготовка набора данных

Полное руководство по обучению BERT с нуля

Подготовка данных: Погружение в детали, Оптимизация процесса и Открытие, Как атаковать самый важный шаг

Фото Патрика Томассо на Unsplash

Представьте, что вы проводите целый день настройки BERT, только чтобы столкнуться с узким местом в производительности, что заставляет вас задуматься. Вы изучаете свой код и обнаруживаете причину: вы просто плохо подготовили свои признаки и метки. Просто так, десять часов драгоценного времени GPU исчезают в воздухе.

Давайте смотреть правде в глаза, настройка набора данных не просто еще один шаг – это инженерный краеугольный камень всего вашего процесса обучения. Некоторые даже утверждают, что как только ваш набор данных будет в хорошей форме, остальное в основном сводится к шаблонному коду: подача данных в модель, вычисление потери, выполнение обратного распространения и обновление весов модели.

Обучающий процесс - Изображение автора

В этой истории мы рассмотрим процесс подготовки данных для BERT, подготовку почвы для достижения конечной цели: обучение модели BERT с нуля.

Добро пожаловать на третью часть нашей полной серии статей о BERT! В первой главе мы представили BERT – разобрали его задачи и показали, как настроить его для практической системы вопросов и ответов:

The Ultimate Guide to Training BERT from Scratch: Introduction

Demystifying BERT: Определение и различные применения модели, которая изменила ландшафт NLP.

towardsdatascience.com

Затем, во второй главе, мы погрузились в мир токенизаторов, изучили их механику и даже создали пользовательский токенизатор для греческого языка:

The Ultimate Guide to Training BERT from Scratch: The Tokenizer

From Text to Tokens: Пошаговое руководство по токенизации BERT

towardsdatascience.com

Теперь мы начинаем работу с одной из самых важных стадий создания высокопроизводительной модели BERT: подготовка набора данных. Это техническое руководство, в котором будут представлены фрагменты кода на Python и ссылки на…