Как читать научную статью по машинному обучению для начинающих в 2023 году

Как читать научную статью по машинному обучению для начинающих в 2023 г.

Действенные советы, которые помогут сохранить рассудок во время бума исследований в области искусственного интеллекта.

Изображение автора

Я прочитал десятки статей по машинному обучению и начинаю понимать, как подходить к изучению статьи. В первую очередь это требует понимания цели чтения конкретной статьи! Я обнаружил, что есть примерно 3 основных причины, каждая из которых включает немного разные техники и является одной из важных частей исследований.

Быть в курсе всех новостей

Прежде чем мы рассмотрим, как глубоко погрузиться в статью, давайте рассмотрим первую причину чтения статьи. Быть в курсе последних достижений и новостей. Здесь вам нужен самый высокий уровень понимания.

Даже если вы являетесь исследователем в области компьютерного зрения, вам следует знать о самых значительных достижениях в области моделей обработки больших текстовых данных. И я не пытаюсь подогреть ваш “FOMO”, но я считаю, что важно иметь возможность вести значимый разговор с другими исследователями или, в идеале, узнать о новой технике, которую вы можете применить в своих собственных исследованиях.

Теперь, прежде чем приступить к беглому просмотру новой статьи, вам нужно знать, какая является самой новой и горячей публикацией. Поэтому я рекомендую просто подписаться на крупные исследовательские лаборатории по искусственному интеллекту в Twitter, теперь называемые X, и LinkedIn, а также на некоторых персонажей AI-новостей, таких как Лиор С. или Алекса Гордич. Часто, когда люди публикуют статью, они дают краткое изложение основных вкладов и результатов. Тем не менее, если вы хотите посмотреть статью самостоятельно, вам следует начать с чтения Аннотации, чтобы получить представление о том, о чем говорится в статье. Аннотация – это самое сжатое резюме статьи, составленное самими авторами. В ней обычно уже содержатся их основные результаты, “Мы лучше и/или более эффективны, чем другие модели”. Но может быть интересно увидеть, насколько они действительно лучше и каковы их основные преимущества. Если в аннотации не указаны основные вклады статьи, вам может потребоваться искать их во введении ИЛИ использовать ИИ для изучения ИИ! Уже существуют инструменты LLM, которые могут помочь вам с прочтением статьи. Вы можете, например, бесплатно попросить инструмент, такой как SciSpace Copilot, подвести итоги статьи или перечислить основные вклады, что обычно работает очень хорошо!

Помните, что нам нужно знать, какова наша цель “чтения” статьи. В данном случае нам просто нужно общее представление о том, что происходит. Так что, действительно, персоналии AI-новостей в Twitter, LinkedIn и (с небольшой задержкой обновлений) в YouTube действительно, действительно великолепны!

Исследование идей для собственных исследований

Опять же, прежде чем мы перейдем к самой интересной причине чтения статьи, давайте кратко поговорим о второй причине: исследование идей для собственных исследований.

Какие новые техники, наборы данных или более эффективные реализации могут быть интересными для вас? Только в 2022 году было принято около 1000 статей только на конференцию ICLR. Ни в коем случае невозможно прочитать все статьи внимательно. Помимо гиповых статей, вы, вероятно, захотите посмотреть на новые идеи и инсайты в своей области исследований. И если взглянуть на это подробнее, многие статьи представляют одну основную новую идею, которая часто очень проста.

Источник: Reddit

Например, если вы работаете над языковыми моделями, основная идея контрастного декодирования [1] просто говорит: “Позвольте мощной и слабой языковой модели генерировать свои выходные логиты для следующего токена и вычитать их поэлементно для новых выходных логитов. Это даст более разнообразные результаты”.

Этот процесс, как вы можете подумать, требует много исследований. Главным образом, путем простого поиска статьи в Google, просмотра списка публикаций на конференции или, еще более естественным способом, путем рекурсивного просмотра ссылок, указанных в статьях, которые вы уже читаете. В конечном итоге мы снова хотим прочитать Аннотацию и, надеюсь, найти основную идею и ее улучшение производительности, то есть основные результаты, всегда имея в виду: как это может помочь мне в моих исследованиях? Но так как мы находимся в 2023 году и далее, если вы не понимаете основную идею сразу, вы можете снова обратиться к инструментам ИИ, чтобы извлечь основные вклады, новизну и результаты и попросить их объяснить концепции простыми словами. Фактически, в некоторых случаях мы также можем прямо попросить сравнить новый подход с другим! Еще одна вещь, на которую следует обратить внимание, это схема архитектуры, если она есть, конечно. Это часто позволяет вам, сразу взглянув, получить обзор потока модели или конвейера.

Интеграция в собственные исследования – погружение вглубь

Если вы сейчас чувствуете, что эта статья с ее основной идеей и результатами так хорошо подходит к вашим собственным исследованиям, мы, наконец, подходим к последней причине чтения статьи. Действительно углубиться в мельчайшие детали, чтобы потенциально интегрировать их в свои собственные исследования и развивать их.

Прямо скажем, если есть видео или блог о данной статье, это находка! По моему мнению, часто лучше начать с видео на YouTube или блога, а затем прочитать статью. Таким образом, вы знаете, что ожидать, на что обратить внимание и уже имеете фундаментальное понимание. Язык статьи очень сложный и (возможно) излишне сложный.

Теперь мы должны посмотреть на статью. Особенно если нет видео или блога, вам нужно, если вы еще этого не сделали, начать с аннотации, а затем перейти к результатам. Если вы хотите развивать данную статью, может быть очень полезно посмотреть на наборы данных, которые они используют для обучения и оценки. Если доступно, вы можете захотеть использовать их самостоятельно!

Теперь перейдем к разделу Методология. Чтобы действительно понять модель, я рекомендую вам начать с просмотра диаграммы модели. Как уже упоминалось, это даст вам представление о потоке данных. Затем начните читать текст, объясняющий эту модель. На фундаментальном уровне, немного упрощенно, модели глубокого обучения – это просто серия операций перекомпоновки некоторых матриц или тензоров. Поэтому, если вы рассматриваете отдельные блоки модели, там будет вход с определенной формой и выход с соответствующей формой. И в тексте могут быть некоторые математические формализации этого преобразования.

Я не могу слишком сильно подчеркнуть это. Вам всегда нужно понимать, как меняются размеры данных, то есть их форма.

То, что мне нравится делать, это всегда записывать формы после каждой операции и затем финального блока. Если я делаю это поэтапно, это не так уж и сложно, как кажется в конце, и это мне очень помогает!

А вот совет от профессионала. Если существует код к статье: загрузите его и пройдите по нему с помощью отладчика в VSCode. Это означает либо просмотр авторской реализации, указанной в статье, просмотр реализаций третьих лиц в статьях с кодом или, по моему мнению, еще проще, просто импортирование и запуск модели huggingface и прохождение через их очень хорошую реализацию. Вам нужно сопоставить отдельные операции или модули кода с диаграммой модели и математическими формулами в статье. И, снова, ВСЕГДА смотрите и понимайте размеры входа и выхода.

Теперь, когда речь идет о математических формулах, они часто выглядят очень пугающе, но означают простые вещи! Особенно, если речь идет о функции потерь. Очень часто авторы используют общую функцию потерь, такую как отрицательная логарифмическая правдоподобность, перекрестная энтропия, среднеквадратичная ошибка и так далее. Но даже если они формулируют совершенно новую функцию потерь, это просто математическая формулировка человеческой идеи.

GAN Loss, [2]

Например, обучить дискриминатор распознавать реальные изображения как реальные и сгенерированные изображения как поддельные. Затем обучить генератор создавать изображения так, чтобы дискриминатор считал их реальными. И повторять это. Вы можете снова использовать ИИ, чтобы помочь вам объяснить эти формулы! Мы живем в удивительные времена!

Используя различные техники, инструменты ИИ, отладку в VSCode, просто просматривая видео или блоги, объясняющие статью, рассматривая формы данных или разбираясь с потерями, когда вы натыкаетесь на что-то, что не понимаете, или когда возникает момент “аха!”, всегда выделяйте и делайте свои заметки.

Конечно, бывают очень сложные статьи, очень теоретические или математически сложные, или статьи на пересечении ИИ и науки, которые требуют большого количества дополнительных знаний в области. В конце концов, решение для действительного понимания статьи всегда одно и то же. Продолжайте читать. Если вы не понимаете идею в начале чтения статьи, не волнуйтесь. Продолжайте чтение, и, вероятно, она станет более понятной. Если статья, которую вы сейчас читаете, не дает достаточного объяснения для ссылочных техник, переходите к статьям, на которые они ссылается, и читайте их. Еще один полезный совет, который мне нравится, это представить, что и как исследователи могли бы обсуждать свои идеи во время обычного кофейного перерыва.

Я знаю… это может быть раздражающим, но я обещаю, что начало всегда самое сложное. Эти знания, с которыми вы боретесь, в начале помогут вам в будущем легче разбираться с новыми статьями! Снова обещаю!

Краткое изложение действенных советов

Итак, чтобы кратко обобщить действенные советы:

  • Я почти всегда начинаю с чтения аннотации, затем результатов и затем раздела методологии.
  • Используйте другие источники, такие как YouTube или блоги. Язык статьи часто очень сжат и поэтому часто трудно понять.
  • Если есть код: используйте отладчик, чтобы пройти по коду и всегда понимать формы входных и выходных данных.
  • И наконец, не стесняйтесь использовать инструменты искусственного интеллекта, такие как SciSpace Copilot, чтобы помочь вам суммировать и извлекать основные вклады, упростить язык и объяснить некоторые математические формулы.

Я буду писать еще больше таких постов о разъяснении статей (и видеороликов на YouTube!!). Надеюсь, что мои краткие изложения и объяснения сделают ваше следование за прогрессом в области искусственного интеллекта легче, и если вы не хотите пропускать будущие публикации, не забудьте подписаться!

P.S.: Если вам нравится этот контент и визуализация, вы также можете заглянуть на мой YouTube-канал, где я публикую похожий контент, но с более красивой анимацией!

Ссылки

[1] Контрастное декодирование, X. L. Ли и др., 2023 г., https://arxiv.org/abs/2210.15097

[2] Генеративно-состязательные сети, I. J. Гудфеллоу и др., 2014 г., https://arxiv.org/abs/1406.2661