Неделя основ 1 Программирование на Python и основы науки о данных

Основные принципы программирования на Python и введение в науку о данных Неделя 1

 

Присоединяйтесь к VoAGI с нашим обратным путем к основам, чтобы начать новую карьеру или освежить свои навыки в области науки о данных. Обратный путь к основам разделен на 4 недели с бонусной неделей. Мы надеемся, что вы сможете использовать эти блоги в качестве руководства курса. 

На первой неделе мы будем изучать все о Python, манипуляции данными и визуализации. 

  • День 1-3: Основы Python для начинающих научных сотрудников
    • Введение в роль Python в науке о данных.
    • Простое руководство по синтаксису Python, типам данных и управляющим структурам.
    • Интерактивные упражнения по программированию для закрепления понимания.
  • День 4: Демистификация структур данных Python
    • Узнайте о основных структурах данных Python с нашим пошаговым руководством. Вы узнаете о списках, кортежах, словарях и множествах – каждый с практическими примерами и их значимостью в обработке данных.
  • День 5-6: Практический численный расчет с NumPy и Pandas 
    • Откройте для себя мощь NumPy и Pandas в числовом анализе и манипуляции данными, включая реальные приложения и практические упражнения.
  • День 7: Техники очистки данных с помощью Pandas 
    • Оснаститесь необходимыми навыками очистки данных с использованием Pandas.

Приступим.

 

Начало работы с Python для науки о данных

 

Неделя 1 – Часть 1: Начало работы с Python для науки о данных

Руководство для начинающих о настройке Python и понимании его роли в науке о данных.

Генеративное ИИ, ChatGPT, Google Bard – это, вероятно, много терминов, которые вы услышали за последние несколько месяцев. С этим шумом многие из вас задумываются о вхождении в техническую сферу, такую как наука о данных.

Люди из разных сфер деятельности хотят сохранить свои работы, поэтому они стремятся развивать свои навыки, чтобы соответствовать текущему рынку. Это конкурентный рынок, и мы видим, что все больше людей проявляет интерес к науке о данных, где доступны тысячи онлайн-курсов, буткемпов и магистерских программ (MSc).

 

Основы Python: синтаксис, типы данных и управляющие структуры

 

Неделя 1 – Часть 2: Основы Python: синтаксис, типы данных и управляющие структуры

Хотите научиться Python? Начните сегодня с изучения синтаксиса Python, поддерживаемых типов данных и управляющих структур.

Вы новичок, желающий научиться программировать на Python? Если да, то это руководство для начинающих предназначено именно для вас, чтобы познакомиться с основами языка. В этом руководстве вы познакомитесь с синтаксисом Python, достаточно дружелюбным к английскому языку. Вы также узнаете, как работать с различными типами данных, условными операторами и циклами в Python.

Если у вас уже установлен Python в вашей разработке и среде, запустите Python REPL и пишите код. Или, если вы хотите пропустить установку и начать писать код сразу, я рекомендую перейти на Google Colab и писать код там.

 

Начало работы с Python структурами данных в 5 шагах

 

Неделя 1 – Часть 3: Начало работы с Python структурами данных в 5 шагах

Это руководство рассказывает о базовых структурах данных Python – списках, кортежах, словарях и множествах. Узнайте их особенности, использование и практические примеры, все в 5 шагах.

Если вы хотите реализовать решение проблемы, собрав серию команд в алгоритм, в какой-то момент потребуется обработка данных, и структуры данных станут неотъемлемыми.

Такие структуры данных предоставляют способ организации и эффективного хранения данных и являются важными для создания быстрого, модульного кода, который может выполнять полезные функции и масштабироваться хорошо. Python, в частности, имеет ряд встроенных собственных структур данных.

Введение в Numpy и Pandas

Неделя 1 – Часть 4: Введение в Numpy и Pandas

Основы использования Numpy и Pandas для численных вычислений и манипуляций с данными на Python.

Если вы работаете над проектом по науке о данных, пакеты Python упростят вашу жизнь, так как вам понадобится всего несколько строк кода для выполнения сложных операций, таких как манипуляции с данными и применение моделей машинного обучения/глубокого обучения.

Начиная свое путешествие в области науки о данных, рекомендуется начать с изучения двух самых полезных пакетов Python: NumPy и Pandas. В этой статье мы представляем вам эти две библиотеки. Поехали!

Очистка данных с помощью Pandas

Неделя 1 – Часть 5: Очистка данных с помощью Pandas

Пошаговый учебник для начинающих, который проведет их через процесс очистки данных и предварительной обработки с использованием мощной библиотеки Pandas.

Наши данные часто поступают из нескольких источников и не являются чистыми. Они могут содержать отсутствующие значения, дубликаты, неправильные или нежелательные форматы и т.д. Работа с такими неряшливыми данными приводит к некорректным результатам.

Поэтому необходимо подготовить данные перед их передачей модели. Эту подготовку данных, путем выявления и устранения потенциальных ошибок, неточностей и несогласованностей, называют очисткой данных.

Визуализация данных: теория и техники

Неделя 1 – Часть 6: Визуализация данных: теория и техники

Расшифровка секретов того, как видеть наш мир, основанный на данных.

В мире цифровых технологий, где огромное количество данных и сложные алгоритмы, можно подумать, что обычный человек потерян в океане цифр и данных. Не так ли?

Тем не менее, мост между исходными данными и понятными выводами заключается в искусстве визуализации данных. Это компас, указывающий нам путь, карта, которая проводит нас, и интерпретатор, расшифровывающий большое количество данных, с которыми мы ежедневно сталкиваемся.

Но в чем магия хорошей визуализации? Почему одна визуализация просвещает, а другая сбивает с толку?

Создание визуализаций с помощью Matplotlib и Seaborn

Неделя 1 – Часть 7: Создание визуализаций с помощью Matplotlib и Seaborn

Изучите основные пакеты Python по визуализации для вашей работы.

Визуализация данных является важной в работе с данными, так как она помогает людям понять, что происходит с нашими данными. Сырые данные сложно воспринимать напрямую, но визуализация может заинтересовать и вовлечь людей. Именно поэтому изучение визуализации данных важно для успеха в области данных.

Matplotlib является одной из самых популярных библиотек визуализации данных на Python, поскольку она очень универсальна, и вы можете визуализировать практически все с нуля. С помощью этого пакета вы можете контролировать множество аспектов вашей визуализации.

С другой стороны, Seaborn – это пакет визуализации данных на Python, построенный поверх Matplotlib. Он предлагает гораздо более простой код на более высоком уровне с различными встроенными темами внутри пакета. Этот пакет отлично подходит, если вам нужна быстрая визуализация данных с красивым видом.

Обернути це

Вітаємо з завершенням першого тижня! ??

Команда VoAGI сподівається, що базовий підхід повернення до основ дав читачам комплексну та структуровану можливість оволодіти основами науки про дані.

Тиждень 2 буде опублікований наступного тижня у понеділок – слідкуйте за оновленнями!

****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** – це науковець-дослідник даних та фрілансер з технічного письма. Вона особливо зацікавлена наданням кар’єрних порад або посібників з науки про дані та теоретичних знань в галузі науки про дані. Вона також бажає дослідити різні способи, які Штучний Інтелект використовується/може бути корисним для тривалості життя людини. Вона завжди відкрита для навчання, прагне поглибити свої технічні знання та навички письма, допомагаючи при цьому керувати іншими.