Перетаскивание, отпускание, анализ взлет No-Code Data Science

Реализация, оптимизация и анализ без программирования в области Data Science

 

Одной из проблем, с которыми сталкиваются практики в области обработки данных, является необходимость кодировать все с нуля для каждого нового случая использования. Это может быть трудоемким и неэффективным процессом. Инструменты без кода или с низким уровнем использования кода помогают ученым по обработке данных создавать многократно используемые решения, которые могут применяться в широком спектре случаев использования. Это может сэкономить время и усилия и улучшить качество проектов по обработке данных.

Вы можете делать практически все в области обработки данных без написания ни одной строки кода. “Не код или инструменты с низким уровнем использования кода – это будущее обработки данных”, – прокомментировал Инго Мирсва, старший вице-президент по разработке продукта в компании Altair и основатель платформы для обработки данных RapidMiner. Как участник участников индустрии обработки данных без кода, его экспертиза и вклад оказали влияние на принятие и внедрение этих возможностей подразделениями. “Эти возможности”, – заметил Мирсва во время нашего интервью, – “позволят людям без большого опыта программирования создавать и развертывать модели обработки данных. Это может помочь демократизировать обработку данных и сделать ее более доступной для всех.”

“Когда я сам был компьютерным ученым, не существовало ни одной платформы без кода или с низким уровнем использования кода, которую я мог бы использовать, поэтому я каждый раз создавал очень похожие решения для каждого нового случая использования. Это был неэффективный процесс, который казался огромной трата времени”, – поделился Мирсва. Даруя базовые основы, он добавил: “Если вы решаете проблему второй раз и по-прежнему пишете код, это означает, что вы не решили ее правильно в первый раз. Вам следовало создать решение, которое можно было бы использовать для решения таких же или похожих проблем снова и снова”. “Люди, – утверждает он, – часто не осознают, насколько похожи их проблемы, и в результате каждый раз пишут одно и то же. Они должны задавать себе вопрос: «Почему я по-прежнему пишу код?» Возможно, им не следует этого делать, чтобы сэкономить время и усилия.”

 

Разнообразное ускорение

 

Решения обработки данных без кода или с низким уровнем использования кода могут быть очень полезными. “Первое и самое важное преимущество заключается в том, что они могут привести к лучшей форме сотрудничества”, – подчеркивает Мирсва. “Каждый может понять визуальные рабочие процессы или модели, если они объяснены, но не каждый является компьютерным ученым или программистом, и не каждый может понять код”. Поэтому для эффективного сотрудничества необходимо понять, какие активы команда производит в целом. “Обработка данных в конечном счете – это командный вид спорта. Нам нужны люди, которые понимают бизнес-проблемы, вне зависимости от их способности кодировать, поскольку кодирование не является их повседневной работой”.

Затем есть люди, которые имеют доступ к данным, которые насыщены вычислительным мышлением, и которые думают так: “Хорошо, если я хочу создать, например, некоторую модель машинного обучения, мне нужно преобразовать свои данные определенным образом”. Это замечательный навык, и ими также нужно сотрудничать, но существуют инструменты для ETL-процессов, которые существуют уже много лет. “Да, в редких случаях, в особых, очень настраиваемых ситуациях вам все же придется писать код. Даже в таких случаях это всего один процент исключение”, – указал Мирсва. “Это не должно быть нормой, но настоящая магия происходит, когда объединяются различные навыки, данные, люди и экспертиза”.

“Вы никогда не увидите это в чисто кодовом подходе. Вы никогда не получите одобрение заинтересованных сторон. Это часто приводит к тому, что я называю мертвыми проектами. Мы должны рассматривать обработку данных как решение для проблем. Мы не должны рассматривать ее как научный подход, где не имеет значения, создаем ли мы решение или нет “. Мирсва объясняет. “Это имеет значение. Мы решаем проблемы многомиллионных бизнесов. Мы должны работать над рабочим решением, получать одобрение, развертывать его и действительно улучшать нашу ситуацию здесь. Не говорите: “Да, я знаю, что если что-то не получится, мне все равно”. Сотрудничество – это огромное преимущество”, – подтверждает он.

Ускорение – еще одно преимущество, объясняет Мирсва. Когда вы выполняете повторяющиеся задачи, кодируя их, вы не работаете максимально быстро. Если, например, я создаю рабочий процесс RapidMiner, состоящий из пяти или десяти операторов, это часто эквивалентно тысячам строк кода. Копирование и вставка кода может замедлить вас, но инструменты с низким уровнем использования кода могут помочь вам создавать настраиваемые решения быстрее.

Ответственность, часто недооцениваемая, является наиболее важной преимуществом. Когда вы создаете решение на основе кода, может оказаться сложно отследить, кто вносил изменения и почему. “Это может привести к проблемам, когда кто-то другой берет на себя проект или когда в коде возникает ошибка. С другой стороны, платформы с низким уровнем кода самодокументирующиеся. Это означает, что созданные визуальные рабочие процессы сопровождаются документацией, которая объясняет, что делает рабочий процесс. “Это упрощает понимание и поддержку кода, а также помогает обеспечить ответственность”, – сказал Миесрва. “Люди это понимают. Они принимают это, но они также могут взять на себя ответственность за результаты. Коллективно, в команде.”

 

Открытая экосистема

 

Поток новейших достижений в области искусственного интеллекта трансформирует сферу науки о данных, и компании, которые хотят оставаться впереди, открыты, используют открытые исходные коды и стандарты, и ничего не скрывают, что имеет большое значение на рынке науки о данных.

Компании, оставшиеся открытыми, оказались в выигрышном положении, потому что рынок движется быстро и требует постоянной итерации. “Это верно для всего рынка науки о данных за последние 10-20 лет”, – отметил Миесрва, – “быстрый темп рынка требует постоянной итерации, поэтому закрытие экосистемы было чрезвычайно глупо. Вот почему некоторые компании, ранее закрытые, открылись и даже приняли нейтральный поставщика подход, чтобы поддерживать больше языков программирования и интеграций”.

Хотя возможность кода является необязательной, исследователи могут выполнять сложные задачи анализа данных, не пиша ни одной строки кода, в некоторых случаях кодирование может быть необходимо. В таких случаях большинство платформ с низким уровнем кода интегрируются с языками программирования, библиотеками машинного обучения и средами глубокого обучения. Они также предлагают пользователям возможность исследовать рынок для решений третьих сторон, указал Миесрва. “RapidMiner даже предоставляет операторский фреймворк, который позволяет пользователям создавать свои собственные визуальные рабочие процессы. Данный операторский фреймворк упрощает расширение и повторное использование рабочих процессов, обеспечивая гибкий и настраиваемый подход к анализу данных”.

 

Путь вперед

 

Altair, лидер в области вычислительной науки и искусственного интеллекта, провел исследование, которое показало широкое принятие стратегий данных и искусственного интеллекта в организациях по всему миру.

Исследование, в котором участвовали более 2000 специалистов из различных отраслей и 10 разных стран, показало значительный уровень неудач (в диапазоне от 36% до 56%) в проектах по искусственному интеллекту и анализу данных, когда возникает трение между различными отделами в организации.

Исследование выявило три основные причины трения, которые препятствуют успеху проектов по данным и искусственному интеллекту: организационные, технические и финансовые.

  • Организационное трение возникает из-за сложностей в поиске квалифицированных специалистов для занятия ролей в области науки о данных и недостаточности знаний об искусственном интеллекте среди рабочего стола.
  • Техническое трение связано с ограничениями в скорости обработки данных и проблемами с качеством данных.
  • Финансовое трение вызвано ограничениями в финансировании, фокусом на начальных затратах со стороны руководства и восприятием высоких затрат на внедрение.

Джеймс Р. Скапа, основатель и генеральный директор Altair, в пресс-релизе подчеркнул важность использования организациями их данных как стратегического актива для достижения конкурентного преимущества.

Трение парализует миссионерские проекты. Чтобы преодолеть эти проблемы и достичь того, что Altair называет «Безтрениевым искусственным интеллектом», бизнес-организации должны принять инструменты самообслуживания аналитики данных. Эти инструменты,” подчеркивает Скапа, “дают неспециалистам возможность легко и экономично использовать сложные технологические системы, устраняя трение, затрудняющее прогресс.”

Он также признал, что существуют преграды в виде людей, технологий и инвестиций, препятствующих организациям эффективно использовать основанные на данных понимание. И путем устранения недостатков в знаниях можно содействовать созданию прочных знаний между кросс-функциональными командами для преодоления трений.  

[Saqib Jan](https://www.linkedin.com/in/s-jan/) – писатель и технологический аналитик с увлечением научными данными, автоматизацией и облачным вычислением.