Первые 50 сессий объявлены для ODSC West 2023

50 сессий для ODSC West 2023 объявлены

ODSC West находится всего в нескольких месяцах от нас, и мы не могли быть более взволнованы, чтобы объявить о наших первых 50 сессиях! В этом блоге нет достаточно места, чтобы говорить обо всех них, но мы выделили несколько ниже. Полный список первых 50 сессий вы можете найти здесь.

Полуобученная система обнаружения аномалий с использованием алгоритма ансамблевого стекинга

Чуйинг Ма | Старший специалист по данным | Walmart

Для решения сложной проблемы обнаружения аномалий в деятельности клиентов для предотвращения потери товаров и ущерба предлагается систематическая, гибкая, расширяемая и всеобъемлющая архитектура обнаружения аномалий для дополнения существующих меток и обнаружения аномалий с низкой стоимостью.

В этой сессии будет рассмотрено, как эта новая система может гибко включать модели обнаружения аномалий на основе глубокого обучения или любые другие традиционные модели машинного обучения и генерировать объединенный показатель аномалий с помощью алгоритма ансамблевого стекинга для одновременного решения различных типов аномалий.

Персонализация LLM с использованием хранилища функций

Джим Даулинг | Генеральный директор | Hopsworks

В этой сессии вы узнаете, как персонализировать LLM с помощью хранилища функций и инженерии подсказок. Вы пройдете пошаговое руководство по созданию примера бесплатного серверного, персонализированного приложения LLM с использованием Hopsworks, открытого хранилища функций с встроенной векторной базой данных, и посмотрите, как создавать шаблоны для подсказок, как заполнять шаблоны подсказок данными о контексте в реальном времени и как включать документы из векторных баз данных в подсказки, используя комбинацию пользовательского ввода и исторических данных о пользователях из хранилища функций.

Что такое база данных временных рядов и зачем мне это нужно?

Джефф Тао | Основатель и генеральный директор | TDengine

С появлением Интернета вещей и облака объем временных рядовых данных начал расти экспоненциально в небывалом масштабе, представляя серьезное испытание для общих систем управления базами данных, таких как реляционные и NoSQL базы данных. Специально разработанные базы данных временных рядов, с другой стороны, оптимизированы для обработки особых характеристик временных рядовых данных, что делает их более эффективными с точки зрения скорости загрузки, задержки запросов и сжатия данных.

Техники оценки больших языковых моделей

Раджив Шах, доктор философии | Инженер машинного обучения | Hugging Face

Выбор правильной LLM для ваших нужд стал все более сложным. В этом руководстве вы узнаете о практических инструментах и лучших практиках для оценки и выбора LLM.

Вы изучите существующие исследования о возможностях LLM по сравнению с маленькими традиционными моделями машинного обучения, а также несколько техник, включая наборы оценки, такие как EleutherAI Harness, подходы конкуренции один на один и использование LLM для оценки других LLM. Наконец, вы затронете нюансы, влияющие на оценку, включая роль подсказок, токенизацию, требования к фактической точности и проблемы модели и этику.

Понимание ландшафта больших моделей

Лукас Бивальд | Генеральный директор и сооснователь | Weights & Biases

Присоединяйтесь к этой сессии, чтобы исследовать текущий ландшафт больших моделей от GPT-3 до Stable Diffusion. Вы также обсудите, как команды, стоящие за некоторыми проектами с открытым исходным кодом, используют W&B для ускорения своей работы.

Масштабирование рабочих процессов по обработке данных путем изменения всего одной строки кода

Дорис Ли | Генеральный директор и сооснователь | Ponder

Инструменты, такие как pandas и NumPy, позволяют практикам всех уровней эффективно работать с данными, однако при переходе практик к масштабированию своих рабочих процессов в производство эти инструменты представляют некоторые проблемы. В этой сессии будет рассмотрены ограничения этих инструментов и проблемы, с которыми сталкиваются специалисты по обработке данных при работе с данными в масштабе. Вы также рассмотрите, как проект с открытым исходным кодом Modin (10 миллионов загрузок) решает эту проблему, масштабируя ваш код pandas всего одним изменением строки кода.

Устранение неполадок и измерение дрейфа векторов/векторов для развертывания языковых моделей в производстве

Эмбер Робертс | Специалист по данным, руководитель по росту | Arize AI

В этой презентации Эмбер Робертс, инженер машинного обучения в Arize AI, представит результаты исследования способов измерения дрейфа векторов/векторов для изображений и языковых моделей. Изучив уроки, извлеченные из тестирования различных подходов (включая евклидово и косинусное расстояние) на миллиардах потоков и вариантах использования, Робертс расскажет о том, как определить, отличаются ли два неструктурированных языковых набора данных, и, если да, как понять это с помощью таких методов, как UMAP.

Демократизация настройки Open-Source больших моделей совместной оптимизацией систем

Кабир Нагреча | аспирант | Университет Калифорнии, Сан-Диего

В этом сеансе будет представлен обзор основных идей, стоящих за Saturn, как он работает на техническом уровне для сокращения времени выполнения и затрат, и процесс использования Saturn для настройки больших моделей. Вы узнаете, как Saturn может ускорять и оптимизировать рабочие нагрузки больших моделей всего за несколько строк кода и описывать некоторые ценные примеры использования в реальном мире в индустрии и академии.

Машинное обучение стало некромантией

Марк Саруфим | Инженер по PyTorch | Meta

Многое было сказано о том, как достигаются прорывы, но не так много о том, как их теряют. Этот доклад исследует эволюцию и разрушение некромантии и проводит параллели с недавно предложенными регуляциями в области машинного обучения.

Зарегистрируйтесь здесь

Присоединяйтесь к нам на конференции ODSC West с 30 октября по 2 ноября, чтобы получить возможность посетить эти и множество других практических тренингов, мастер-классов и докладов. Кроме того, при регистрации сейчас вы сэкономите 50% на любой личной или виртуальной пропуске.