Skip Navigation
Telegram
🚩 Красный флаг в ML: у вас слишком хорошая модель


Вы натренировали свою первую модель. Вывели метрики. Там R2 стремится к 0.99.

Что делает типичный новичок? Радуется, бежит к заказчику требовать премию и просит выкатывать это чудо в прод.
Что делает человек с опытом? Седеет, нервно пьет кофе и идет искать, где у него утечка данных.

В реальном мире идеальных метрик почти не бывает. Если ваша модель угадывает всё, значит она читерит. Модель должна работать на новых, невиданных ранее данных. А для этого нужно понимать логику валидации, а не просто по привычке копипастить train_test_split.

Вот такие вещи мы будем изучать в новом сезоне Мастер-группы по ML. В программе:
🟢 5 эфиров: от самых азов машинного обучения до построения и валидации базовых линейных моделей.
🟢 1 эфир — командная практика. Хватит просто смотреть лекции. Будете в командах решать практическую задачу, а потом мы все вместе будем разбирать результаты (и смотреть, кто где накосячил).
🟢 Записи и мои файлы с кодом, естественно, остаются у вас. Забираете и используете как шпаргалку в работе.

🗓 Первый эфир уже завтра в 11:00 по мск.

Для тех, кто долго запрягает — двери еще приоткрыты. Если интересно, пишите в личку @obulygin91 ◀️
Telegram
🤡 Как завалить технический собес в ML за 3 минуты


🤡 Как завалить технический собес в ML за 3 минуты

Приходит кандидат на джуна или даже мидла. Его спрашивают про стек — там полный фарш, человек разве что свой Claude на домашних видеокартах не обучал.

Дают ему простейшую задачку на линейную регрессию. Человек радостно импортирует scikit-learn, пишет .fit(), затем .predict(). Занимает ровно 20 секунд. Доволен.

А дальше ему начинаю задавать вопросы:
— А почему ты для оценки качества взял MSE, а не R2?
— У нас в датасете есть жирный выброс. Как твоя модель на него отреагирует и почему?
— Что означает вон тот коэффициент при признаке X, если мы его не отнормировали?

И тишина... Человек знает API библиотеки, но в душе не чает, как работает все под капотом.

Инструменты вроде sklearn создавались умными людьми для умных людей, чтобы экономить время на рутине. А не для того, чтобы кто-то мог скрыть отсутствие фундаментальной базы за двумя строчками кода. Алгоритму плевать на ваши данные, он сожрет любой мусор, который вы в него запихнете, и выдаст вам предсказание. Garbage in — garbage out.

Вот такие основы мы и начнем изучать на следующем сезоне Мастер-группы. В программе:
🟢 5 эфиров: от азов машинного обучения до построения и валидации базовых линейных моделей.
🟢 1 эфир — командная практика. Хватит просто смотреть лекции. Будете в командах решать практическую задачу, а потом мы все вместе будем разбирать результаты (и смотреть, кто где накосячил).
🟢 Записи и мои файлы с кодом, естественно, остаются у вас. Забираете и используете как шпаргалку в работе.

🗓 Напоминаю, что стартуем 25 апреля в 11:00 по мск. Вы уже должны уметь в Python и pandas.

👉 Если хотите перестать быть fit-predict макакой — пишите в личку @obulygin91, расскажу детали.
Telegram
Классическое машинное обучение мертво?


⚰️

Из каждого утюга сейчас вещают, что если ты не обучаешь LLM с миллиардами параметров, то ты не в профессии, а линейные регрессии пора сдать в музей.

А теперь открываем аналитику от airesearchtrends по инструментам, которые реально используются в современных ML-пайплайнах:
🟢 Classical ML — 47%
🟢 Neural Networks — 36%
🟢 Ensemble Methods — 26%
🟢 Clustering — 4%

Почти половина реального ресерча и продакшена строится на классическом ML. Потому что там, где нужна интерпретируемость, предсказуемость и надежность, раздутые нейронки проигрывают грамотно настроенной модели. А вот массовый рынок почему-то решил, что если ты научился дергать API OpenAI, то математику под капотом можно уже не понимать. Спойлер: нельзя.

Собственно, именно поэтому следующий сезон Мастер-группы мы посвящаем фундаментальной базе. Переходим от анализа данных к построению моделей.

🗓 Стартуем 25 апреля. Эфиры будут проходить по субботам в 11:00 по МСК.

Что в меню:
🟢 5 эфиров: от самых азов машинного обучения до построения и валидации базовых линейных моделей.
🟢 1 эфир — командная практика. Хватит просто смотреть лекции. Будете в командах решать практическую задачу, а потом мы все вместе будем разбирать результаты (и смотреть, кто где накосячил).
🟢 Записи и мои файлы с кодом, естественно, остаются у вас. Забираете и используете как шпаргалку в работе.

Так как Телеграму в последнее время, к сожалению, плохо, то закрытая группа будет в ВК.

🐍 Важный фильтр:
Это не курс "с нуля до сеньора за два дня". Вы уже должны адекватно писать на Python, крутить датафреймы в pandas и уметь в базовый анализ данных (всё то, что мы выстрадали на первых двух сезонах).

👉 Кому актуально запрыгнуть в этот вагон и узнать условия, пишите в личку: @obulygin91
Telegram
Как Яндекс внедрял QoS в InfiniBand для ML‑кластеров 🚦🧠
Как Яндекс внедрял QoS в InfiniBand для ML‑кластеров 🚦🧠

Яндекс поделился практическим опытом, как они научились приоритизировать ML-трафик в InfiniBand‑сетях GPU‑кластеров, чтобы важные задачи не «проседали» по скорости из‑за соседних запусков.

Ключевые моменты:

InfiniBand использует централизованный Subnet Manager (OpenSM), который управляет адресацией, маршрутизацией и QoS‑политиками через связку Service Level (SL) и Virtual Lanes (VL).

QoS строится так: трафик разных типов «красят» в разные SL, которые маппятся в VL с разным приоритетом и весами; в тестовой схеме SL1 получает 80% полосы, SL0 — 20%.

В кластерах YATI несколько обучений разных пользователей делят одну InfiniBand‑фабрику, поэтому без QoS крупные и критичные обучения легко «топятся» параллельными задачами.

На FatTree‑кластерe с HDR они сначала не увидели эффекта, пока искусственно не создали переподписку (отключили часть spine‑коммутаторов), после чего трафик SL1 реально начал выдавливать SL0 при конкуренции.

В DragonFly+ всё сложнее: там маршрутизация использует разные VL для прямого пути и +1/+3 hop, чтобы избежать credit loop deadlock в lossless‑сети, поэтому SL→VL‑маппинг становится частью Control Plane, а доступное число «красок» фактически сокращается.

В итоге Яндекс превратил QoS в продуктовый механизм: планировщик обучения помечает крупные обучения (по порогу GPU на кластер, настраиваемому для каждого кластера) как приоритетные, агент на хосте перекрашивает их трафик в SL1, остальные идут в SL0 — даже если пользователь пытался проставить свои SL.

Дальше этот же подход планируют использовать для разведения обучения и мультихостового инференса, отдавая приоритет real‑time‑инференсу по сети.

QoS в InfiniBand — это не просто «очереди на порту», а тесная связка с топологией и routing engine (особенно в DragonFly+), иначе легко получить либо отсутствие эффекта, либо ризик deadlock’ов.

#yandex #infiniband #qos #gpu #ml #mlops #networking #dragonflyplus #cloud #infrastructure