Личный кабинет

👤Вход / Регистрация → ➕Добавить канал → 💳Попробовать 7 дней за 1 ₽ →

Разделы

🏠Главная → 📚Каталог → 📈ТОП 100 → 🆕Новинки → 🏷️Тематики → 🔒Закрытые каналы → 📊Статистика → 💬Чаты и группы → ℹ️О проекте → ✍️Блог →

Для каналов и групп

🤖Автопостинг в Макс → 🎨Стикеры в Макс → 💬Комментарии в Макс → 📊Опросы в Макс → 📈Откуда подписчики →

Полезное

🔒Конфиденциальность → ✉️Связь →

+ Добавить канал Блог

Быстрый доступ ко всем ключевым страницам каталога MAX с мобильного.

Data Science: SQL и Аналитика данных

3 627 подписчиков · @pizdatascience

К каналу →

19.04.2026 09:01

В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн Но где их находить? Как узнавать о них раньше, чем когда все начнут выкладывать фотографии оттуд…

Читать далее →

685

20.04.2026 07:35

Трюк дня. Сравнение с предыдущим. Решение. Решение: использование DATEDIFF DATEDIFF: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечит…

Читать далее →

674

22.04.2026 11:43

Ошибки при train/test split Train/test split — кажется самой простой частью ML.

Ошибки при train/test split

Делайте полезный сыр дома — вкуснее магазинного

Живые практические уроки от сыродела Алексея Сыровера. Просто и безопасно

Сделать сыр дома →

Train/test split — кажется самой простой частью ML.
Но именно здесь чаще всего ломают всю модель.

И самое опасное — ты можешь даже не заметить

Data Leakage — тихий убийца моделей

Ты случайно «подсматриваешь» в тест.

Примеры:

👉 нормализация на всём датасете до split
👉 target encoding на всех данных
👉 feature, напрямую связанная с таргетом

Модель показывает космический скор,
а в проде — провал.

Случайный split там, где нельзя

Ты делаешь random split…
но данные зависимы.

Примеры:

👉 временные ряды
👉 пользователи (один и тот же user в train и test)
👉 сессии

Модель узнаёт данные, а не обобщает.

Игнорирование времени

В задачах с временем:

👉 ❌ случайный split
👉 ✅ train = прошлое, test = будущее

Иначе ты:

👉 обучаешься на будущем
👉 предсказываешь прошлое

Это не ML. Это читерство.

4️⃣ Дисбаланс классов в split

Ты сделал split и получил:

👉 train: 5% positive
👉 test: 1% positive

Метрики начинают врать.
Решение:

👉 stratified split

Слишком маленький test

Test = 50 объектов
Accuracy = 90%

Звучит круто.
Но это статистический шум.

Маленький test = ненадёжная оценка.

Тест используется как валидация

Классическая ошибка:

👉 обучился
👉 посмотрел на test
👉 подкрутил модель
👉 снова посмотрел

Это уже не test. Это validation 2.0.

Дубликаты в train и test

Если один и тот же объект попал в обе выборки:

Модель просто запоминает.
Особенно критично:

👉 CV
👉 e-commerce
👉 табличные данные с ID

Неправильный split в CV

Cross-validation тоже можно сломать:

👉 leakage между фолдами
👉 группы не учитываются
👉 time-series перемешаны

Используй:

👉 GroupKFold
👉 TimeSeriesSplit

Главный инсайт

Train/test split — это не про «разделить данные».

Это про симуляцию реального мира.
Если split не отражает прод —
все метрики бесполезны.

В одном предложении

Плохой split может сделать плохую модель «идеальной» —
до момента, когда она выйдет в прод.

Всё про Data Science

23.04.2026 07:54

Заводчане в Индии носят камеры на голове, чтобы на этих видео потом могли обучать роботов Для корпораций это фактически бесплатно, а датасет выходит уникальным — таких данных нет …

Читать далее →

642

25.04.2026 11:02

ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память для AI-агентов. Вот где большинство агент-фреймворков ош…

Читать далее →

616

Другие главы канала «Data Science: SQL и Аналитика данных»

Выберите главу, чтобы продолжить чтение

Все посты →

Глава от 29.05.2026

ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в а…

👁 72 просмотров

Глава от 29.05.2026

Продвинутый SQL совет - всегда проверяй, можно ли заменить SELECT DISTINCT на пр…

👁 85 просмотров

Глава от 27.05.2026

Государство, вузы и бигтех: кто развивает ИИ-образование в мире? Этим вопросом …

👁 145 просмотров

Глава от 27.05.2026

Системный аналитик помогает бизнесу и разработке говорить на одном языке: разбир…

👁 136 просмотров

Глава от 23.05.2026

Кажется, аналитика подошла к моменту больших изменений. Ещё недавно подготовка …

👁 67 просмотров

Глава от 22.05.2026

🆓 Ваши SQL-запросы работают, но через месяц их уже сложно прочитать и изменить? …

👁 73 просмотров

Глава от 21.05.2026

Гайд: как настроить WAL, чтобы отслеживать изменения в PostgreSQL? Возможно, кт…

👁 256 просмотров

Глава от 18.05.2026

Китайцы выкатили мощный голосовой ИИ - VoxCPM2 Модель от OpenBMB, которая умеет…

👁 367 просмотров

Глава от 15.05.2026

➡️ Таблицы теперь живут прямо в терминале Да, без Excel и без GUI. Sheets - эт…

👁 372 просмотров

Популярные посты канала «Data Science: SQL и Аналитика данных»

🔥 Что внутри ИИ-стартапа? А внутри у него Claude или ChatGPT в 70% случаев. ИИ как часть повседневной жизни, а не концепция из фантастики …

👁 2 415 просмотров

Появился сервис для прожарки вашего стартапа — ShipOrDie Механика простая — вставляешь ссылку (или описываешь идею) и отдаёшь на растерзани…

👁 1 622 просмотров

Гендерный разрыв в IT никуда не делся Исследование Selecty и hh․ru показало: >200 тыс. рублей в месяц получают 51,5% мужчин и только 34,8% …

👁 1 476 просмотров

🔥 Какие работы на самом деле отнял ИИ? Новое исследование эту картину дополняет. В выборку попали 180 млн вакансий из разных сфер с 2023 …

👁 1 441 просмотров

Топ-10 open-source AI-моделей на февраль 2026. Открытые модели больше не «облегчённая версия». Сегодня многие из них уже конкурируют с к…

👁 1 360 просмотров

🤖 Пока мессенджеры штормит, ChatGPT в MAX работает как часы! Сохраните доступ, делитесь с друзьями и работайте спокойно ⬇️ ➡️📲 ChatGPT в M…

👁 1 315 просмотров

UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприят…

👁 1 288 просмотров

Project Genie: Google даёт поиграться с генеративными мирами Google запустили Project Genie — и это первая нормальная возможность для обычн…

👁 1 261 просмотров

🔥 Маленькая модель - большие возможности. Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 ра…

👁 1 252 просмотров

7 шаблонов для построения Multi-Agent систем Если вы работаете с LLM-агентами — сохраните эту шпаргалку. 👏 Эти паттерны — фундамент для со…

👁 1 237 просмотров

➡️ Локальная панель для Cloudflare Workers Localflare — это инструмент для разработки, который упрощает взаимодействие с вашими ресурсами C…

👁 1 237 просмотров

MongoDB Memory Leak Exploit (CVE-2025-14847) Прототип эксплойта для уязвимости в MongoDB, позволяющий неаутентифицированным злоумышленникам…

👁 1 177 просмотров

ИИ для SQL: пусть он объяснит «почему запрос тормозит» Профессиональный лайфхак: не проси ИИ «оптимизировать запрос» вслепую. Вместо …

👁 1 172 просмотров

🧠 От экспериментов с нейросетями к системному внедрению в бизнес Нейросети уже умеют писать тексты, генерировать картинки и даже код. Но …

👁 1 169 просмотров

Microsoft Critique: deep research на стероидах, где одна модель генерирует, а вторая её критикует Microsoft выкатили Critique. Это инструме…

👁 1 151 просмотров

Ваши дашборды грузятся по минуте? SQL-запросы «падают» на продакшене, а бизнес требует отчеты «еще вчера»? Узкое место — не мощность сервер…

👁 1 047 просмотров

Claude можно превратить из «чат-бота» в полноценного агента, если правильно организовать проект. Вся магия - в структуре папки: your-proje…

👁 1 028 просмотров

Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзо…

👁 1 012 просмотров

Какие тренды в ИИ, облаках и данных станут стандартом бизнеса? ↗️ Узнайте на GoCloud 2026 — большой конференции про ИИ и облака от провайде…

👁 1 006 просмотров

Связанные темы в других каналах

Каналы из той же тематики, где часто появляются близкие сюжеты

Вся тема →

@colonelcassad

Colonelcassad

Авторский канал Бориса Рожина - эксперта Центра военно-политической журналистики. Мой канал в Телеграме: https://t.me/boris_rozhin Мой блог в Живом Журнале: http://colo…

👥 126 543 · +1 498/7д

@techcommedia

Техком

Главное про технологии, интернет-культуру, тренды и нейросети. По вопросам сотрудничества: https://clck.ru/3SQMK4 https://t.me/merustg

👥 109 287 · -7 123/7д

@neuronows

CHAT GPT

Chat GPT БОТ — твой карманный AI-ассистент на русском. Бесплатный доступ к ChatGPT, нейросетям для генерации текстов, изображений, кода и идей. Без VPN и регистрации. Под…

👥 107 636 · +12 843/7д

@Neurojumor

НЕЙРОЮМОР

Нейроюмор - этот канал создан исключительно в юмористических целях, весь контент сгенерированный нейросетями. Сотрудничество: https://clck.ru/3R576C Нейросеть, нейронка…

👥 94 720 · +3 381/7д

@id343502039804_biz

Чат GPT, Чатгпт, Чат GPT Chat GPT / Чат Джипити ГПТ ии чатбот (AI) бот — AI бот нейросеть. Внутри хайповые нейросети: ChatGPT (GPT чат гпт), Claude, Gemini, DeepSeek ( д…

👥 76 568 · +1 732/7д

@ru_cipic

НЕЙРОЮМОР | ЮМОР | НЕЙРОСЕТЬ

Первый НейроЮморной В МАХ Друзья, данный канал создан исключительно в юмористических целях! Весь контент сгенерирован нейросетями, все что Вы видите - это фантазия ней…

👥 61 964 · -1 236/7д

🏷 Темы и теги

#data science #машинное обучение #аналитика данных #sql #ai #обучение #ИИ и нейросети

📋 О канале Data Science: SQL и Аналитика данных

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Менеджер: https://vk.cc/cUAKaQ

🔍 Архив всех постов Макс

Поиск по 7,255,834 постам из 199,572 каналов

Попробовать за 1 ₽ →

Удалить пост или канал с МАКСОТЕКИ

Заявка подтверждается через бота Макс: нужно быть администратором канала и добавить бота МАКСОТЕКИ в администраторы. После проверки канал или конкретный пост скрывается с сайта.

Удалить этот пост Удалить канал