Data Science: SQL и Аналитика данных
Data Science: SQL и Аналитика данных
3 627 подписчиков · @pizdatascience
К каналу →
В России можно посещать IT-мероприятия хоть каждый день: как оффлайн, так и онлайн Но где их находить? Как узнавать о них раньше, чем когда все начнут выкладывать фотографии оттуд…
Читать далее →
685
Трюк дня. Сравнение с предыдущим. Решение. Решение: использование DATEDIFF DATEDIFF: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечит…
Читать далее →
674

Ошибки при train/test split Train/test split — кажется самой простой частью ML.

Ошибки при train/test split

Train/test split — кажется самой простой частью ML.
Но именно здесь чаще всего ломают всю модель.

И самое опасное — ты можешь даже не заметить

Data Leakage — тихий убийца моделей

Ты случайно «подсматриваешь» в тест.

Примеры:

👉 нормализация на всём датасете до split
👉 target encoding на всех данных
👉 feature, напрямую связанная с таргетом

Модель показывает космический скор,
а в проде — провал.

Случайный split там, где нельзя

Ты делаешь random split…
но данные зависимы.

Примеры:

👉 временные ряды
👉 пользователи (один и тот же user в train и test)
👉 сессии

Модель узнаёт данные, а не обобщает.

Игнорирование времени

В задачах с временем:

👉 ❌ случайный split
👉 ✅ train = прошлое, test = будущее

Иначе ты:

👉 обучаешься на будущем
👉 предсказываешь прошлое

Это не ML. Это читерство.

4️⃣ Дисбаланс классов в split

Ты сделал split и получил:

👉 train: 5% positive
👉 test: 1% positive

Метрики начинают врать.
Решение:

👉 stratified split

Слишком маленький test

Test = 50 объектов
Accuracy = 90%

Звучит круто.
Но это статистический шум.

Маленький test = ненадёжная оценка.

Тест используется как валидация

Классическая ошибка:

👉 обучился
👉 посмотрел на test
👉 подкрутил модель
👉 снова посмотрел

Это уже не test. Это validation 2.0.

Дубликаты в train и test

Если один и тот же объект попал в обе выборки:

Модель просто запоминает.
Особенно критично:

👉 CV
👉 e-commerce
👉 табличные данные с ID

Неправильный split в CV

Cross-validation тоже можно сломать:

👉 leakage между фолдами
👉 группы не учитываются
👉 time-series перемешаны

Используй:

👉 GroupKFold
👉 TimeSeriesSplit

Главный инсайт

Train/test split — это не про «разделить данные».

Это про симуляцию реального мира.
Если split не отражает прод —
все метрики бесполезны.

В одном предложении

Плохой split может сделать плохую модель «идеальной» —
до момента, когда она выйдет в прод.

Всё про Data Science
Заводчане в Индии носят камеры на голове, чтобы на этих видео потом могли обучать роботов Для корпораций это фактически бесплатно, а датасет выходит уникальным — таких данных нет …
Читать далее →
642
ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память для AI-агентов. Вот где большинство агент-фреймворков ош…
Читать далее →
616
Другие главы канала «Data Science: SQL и Аналитика данных»
Выберите главу, чтобы продолжить чтение
Все посты →
Глава от 29.05.2026
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в а…
👁 72 просмотров
Глава от 29.05.2026
Продвинутый SQL совет - всегда проверяй, можно ли заменить SELECT DISTINCT на пр…
👁 85 просмотров
Глава от 27.05.2026
Государство, вузы и бигтех: кто развивает ИИ-образование в мире? Этим вопросом …
👁 145 просмотров
Глава от 27.05.2026
Системный аналитик помогает бизнесу и разработке говорить на одном языке: разбир…
👁 136 просмотров
Глава от 23.05.2026
Кажется, аналитика подошла к моменту больших изменений. Ещё недавно подготовка …
👁 67 просмотров
Глава от 22.05.2026
🆓 Ваши SQL-запросы работают, но через месяц их уже сложно прочитать и изменить? …
👁 73 просмотров
Глава от 21.05.2026
Гайд: как настроить WAL, чтобы отслеживать изменения в PostgreSQL? Возможно, кт…
👁 256 просмотров
Глава от 18.05.2026
Китайцы выкатили мощный голосовой ИИ - VoxCPM2 Модель от OpenBMB, которая умеет…
👁 367 просмотров
Глава от 15.05.2026
➡️ Таблицы теперь живут прямо в терминале Да, без Excel и без GUI. Sheets - эт…
👁 372 просмотров

Популярные посты канала «Data Science: SQL и Аналитика данных»

🔥 Что внутри ИИ-стартапа? А внутри у него Claude или ChatGPT в 70% случаев. ИИ как часть повседневной жизни, а не концепция из фантастики …
👁 2 415 просмотров
Появился сервис для прожарки вашего стартапа — ShipOrDie Механика простая — вставляешь ссылку (или описываешь идею) и отдаёшь на растерзани…
👁 1 622 просмотров
Гендерный разрыв в IT никуда не делся Исследование Selecty и hh․ru показало: >200 тыс. рублей в месяц получают 51,5% мужчин и только 34,8% …
👁 1 476 просмотров
🔥 Какие работы на самом деле отнял ИИ? Новое исследование эту картину дополняет. В выборку попали 180 млн вакансий из разных сфер с 2023 …
👁 1 441 просмотров
Топ-10 open-source AI-моделей на февраль 2026. Открытые модели больше не «облегчённая версия». Сегодня многие из них уже конкурируют с к…
👁 1 360 просмотров
🤖 Пока мессенджеры штормит, ChatGPT в MAX работает как часы! Сохраните доступ, делитесь с друзьями и работайте спокойно ⬇️ ➡️📲 ChatGPT в M…
👁 1 315 просмотров
UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприят…
👁 1 288 просмотров
Project Genie: Google даёт поиграться с генеративными мирами Google запустили Project Genie — и это первая нормальная возможность для обычн…
👁 1 261 просмотров
🔥 Маленькая модель - большие возможности. Вышла Nanbeige4.1-3B - модель всего на 3B параметров, которая в ряде задач обходит модели в 10 ра…
👁 1 252 просмотров
7 шаблонов для построения Multi-Agent систем Если вы работаете с LLM-агентами — сохраните эту шпаргалку. 👏 Эти паттерны — фундамент для со…
👁 1 237 просмотров
➡️ Локальная панель для Cloudflare Workers Localflare — это инструмент для разработки, который упрощает взаимодействие с вашими ресурсами C…
👁 1 237 просмотров
MongoDB Memory Leak Exploit (CVE-2025-14847) Прототип эксплойта для уязвимости в MongoDB, позволяющий неаутентифицированным злоумышленникам…
👁 1 177 просмотров
ИИ для SQL: пусть он объяснит «почему запрос тормозит» Профессиональный лайфхак: не проси ИИ «оптимизировать запрос» вслепую. Вместо …
👁 1 172 просмотров
🧠 От экспериментов с нейросетями к системному внедрению в бизнес Нейросети уже умеют писать тексты, генерировать картинки и даже код. Но …
👁 1 169 просмотров
Microsoft Critique: deep research на стероидах, где одна модель генерирует, а вторая её критикует Microsoft выкатили Critique. Это инструме…
👁 1 151 просмотров
Ваши дашборды грузятся по минуте? SQL-запросы «падают» на продакшене, а бизнес требует отчеты «еще вчера»? Узкое место — не мощность сервер…
👁 1 047 просмотров
Claude можно превратить из «чат-бота» в полноценного агента, если правильно организовать проект. Вся магия - в структуре папки: your-proje…
👁 1 028 просмотров
Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзо…
👁 1 012 просмотров
Хорошая это новость или грустная, судите сами: ARC Invest посчитали, что к концу 2020-х суммарный объем текста, сгенерированного ИИ, превзо…
👁 1 012 просмотров
Какие тренды в ИИ, облаках и данных станут стандартом бизнеса? ↗️ Узнайте на GoCloud 2026 — большой конференции про ИИ и облака от провайде…
👁 1 006 просмотров

Связанные темы в других каналах

Каналы из той же тематики, где часто появляются близкие сюжеты
Вся тема →
@colonelcassad
Colonelcassad
Авторский канал Бориса Рожина - эксперта Центра военно-политической журналистики. Мой канал в Телеграме: https://t.me/boris_rozhin Мой блог в Живом Журнале: http://colo…
👥 126 543 · +1 498/7д
@techcommedia
Техком
Главное про технологии, интернет-культуру, тренды и нейросети. По вопросам сотрудничества: https://clck.ru/3SQMK4 https://t.me/merustg
👥 109 287 · -7 123/7д
@neuronows
CHAT GPT
Chat GPT БОТ — твой карманный AI-ассистент на русском. Бесплатный доступ к ChatGPT, нейросетям для генерации текстов, изображений, кода и идей. Без VPN и регистрации. Под…
👥 107 636 · +12 843/7д
@Neurojumor
НЕЙРОЮМОР
Нейроюмор - этот канал создан исключительно в юмористических целях, весь контент сгенерированный нейросетями. Сотрудничество: https://clck.ru/3R576C Нейросеть, нейронка…
👥 94 720 · +3 381/7д
@id343502039804_biz
ChatGPT | Gemini | DeepSeek | Veo | ЧатГПТ | Чат GPT
Чат GPT, Чатгпт, Чат GPT Chat GPT / Чат Джипити ГПТ ии чатбот (AI) бот — AI бот нейросеть. Внутри хайповые нейросети: ChatGPT (GPT чат гпт), Claude, Gemini, DeepSeek ( д…
👥 76 568 · +1 732/7д
@ru_cipic
НЕЙРОЮМОР | ЮМОР | НЕЙРОСЕТЬ
Первый НейроЮморной В МАХ Друзья, данный канал создан исключительно в юмористических целях! Весь контент сгенерирован нейросетями, все что Вы видите - это фантазия ней…
👥 61 964 · -1 236/7д
🏷 Темы и теги
#data science #машинное обучение #аналитика данных #sql #ai #обучение #ИИ и нейросети
📋 О канале Data Science: SQL и Аналитика данных
На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Менеджер: https://vk.cc/cUAKaQ
🔍 Архив всех постов Макс
Поиск по 7,255,834 постам из 199,572 каналов
Попробовать за 1 ₽ →
Удалить пост или канал с МАКСОТЕКИ
Заявка подтверждается через бота Макс: нужно быть администратором канала и добавить бота МАКСОТЕКИ в администраторы. После проверки канал или конкретный пост скрывается с сайта.
📊 Аналитика канала «Data Science: SQL и Аналитика данных» ➡️ Перейти в канал Макс
Заявка в МАКСОТЕКА
Добавьте свой канал в каталог
Зарегистрируйтесь в личном кабинете и добавьте канал за пару кликов.
Перейти в личный кабинет →

Бесплатная регистрация, быстрая модерация.