MachineLearning
MachineLearning
1 225 подписчиков · @ai_machinelearning_big_data
К каналу →
✔️ Google показала, как AI уже помогает делать настоящую науку Google Research рассказала, как её система Empirical Research Assistance, или ERA, используется учёными в реальных ис…
Читать далее →
2 434
OpenAI официально объяснили, откуда в ChatGPT взялись гоблины Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели. П…
Читать далее →
2 389

⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии Anthropic выкатили исследование, которое стоит прочитать каждому, …

⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии
Anthropic выкатили исследование, которое стоит прочитать каждому, кто работает с LLM в продукте. Команда проанализировала миллион реальных диалогов в claude.aiто мне нр и выяснила, что около 6% разговоров это не код-ревью и не саммари митингов, а прямые вопросы вроде «стоит ли мне уволиться», «как поговорить с тем, кавится», «переезжать ли через полмира». Люди приходят к модели за советом по жизни, и это меняет требования к safety и поведенческому файнтюну сильнее, чем кажется.
Где люди ищут совета у Claude
Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самым человеческим вопросам.
Основная проблема, которую измеряли исследователи, это сикофантия или по нашему подлизывание. Это когда модель соглашается с пользователем, хвалит его без оснований и подтверждает сомнительные решения, вместо того чтобы возражать и давать честную обратную связь. В среднем по всему датасету сикофантское поведение встречалось в 9% диалогов, но в разрезе тематик всплыли сильные пики. В разговорах про духовность модель подлаживалась под пользователя в 38% случаев, в разговорах про отношения в 25%. Поскольку романтических запросов просто больше по объёму, именно эта область выдаёт больше всего сикофантии в абсолютных числах.
Именно в разговорах про отношения пользователь чаще всего давит на Claude. Давление от пользователя в 21% диалогов против 15% в других доменах. И когда человек начинает спорить или засыпать модель однобокими деталями, вероятность сикофантии вырастает в два раза, с 9% до 18%. Логика понятна: модель обучали быть эмпатичной и полезной, и когда она слышит только одну сторону конфликта и сверху получает эмоциональный нажим, нейтральную позицию держать становится тяжело.
Как Anthropic перепрошили поведение модели
Для новых моделей Opus 4.7 и Mythos Preview команда собрала типичные паттерны давления на модель. На их основе сгенерировали синтетические сценарии по отношениям. Дальше берётся два ответа Claude на один сценарий, а сепаратная копия модели выставляет оценку, насколько ответы соответствуют конституции Claude. Такой сигнал идёт обратно в файнтюн. Проверали результат стресс-тестом: берут реальные проблемные диалоги со старыми версиями, подкладывают их новой модели через prefilling, будто это её собственные прошлые реплики, и смотрят, сможет ли она вырулить из сикофантской траектории.
Результаты измеримые: в Opus 4.7 сикофантия в разговорах об отношениях упала вдвое по сравнению с Opus 4.6, и эффект сгенерализовался на все другие домены. Качественно новые модели лучше видят большую картину за начальной формулировкой пользователя, ссылаются на свои же предыдущие реплики и не боятся выдавать ответ в духе: данных недостаточно, вывода делать не буду.
Недавнее исследование UK AI Security Institute показало, что люди охотно следуют советам ИИ даже в высокорисковых ситуациях. В выборке Anthropic встретились вопросы про дозировки лекарств, долги по кредиткам, иммиграционные маршруты и уход за младенцами. Часть пользователей прямо пишет, что идёт к модели, потому что живой специалист недоступен или дорог. Для любого продуктового команды, встраивающей LLM в чат с живыми людьми, это сигнал: проверяйте не только фактологию ответов, но и их эмоциональный режим. Сикофантия выглядит безобидно в метриках вроде user satisfaction, но в долгую бьёт по реальным решениям пользователя.
Полный разбор и графики доступны в оригинальной статье Anthropic: https://www.anthropic.com/research/claude-personal-guidance
📌Anthropic сократил подхалимство Claude в диалогах об отношениях Около 6% разговоров с Claude - это запросы личного характера. Anthropic проанализировал (https://www.anthropic.co…
Читать далее →
2 205
✔ ИИ-модель RAVEN нашла 31 новую планету в около Нептуна Команда Уорикского университета валидировала 118 экзопланет (включая 31 ранее неизвестную) в данных TESS с помощью модели R…
Читать далее →
2 036
Другие главы канала «MachineLearning»
Выберите главу, чтобы продолжить чтение
Все посты →
Глава от 30.05.2026
✔️ NVIDIA переводит все свои открытые модели на единую лицензию от Linux Foundat…
👁 172 просмотров
Глава от 29.05.2026
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в а…
👁 293 просмотров
Глава от 28.05.2026
Anthropic только что выпустила Claude Opus 4.8. Anthropic только что выпустила …
👁 448 просмотров
Глава от 28.05.2026
✔️ Китай перевел городские камеры на ИИ-поиск по видео КНР модернизирует национ…
👁 498 просмотров
Глава от 27.05.2026
⚡️ Деннис Ритчи и Стив Джобс умерли в одном месяце: одного оплакивал весь мир, в…
👁 637 просмотров
Глава от 26.05.2026
⚡️ В LLMs-from-scratch добавили реализацию DeepSeek Sparse Attention с нуля.  Э…
👁 689 просмотров
Глава от 23.05.2026
Кажется, аналитика подошла к моменту больших изменений. Ещё недавно подготовка …
👁 842 просмотров
Глава от 23.05.2026
📌 Anthropic опубликовала апдейт по проекту Glasswing Glasswing - инициатива по …
👁 815 просмотров
Глава от 20.05.2026
GitHub взломали через расширение для VS Code. Утекли тысячи внутренних репозитор…
👁 1 032 просмотров

Популярные посты канала «MachineLearning»

⚡️ Вышла новая модель **Minimax M2.7** и релиз получился очень мощным. Что интересного: • 🧠 **Self-evolving модель** M2.7 — одна из первых…
👁 5 364 просмотров
ARC-AGI-3 - бенчмарк,показал неприятную для всей индустрии вещь: даже топовые frontier-модели сейчас набирают меньше 1%. Лучшие результаты н…
👁 5 335 просмотров
📌 Anthropic опубликовала результаты масштабного опроса пользователей Claude. В декабре 2025 года Anthropic провела масштабное качественное и…
👁 5 319 просмотров
📌 Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного к…
👁 5 310 просмотров
Топ тулза для экономии до 80% на ИИ. ClawRouter - это умный, опенсорсный маршрутизатор между моделями. ClawRouter сам выбирает, какой мод…
👁 5 308 просмотров
📌 Большой мастер-класс по Claude Code!  Перед вами репозиторий с полноценным визуальным и практическим гайдом по одному из самых мощных инст…
👁 5 277 просмотров
⚡️ Лучшие GitHub-репозитории для Claude Code, которые могут увеличить эффективность твоего следующего проекта 1. Superpowers   https://githu…
👁 5 272 просмотров
🚀 Anthropic показали новый режим:   AI может выполнять задачи на компьютере и по расписанию без твоего участия Главное: - Claude управляет к…
👁 5 270 просмотров
Все что выпустили Antropic за последнее время на одной картинке. 73 релиза за 52 дня.
👁 5 255 просмотров
🌟 NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах. Nemotron-Cascade 2 (https://huggingface.co/nvidia/…
👁 5 243 просмотров
🤖 Palantir AI + Claude использовались для обнаружения, приоритизации и ударов по более чем 1000 целям в первые 24 часа операции против Ирана…
👁 5 240 просмотров
Когда я прошу Клода провести проверку кода
👁 5 233 просмотров
✔️ Утечка в Anthropic раскрыла детали новой модели Claude. Из-за ошибки в CMS в открытый доступ попали около 3000 внутренних документов Anth…
👁 5 229 просмотров
✔️ OpenAI объединит ChatGPT, Codex и браузер Atlas в суперприложение. Компания меняет стратегию, отказываясь от выпуска разрозненных продукт…
👁 5 205 просмотров
⚡️ Claude Code на максималках: 32 агента, скорость в 5 раз выше, ноль новых инструментов Нашли интересный open source проект oh-my-claudecod…
👁 5 172 просмотров
Это войдёт в историю: как основатель GitLab использовал ИИ в борьбе с раком У Сида Сийбранди, основателя GitLab, диагностировали редкую форм…
👁 5 169 просмотров
🚨 Неожиданный результат исследования Anthropic Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденц…
👁 5 163 просмотров
⚡️ Нашёл интересный open-source проект: Crucix Это self-hosted intelligence terminal, который автоматически следит за событиями в мире и при…
👁 5 109 просмотров
К такому вы не готовы: теперь можно превратить GitHub в удобный магазин приложений. 😱 Новый опенсорс проект GitHub Store, который позволяет…
👁 5 109 просмотров
Началась новая эпоха - гражданской науки, когда обычные люди могут проводить сложные научные исследования с помощью AI. Инженер без медицинс…
👁 5 072 просмотров

Связанные темы в других каналах

Каналы из той же тематики, где часто появляются близкие сюжеты
Вся тема →
@colonelcassad
Colonelcassad
Авторский канал Бориса Рожина - эксперта Центра военно-политической журналистики. Мой канал в Телеграме: https://t.me/boris_rozhin Мой блог в Живом Журнале: http://colo…
👥 126 543 · +1 498/7д
@techcommedia
Техком
Главное про технологии, интернет-культуру, тренды и нейросети. По вопросам сотрудничества: https://clck.ru/3SQMK4 https://t.me/merustg
👥 109 287 · -7 123/7д
@neuronows
CHAT GPT
Chat GPT БОТ — твой карманный AI-ассистент на русском. Бесплатный доступ к ChatGPT, нейросетям для генерации текстов, изображений, кода и идей. Без VPN и регистрации. Под…
👥 107 636 · +12 843/7д
@Neurojumor
НЕЙРОЮМОР
Нейроюмор - этот канал создан исключительно в юмористических целях, весь контент сгенерированный нейросетями. Сотрудничество: https://clck.ru/3R576C Нейросеть, нейронка…
👥 94 720 · +3 381/7д
@id343502039804_biz
ChatGPT | Gemini | DeepSeek | Veo | ЧатГПТ | Чат GPT
Чат GPT, Чатгпт, Чат GPT Chat GPT / Чат Джипити ГПТ ии чатбот (AI) бот — AI бот нейросеть. Внутри хайповые нейросети: ChatGPT (GPT чат гпт), Claude, Gemini, DeepSeek ( д…
👥 76 568 · +1 732/7д
@ru_cipic
НЕЙРОЮМОР | ЮМОР | НЕЙРОСЕТЬ
Первый НейроЮморной В МАХ Друзья, данный канал создан исключительно в юмористических целях! Весь контент сгенерирован нейросетями, все что Вы видите - это фантазия ней…
👥 61 964 · -1 236/7д
🏷 Темы и теги
#машинное обучение #machine learning #искусственный интеллект #дата сайнс #llm #ИИ и нейросети
📋 О канале MachineLearning
t.me/ai_machinelearning_big_data все о машинном обучение, llm, machine learning
🔍 Архив всех постов Макс
Поиск по 7,255,342 постам из 199,571 каналов
Попробовать за 1 ₽ →
Удалить пост или канал с МАКСОТЕКИ
Заявка подтверждается через бота Макс: нужно быть администратором канала и добавить бота МАКСОТЕКИ в администраторы. После проверки канал или конкретный пост скрывается с сайта.
📊 Аналитика канала «MachineLearning» ➡️ Перейти в канал Макс
Заявка в МАКСОТЕКА
Добавьте свой канал в каталог
Зарегистрируйтесь в личном кабинете и добавьте канал за пару кликов.
Перейти в личный кабинет →

Бесплатная регистрация, быстрая модерация.