Представлена быстрая открытая ИИ-модель Mistral Small 3 — её можно запустить на MacBook или GeForce RTX 4090

Aristo · Пятница в 15:45

Чет мне кажется, что [А по щам?] она без квантования влезет на одну 4090))) Хотя, Q8 весит 24гб. В теории, с FA может и залезет) Щяс чекнем.

Ну на моей могучей 960 GTX на 4гб, квантовная на IQ4 версия работает даже сравнительно неплохо, относительно других 24b моделей)

👑THE KING👑 · Пятница в 17:09

На 4090 нормально встанет, там как раз 24 гига VRAM
Хотя конечно в этом плане Мак интереснее будет.
Смотрел тесты, на М3 Мах vs 4090, 55-56 токенов в секунду против 70-80, не эта модель конечно.
Но с учетом того что 4090 стоит сама как +- М1 Мах, разница будет при грубых прикидках раза в 2 в пользу 4090.
Ну и интересен конечно этот момент в этой модели - Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.

Aristo · Пятница в 17:29

👑THE KING👑 написал(а):
Ну и интересен конечно этот момент в этой модели

Ну у них уже сто лет файнтюн есть на ле-платформе. Тюнить даже 7b оооочень дорого и долго своими силами, про более объемные модели я уже вообще молчу(т.к там железа надо закупить на четверть ляма баксов, чтобы только начать чет делать) Поэтому юзают облачную инфраструктуру. Там счет будет идти на десятки тысяч баксов, при адекватных размеров датасете, но для бизнесов это не много.

Многие просто не понимают, что если для домашнего инференса еще как-то можно изъебнуться с бюджетными 4090 или A4000, то для тренировки LoRA, файнтюна и дообучения там потребности памяти растут на порядок и уже ты никак не решишь это на десктопном железе, даже с ригом из 4х 4090. Там вступают в работу кластеры из A100 или H100(которые даже арендовать стоит дохуя, я уже молчу про покупать).

Aristo · Пятница в 18:00

👑THE KING👑 написал(а):
На 4090 нормально встанет, там как раз 24 гига VRAM
Хотя конечно в этом плане Мак интереснее будет.
Смотрел тесты, на М3 Мах vs 4090, 55-56 токенов в секунду против 70-80, не эта модель конечно.
Но с учетом того что 4090 стоит сама как +- М1 Мах, разница будет при грубых прикидках раза в 2 в пользу 4090.
Ну и интересен конечно этот момент в этой модели - Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.

Да и сравнивать 4090 с M3 Max максимально некорректно. 4090 за счет просто конского количества ALU и тензорных ядер, широчайшей шины и 24гб памяти недосягаемо далеко от силикона в контексте работы с LLM.
Бегло поискал, но по M3 Max нет данных, зато есть по M3 Pro. Он выдает около 20 токенов в секунду на Mistral 7b. 4080 в этом же тесте дает около 80 токенов в секунду. При этом даже если M3 Max был втрое мощнее M3 Pro(а это не так), то он не догоняет даже 4080, не говоря уже про 4090, которая раза в полтора мощнее.

👑THE KING👑 · Пятница в 18:15

Для apple silocon есть свои оптимизированые под их архитекруру модели, прирост очень существенный.
Вот сравнение о котором говорил м3 vs 4090

Aristo написал(а):
24гб памяти недосягаемо далеко от силикона в контексте работы с LLM

с учетом тех моделей что влезут в 24, а так у мак студии доступно 144 vram из 192.

Aristo · Пятница в 18:27

👑THE KING👑 написал(а):
Для apple silocon есть свои оптимизированые под их архитекруру модели, прирост очень существенный.
Вот сравнение о котором говорил м3 vs 4090

с учетом тех моделей что влезут в 24, а так у мак студии доступно 144 vram из 192.

Ну тут согласен. В США ~$5500 минимальная студия на 192 гб унифицированной памяти с пропускной 900гбс. Очень достойно. Надо изучить будет вопрос)

👑THE KING👑 · Пятница в 18:42

Aristo написал(а):
Ну тут согласен. В США ~$5500 минимальная студия на 192 гб унифицированной памяти с пропускной 900гбс. Очень достойно. Надо изучить будет вопрос)

Плюс это "древний" m2 ultra, скоро они выкатить должны будут за ту же цену M4 Ultra, с учетом того какой хороший буст был у всей М4 архитектуры и они для M4 Max тоже подняли скорость памяти.
То для ML типа что то студии на м4 ультра, будет очень хорошо, думаю они там еще что то интересное добавят, может памяти больше (чем 192) поддерживать будут и т.п

Но меня больше всего это видео поразило

Aristo · Пятница в 19:01

👑THE KING👑 написал(а):
Плюс это "древний" m2 ultra, скоро они выкатить должны будут за ту же цену M4 Ultra, с учетом того какой хороший буст был у всей М4 архитектуры и они для M4 Max тоже подняли скорость памяти.
То для ML типа что то студии на м4 ультра, будет очень хорошо, думаю они там еще что то интересное добавят, может памяти больше (чем 192) поддерживать будут и т.п

Но меня больше всего это видео поразило

Ну тут все равно, даже если прям оооочень много памяти, и туда залезла целиком какая-то 70b модель, думаю бутылочным горлышком там будет сам gpu, т.к все же он играет непосредственную роль в формировании общей скорости работы. Условно, для аналогии, 3060 на 12 гб и 4070 super на 12 гб будут выдавать совершенно разные результаты для условной 7b модели, которая будет висеть у них в памяти целиком. Конечно, для простого использования подходит все что выше 30 токенов в секунду, но условно если генерировать большие простыни кода на 8000+ токенов, либо использовать Reasoning-модели(которые генерируют по 5-6к токенов раздумий на каждый ответ), то это уже будет ооочень долго(2-3 минуты на ответ). Поэтому все же, если речь идет о таких кейсах, то придется выбирать между размером модели и скоростью инференса, т.к на условной 5090 скорость будет раз в пять выше(200-300 токенов в секунду)

👑THE KING👑 · Пятница в 19:04

Ну если прям уж в контексте только для МЛ, то еще вариант

Вы не можете просматривать ссылку пожалуйста воспользуйтесь следующими ссылками Вход или Регистрация

Цена как раз как у 5090 сейчас у перекупов

Представлена быстрая открытая ИИ-модель Mistral Small 3 — её можно запустить на MacBook или GeForce RTX 4090

Дополнительные настройки

Aristo

Бессмертный

👑THE KING👑

Дед с PostPacific (2004)

Aristo

Бессмертный

Aristo

Бессмертный

👑THE KING👑

Дед с PostPacific (2004)

Aristo

Бессмертный

👑THE KING👑

Дед с PostPacific (2004)

Aristo

Бессмертный

👑THE KING👑

Дед с PostPacific (2004)