Представлена быстрая открытая ИИ-модель Mistral Small 3 — её можно запустить на MacBook или GeForce RTX 4090

1738327110560.webp

Французская компания Mistral AI, основанная выходцами из Google DeepMind и Meta , представила компактную модель искусственного интеллекта — она распространяется с открытым кодом и предлагает высокую производительность.

Mistral Small 3 имеет 24 млрд параметров и позиционируется как прямой конкурент более крупным моделям, в том числе Meta Llama 3.3 70B и Alibaba Qwen 32B, а также как бесплатная замена закрытым системам, включая OpenAI GPT-4o mini. Разработчик уверяет, что новая модель выдаёт результаты на одном уровне с Llama 3.3 70B instruct, но работает втрое быстрее на том же оборудовании, и рассчитана она на 80 % задач генеративного ИИ.

1738326695605.webp
Система создана с прицелом на локальное развёртывание — её архитектура имеет значительно меньше слоёв в сравнении с конкурирующими моделями, что сокращает время на прямой проход. Точность Mistral Small 3 в тесте MMLU составляет 81 % при задержке 150 токенов в секунду, что, как утверждает разработчик, делает её самой эффективной в своей категории. Она также может послужить основой для создания более сложных рассуждающих моделей, таких как DeepSeek R1.

1738326759209.webp
Новая нейросеть прошла тестирование вслепую у сторонних подрядчиков — процедура включала более тысячи заданий на написание кода и ответов на общие вопросы. Mistral Small 3 выдала конкурентоспособные результаты в сравнении с открытыми моделями втрое большего размера, а также закрытой GPT-4o mini в испытаниях, связанных с написанием кода, решением математических задач, проверки общих знаний и выполнения инструкций.

1738326781971.webp

На практике модель окажется полезной в тех случаях, когда критически важны быстрые и точные ответы — это могут быть работающие в реальном времени виртуальные помощники, ИИ-агенты и системы автоматизации рабочих процессов. Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.

1738326809850.webp

В сфере медицинских услуг Mistral Small 3 способна выявлять попытки мошенничества; в медицине — направлять пациентов к нужным специалистам; в робототехнике, автопроме и на производстве — осуществлять функции управления и контроля; предусмотрены сценарии виртуального обслуживания клиентов, анализа настроений и отзывов. Её можно запустить на системе с одной видеокартой Nvidia GeForce RTX 4090 или на актуальном Apple MacBook с 32 Гбайт оперативной памяти.

1738326835589.webp

Mistral Small 3 уже доступна и в ближайшее время появится на всех наиболее крупных профильных платформах — она распространяется по бесплатной и открытой лицензии Apache 2.0.


Источник:
 
Чет мне кажется, что [А по щам?] она без квантования влезет на одну 4090))) Хотя, Q8 весит 24гб. В теории, с FA может и залезет) Щяс чекнем.

Ну на моей могучей 960 GTX на 4гб, квантовная на IQ4 версия работает даже сравнительно неплохо, относительно других 24b моделей)

1738328005132.webp 1738328054752.webp
 
Последнее редактирование:
На 4090 нормально встанет, там как раз 24 гига VRAM
Хотя конечно в этом плане Мак интереснее будет.
Смотрел тесты, на М3 Мах vs 4090, 55-56 токенов в секунду против 70-80, не эта модель конечно.
Но с учетом того что 4090 стоит сама как +- М1 Мах, разница будет при грубых прикидках раза в 2 в пользу 4090.
Ну и интересен конечно этот момент в этой модели - Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.
 
Ну и интересен конечно этот момент в этой модели
Ну у них уже сто лет файнтюн есть на ле-платформе. Тюнить даже 7b оооочень дорого и долго своими силами, про более объемные модели я уже вообще молчу(т.к там железа надо закупить на четверть ляма баксов, чтобы только начать чет делать) Поэтому юзают облачную инфраструктуру. Там счет будет идти на десятки тысяч баксов, при адекватных размеров датасете, но для бизнесов это не много. 1738333307509.webp

Многие просто не понимают, что если для домашнего инференса еще как-то можно изъебнуться с бюджетными 4090 или A4000, то для тренировки LoRA, файнтюна и дообучения там потребности памяти растут на порядок и уже ты никак не решишь это на десктопном железе, даже с ригом из 4х 4090. Там вступают в работу кластеры из A100 или H100(которые даже арендовать стоит дохуя, я уже молчу про покупать).
 
На 4090 нормально встанет, там как раз 24 гига VRAM
Хотя конечно в этом плане Мак интереснее будет.
Смотрел тесты, на М3 Мах vs 4090, 55-56 токенов в секунду против 70-80, не эта модель конечно.
Но с учетом того что 4090 стоит сама как +- М1 Мах, разница будет при грубых прикидках раза в 2 в пользу 4090.
Ну и интересен конечно этот момент в этой модели - Разработчик предусмотрел для пользователей возможность проводить тонкую настройку Mistral Small 3 для её специализации в определённых областях — это могут быть юридические консультации, медицинская диагностика и техническая поддержка.
Да и сравнивать 4090 с M3 Max максимально некорректно. 4090 за счет просто конского количества ALU и тензорных ядер, широчайшей шины и 24гб памяти недосягаемо далеко от силикона в контексте работы с LLM.
Бегло поискал, но по M3 Max нет данных, зато есть по M3 Pro. Он выдает около 20 токенов в секунду на Mistral 7b. 4080 в этом же тесте дает около 80 токенов в секунду. При этом даже если M3 Max был втрое мощнее M3 Pro(а это не так), то он не догоняет даже 4080, не говоря уже про 4090, которая раза в полтора мощнее.
 
Для apple silocon есть свои оптимизированые под их архитекруру модели, прирост очень существенный.
Вот сравнение о котором говорил м3 vs 4090
24гб памяти недосягаемо далеко от силикона в контексте работы с LLM
с учетом тех моделей что влезут в 24, а так у мак студии доступно 144 vram из 192.
 
Для apple silocon есть свои оптимизированые под их архитекруру модели, прирост очень существенный.
Вот сравнение о котором говорил м3 vs 4090

с учетом тех моделей что влезут в 24, а так у мак студии доступно 144 vram из 192.
Ну тут согласен. В США ~$5500 минимальная студия на 192 гб унифицированной памяти с пропускной 900гбс. Очень достойно. Надо изучить будет вопрос)
 
Ну тут согласен. В США ~$5500 минимальная студия на 192 гб унифицированной памяти с пропускной 900гбс. Очень достойно. Надо изучить будет вопрос)
Плюс это "древний" m2 ultra, скоро они выкатить должны будут за ту же цену M4 Ultra, с учетом того какой хороший буст был у всей М4 архитектуры и они для M4 Max тоже подняли скорость памяти.
То для ML типа что то студии на м4 ультра, будет очень хорошо, думаю они там еще что то интересное добавят, может памяти больше (чем 192) поддерживать будут и т.п

Но меня больше всего это видео поразило
 
Плюс это "древний" m2 ultra, скоро они выкатить должны будут за ту же цену M4 Ultra, с учетом того какой хороший буст был у всей М4 архитектуры и они для M4 Max тоже подняли скорость памяти.
То для ML типа что то студии на м4 ультра, будет очень хорошо, думаю они там еще что то интересное добавят, может памяти больше (чем 192) поддерживать будут и т.п

Но меня больше всего это видео поразило
Ну тут все равно, даже если прям оооочень много памяти, и туда залезла целиком какая-то 70b модель, думаю бутылочным горлышком там будет сам gpu, т.к все же он играет непосредственную роль в формировании общей скорости работы. Условно, для аналогии, 3060 на 12 гб и 4070 super на 12 гб будут выдавать совершенно разные результаты для условной 7b модели, которая будет висеть у них в памяти целиком. Конечно, для простого использования подходит все что выше 30 токенов в секунду, но условно если генерировать большие простыни кода на 8000+ токенов, либо использовать Reasoning-модели(которые генерируют по 5-6к токенов раздумий на каждый ответ), то это уже будет ооочень долго(2-3 минуты на ответ). Поэтому все же, если речь идет о таких кейсах, то придется выбирать между размером модели и скоростью инференса, т.к на условной 5090 скорость будет раз в пять выше(200-300 токенов в секунду)
 
Ну если прям уж в контексте только для МЛ, то еще вариант
Цена как раз как у 5090 сейчас у перекупов :)
 
Назад
Сверху Снизу