а какой у нее механизм коррекции по инструкциям от человека? и на каком этапе они применяются? например я говорил ему как правильно исправить, но Сонома исправлял только то, что я укажу, или по системе, которую я ему укажу и скажу к чему применить. при этом похоже сильно песссимизируется сопутствующий объем выдачи знаний и рассуждений. и сам он не проводить аналогичную переработку для соседних полностью схожих параметров/ понятий. Причем иногда очень разумно понимал, что исправить, я не говорил как, а предлагал идти от обратного и по остаточному принципу, отталкиваясь от значений верных, которые он определил, тогда высчитывать то, где он ошибся. Причем с ТЗ, что тот параметр, который он исправляет - может не участвовать в данном частном случае, и потому по его отсуствию нельзя судить о его значении в других случаях. то есть прям логически рассуждать может
Ну для начала надо понять, как вообще происходит взаимодействие человека и LLM. У нее нет механизма памяти как такового, и каждый запрос к ней содержит всю историю текущего диалога с тобой. Т.е ты пишешь ей сообщение 1, ей уходит запрос с текстом сообщения 1 и 0 сообщения системного промпта, она смотрит на 0 сообщение-системную инструкцию, на базе последовательности 0->1 сообщений генерирует сообщение 2. Ты пишешь ей сообщение 3 и ей уходит текст 0 сообщения, 1 сообщения, 2 сообщения и 3 сообщения. Она кодирует все эти сообщения в токены и на базе этих токенов генерирует 4 сообщение и так далее. Т.е последовательность для генерации ответа постепенно увеличивается и включает все сообщения вашего диалога. Это что-то вроде эрзац-памяти, но памятью в прямом смысле не являющейся. Более того, модель даже не различает твой вопросы и свои ответы, т.к для нее это вообще цельная неизменная последовательность цифровых векторов и она генерирует ответ на основании ее целиком, а не отвечая на конкретно твой вопрос. Более того, модель даже не генерирует ответ в прямом смысле слова. Ее способность следовать инструкциям, это не изначальное свойство этой модели, а результат повторного дообучения базовой модели на специальном датасете с инструкциями и примерами. Базовая модель, которую изначально обучают, создана ТОЛЬКО для последовательного предсказания следующего токена. Она не умеет следовать инструкциям или чему-то подобному "из коробки".
Поэтому, механизм коррекции поведения по инструкциям о человека у нее очень простой. Чем более точный и однородный вектор образуют токены твоего вопроса, тем более точный вектор сможет сгенерировать модель. Т.е это фактически означает, что чем более точное направление ты указал в вопросе, тем более точное направление получил в ответе.
Отсюда вырисовываются очень простые и понятные правила пользования сеткой:
1) Не растягивать диалоги на большое число вопросов-ответов.
2) Удалять из диалога некорректные ответы LLM и некорректные свои вопросы, и улучшение формулировок, вместо последовательного добавления в диалог корректировок.
3) Не смешивать тематику вопросов и придерживаться правила 1 диалог - 1 основной вопрос. Чем более разнообразные темы будут затронуты в рамках одного контекстного окна, тем менее релевантный ответ будет предоставлять нейросеть.
Отсюда ответы на твои вопросы
>а какой у нее механизм коррекции по инструкциям от человека? и на каком этапе они применяются?
Нет отдельного механизма коррекции. Просто после того, как диалог будет дополнен фрагментом текста, содержащим вопрос, вероятность каких-то токенов вырастет, а каких-то уменьшится. Это просто перераспределит вероятности и скорректирует вывод.
>при этом похоже сильно песссимизируется сопутствующий объем выдачи знаний и рассуждений
Это следствие засорения контекстного окна мусорными сообщениями. Когда ты говоришь модели "Исправь А на Б", ты не создаешь в ней правило, "Все похожее на А надо исправить на что-то похожее на Б". Вместо этого, ты просто добавляешь несколько новых векторов в общую последовательность, что опять же просто перераспределяет вероятность выдачи токенов. Чем больше корректировок и чем длиннее диалог, тем более размыт итоговый результат. Т.е условно, если контекст разговора в целом указывает куда-то в направлении кластера векторов, охватывающих тематику соционики, то любые слова в диалоге, не связанные с ней явно, будут размывать результат и делать генерацию менее точной. Где-то больше, где-то меньше. Это в том числе выдает еще одну проблему современных LLM - неочевидную и часто контринтуитивные связи между различными векторами. Т.е после обучения, опираясь только на веса модели, ты не сможешь достоверно проанализировать как связаны вектора между собой и какая между ними образовалась связь. Собственно как и при изучении синапсов человеческого мозга)
>то есть прям логически рассуждать может
Не может. Она вообще не может рассуждать, ни логически, ни каким-либо другим образом. Все что ты можешь ошибочно принять за логическое мышление - это просто успешное следование текстуальному паттерну, заложенное во время обучения, после того, как триллионы слов были пропущены в определенной последовательности через ее веса.
Ну т.е модель не следует правилам логики, она следует текстовым паттернам, которые описывали следование правилам логики.
Это из той же оперы, что и "знания" модели о том, что сахар сладкий, а вода мокрая. Эти знания не были получены эмпирическим путем, а просто так было написано в тысячах текстов на которых обучали модель. Поэтому вектор кодирующий слово "сахар" ближе к вектору "сладкий", чем к вектору "соленый". И когда модель генерирует ответ на вопрос, "Какой на вкус сахар?", она с большей вероятностью выберет слово "Сладкий", чем слово "соленый", но не потому, что она знает какой сахар на вкус или пробовала его сама или умеет отличать сладкое от соленого или даже вообще понимание, что такое "сахар".