Как мы создавали новый LLM-переводчик Яндекса Хабр

Как мы создавали новый LLM-переводчик Яндекса Хабр

Исторически в машинном переводе применялись автоматические метрики — BLEU, ROUGE, METEOR. Они стали плохо работать несколько лет назад, потому что качество моделей стало достаточно высоким и стало видно, что exact-match-метрики поощряют буквальные переводы без перефразировок. Помимо fluency repair, мы используем и классическую процедуру сбора данных для alignment — сравнение различных переводов с помощью асессоров-переводчиков. А что, если использовать general-purpose LLM как перефразировщик, а базовую модель перевода — как генератор начальных гипотез?

Метрики регрессии

  • Такие исправления прекрасны тем, что можно делать обучение на триплетах (src, good, bad), а не только на парах (src, good).
  • Поэтому в какой-то момент мы приняли решение больше не развивать модели перевода отдельных предложений, а сосредоточиться на решении более актуальной (и технически сложной) задачи контекстного перевода.
  • При использовании GPU для генерации сверточных текстовых моделей происходит значительное ускорение вычислений. http://uznew.uz/user/SERP-Ranking/
  • Слишком высокий коэффициент может привести к нестабильности модели, а слишком низкий может замедлить процесс обучения.

При этом меньшего количества графовых гипотез оказалось достаточным для достижения качества классификации отзывов, сопоставимого с качеством классификации в случае использования векторных гипотез. В последние годы нейронные модели с использованием машинного обучения стали большой частью разнообразных сфер человеческой деятельности. Одним из наиболее растущих направлений в этом контексте стало использование языковых моделей, таких как LLM (Large Language Models). Эти модели, которые включают в себя современные достижения в сфере обработки языка, имеют потенциал решать разнообразные задачи в широком спектре областей. От анализа текста, суммаризации и автоматического перевода до генерации контента и управления данными, LLM модели оказались чрезвычайно полезными инструментами для решения сложных задач в современном мире. Определение архитектуры нейронной сети начинается с понимания задачи, которую необходимо решить. В векторной модели документ рассматривается как множество терминов, в качестве которых могут выступать отдельные слова или словосочетания. https://cognitivex.com   Числовое значение компоненты совпадает с весом термина, который характеризует важность данного термина для представления содержащего его документа. Если термин не встречается в документе, то его вес в этом документе равен нулю. В связи с этим активно развивается одно из направлений компьютерной лингвистики – автоматический анализ мнений в текстах, который применяется при проведении маркетинговых, экономических, социальных и других видов исследований [7]. Одной из основных задач анализа мнений является классификация текстов по тональности, т.е.

Использование техник сжатия моделей для более быстрой генерации

Изначально предназначавшаяся для избранной группы исследователей и организаций, она в результате утечки быстро оказалась в Интернете к началу марта 2023 года, став доступной для более широкой аудитории. В ответ на широкое распространение своего кода компания решила поддержать открытое распространение LLaMA, что соответствует ее приверженности открытой науке и расширяет влияние этой передовой технологии ИИ. Ребрендинг Bard в Gemini в феврале 2024 года означал существенный сдвиг в сторону использования Google https://vectorinstitute.ai   самой передовой технологии LLM. Это обусловлено также активным финансированием OpenAI, направленным на ускорение инноваций в области ИИ. Определите приоритеты ваших потребностей и попробуйте основные модели, чтобы понять, какая из них подходит лучше всего. Будь то интеграция в бизнес или личные эксперименты, понимание уникальных преимуществ и проблем каждой модели является ключом к использованию трансформационного потенциала LLM.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гринин Игорь Леонидович

Как и в случае с промпт-инжинирингом, правильная настройка параметров поможет вам добиться от модели 110% эффективности. Большие языковые модели — это нейронные сети, обученные на огромных наборах данных для понимания и генерации человеческого языка.  https://adsintro.com/index.php?page=user&action=pub_profile&id=425918 Они полагаются на такие архитектуры, как «Трансформеры», которые используют такие механизмы, как самообслуживание, для обработки и создания текста. Одним из наиболее эффективных методов является распределение обработки данных на несколько вычислительных узлов. При таком подходе каждый узел получает часть данных для обработки, что позволяет сократить время выполнения задачи. Кроме того, параллельная обработка данных позволяет использовать вычислительные ресурсы более эффективно, так как задачи могут выполняться параллельно. Токены — дискретные символы, слова и другие фрагменты текста, которые используются для представления данных в структурированном формате. На небольшом графике в правом верхнем углу на рисунке 3 видно, что количество исследований в области искусственного интеллекта не всегда линейно росло. Эти исследования переживали периоды скачкообразного развития от одного достижения к другому, в то время как сейчас развитие экспоненциальное. Большинство исследователей согласны с этой датой и считают конференцию началом эпохи искусственного интеллекта. Существует много дискуссий о том, кто является создателем искусственного интеллекта. Однако это достигается не путём добавления элемента случайности, а через целевые «штрафы», которые с особой точностью рассчитываются для добавления разнообразия в ответ. Но для промптов, подразумевающих только один верный ответ, который вы хотите получить с первой попытки, наивысшая вероятность успеха достигается тогда, когда все эти параметры установлены на ноль. Модель получает штраф за частоту (frequency penalty) за каждое повторение одного и того же токена в тексте.