Адаптация больших языковых моделей под задачи бизнеса: опыт Авито
Авито — одна из крупнейших IT-компаний в России и самая популярная онлайн-платформа объявлений в мире по данным Similarweb. Ежемесячная аудитория составляет более 70 млн, на платформе более 220 млн объявлений в 5 направлениях: Товары, Работа, Услуги, Недвижимость, Транспорт.
Появление в Авито Gen AI стало новым этапом развития ИИ, который используется во многих задачах и процессах на платформе. Рынок только учится создавать ИИ-решения, полезные для бизнеса и массового потребителя. Команда Авито также анализировала возможности генеративных технологий и искала им прикладную ценность с учетом специфики платформы.
Проблема: Авито — классифайд-платформа, в основе которой сотни миллионов объявлений. Успешные покупки и сделки напрямую зависят от качества объявлений. Чем оно полнее и понятнее, тем меньше барьеров у пользователя. Иногда продавец может забыть указать важные детали, например, в случае одежды, длину по рукаву или материал изделия. Из-за этого описания товаров у частных продавцов зачастую не очень информативны и понятны.
Мы исследовали, какой информации чаще всего не хватает пользователям для решения о покупке, и подумали, что будет здорово, если ИИ будет генерировать эту информацию. Одна из ценностей Авито – «Упрощай», поэтому внедрение GenAI должно было упростить взаимодействие как между продавцами и покупателями, так и с самой площадкой.
Решение: Мы разработали и внедрили собственную LLM-модель, адаптированную под специфику Авито, и создали на ее базе комплекс инструментов:
1. Генерация описания объявления. Теперь при размещении объявлений в категориях «Одежда, обувь, аксессуары» и «Хобби и отдых», нейросеть помогает создать описание. Достаточно указать заголовок, загрузить фото и заполнить основные параметры (бренд, размер, цвет и т.д.), ИИ обработает данные и предложит текст. Также есть алгоритм Image-to-text, который создает описание на основе изображений. Если информации мало, система добавит пустые графы, которые можно заполнить вручную. Продавец может поменять текст или запросить новый вариант.
2. Генерация мета-тегов для поиска. Продавцы часто сталкиваются с трудностями при составлении объявлений, а покупатели ищут товары, используя специфичные запросы. Когда пользователь ищет "утепленную куртку цвета хаки с капюшоном", а в объявлении указано лишь "куртка с капюшоном", подходящий товар остается ненайденным. Наша модель автоматически генерирует мета-теги на основе заголовка и изображения товара, добавляя недостающие ключевые слова в поисковую базу. Это позволяет находить релевантные предложения, даже если продавец не указал все характеристики при публикации.
Результаты: Для продавцов: – Упростился процесс создания объявлений: достаточно написать заголовок, загрузить фото и заполнить базовые параметры товара, а нейросеть сама сгенерирует полное описание – Объявления стали привлекать больше покупателей благодаря автоматически созданным мета-тегам – На 1,7% выросло количество заказов с доставкой. Пользователи чаще обращались к сгенерированным объявлениям – Выросло количество успешных поисковых сессий, закончившихся контактом с продавцом (+1%)
Для покупателей: – 60% пользователей дали позитивные отзывы по сгенерированным описаниям – Улучшился поиск нужных товаров: теперь объявления находятся, даже если продавец использовал нестандартные описания товаров
Уникальные особенности: Первая особенность проекта — процесс обучения модели, который состоял из 2 этапов. Сначала мы собрали данные из открытых источников и объединили с данными Авито. После этого взяли языковую модель Mistral 7В с открытым кодом и дообучили на наших данных для предсказания токенов. Совокупно обучение заняло 30 дней. Вторым этапом стал SFT-этап (Supervised fine-tuning), когда мы дали модели обучиться на данных в формате «задание – ответ». Мы разработали собственный токенизатор для нашей модели, что ускорило генерацию текста в 1,5 раза.
Вторая особенность — мультимодальность модели. На генерацию описания влияют не только параметры, указанные в тексте, но и само изображение. Мультимодальные задачи пока не так распространены в Open Source, про них мало информации. Мы научили модель понимать изображения и генерировать на их основе текст.
В 2024 году мы протестировали первые функции на базе собственной LLM-модели. Получив хорошие результаты, мы решили масштабировать технологии GenAI внутри компании. В 2025 году планируем представить больше возможностей на основе собственных генеративных моделей
Эффективность для бизнеса
Заказы с доставкой выросли на 1,7%, успешные поисковые запросы — на 1%. Данные указывают на рост пользовательского комфорта: пользователи быстрее находят товары и чаще покупают. 60% довольны сгенерированными описаниями.