Оценка привлекательности лица для прогнозирования прямых трансляций

На сегодняшний день прогноз привлекательности лица (FAP) в основном изучался в контексте психологических исследований, в индустрии красоты и косметики, а также в контексте косметической хирургии. Это сложная область исследований, поскольку стандарты красоты, как правило, являются национальными, а не глобальными .

Это означает, что ни один эффективный набор данных на основе ИИ не является жизнеспособным, поскольку средние значения, полученные путем выборки лиц/рейтингов из всех культур, будут очень предвзятыми (где более густонаселенные страны получат дополнительную поддержку), в противном случае они не будут применимы ни к одной культуре вообще (где среднее значение нескольких рас/рейтингов будет равнозначно отсутствию фактической расы).

Вместо этого задача состоит в разработке концептуальных методологий и рабочих процессов, в которые можно было бы включить данные, специфичные для страны или культуры, чтобы обеспечить разработку эффективных моделей FAP для каждого региона.

Варианты использования FAP в косметических и психологических исследованиях весьма ограничены и зависят от отрасли; поэтому большинство наборов данных, собранных на сегодняшний день, содержат лишь ограниченные данные или вообще не были опубликованы.

Легкая доступность онлайн-предикторов привлекательности, в основном ориентированных на западную аудиторию, не обязательно отражает современное состояние FAP, в котором в настоящее время доминируют восточноазиатские исследования (в первую очередь, Китай) и соответствующие восточноазиатские наборы данных.

Примеры наборов данных из статьи 2020 года «Прогнозирование красоты лица азиатских женщин с использованием глубоких нейронных сетей посредством трансферного обучения и многоканального слияния признаков». Источник: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Примеры наборов данных из статьи 2020 года «Прогнозирование красоты лица азиатских женщин с использованием глубоких нейронных сетей посредством трансферного обучения и многоканального слияния признаков». Источник: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Более широкое коммерческое использование оценки красоты включает в себя приложения для онлайн-знакомств и генеративные системы искусственного интеллекта, предназначенные для «подправки» реальных изображений аватаров людей (поскольку такие приложения требуют квантифицированного стандарта красоты в качестве метрики эффективности).

Рисуем лица

Привлекательные личности продолжают оставаться ценным активом в рекламе и наращивании влияния, что делает финансовые стимулы в этих секторах очевидной возможностью для продвижения современных наборов данных и фреймворков FAP.

Например, модель ИИ, обученная на реальных данных для оценки и ранжирования красоты лица, может потенциально определять события или людей с высоким потенциалом рекламного воздействия. Эта возможность будет особенно актуальна в контексте потокового видео, где такие метрики, как «подписчики» и «лайки», в настоящее время служат лишь неявными индикаторами способности человека (или даже типа лица) увлечь аудиторию.

Это, конечно, поверхностная метрика, и голос, презентация и точка зрения также играют важную роль в сборе аудитории. Поэтому курирование наборов данных FAP требует человеческого контроля, а также способности отличать привлекательность лица от «показной» (без чего такие не относящиеся к теме инфлюенсеры, как Алекс Джонс, могли бы в конечном итоге повлиять на среднюю кривую FAP для коллекции, предназначенной исключительно для оценки красоты лица).

LiveBeauty (Живая красота)

Чтобы решить проблему нехватки наборов данных FAP, исследователи из Китая предлагают первый крупномасштабный набор данных FAP, содержащий 100 000 изображений лиц, а также 200 000 человеческих аннотаций, оценивающих красоту лица.

Образцы из нового набора данных LiveBeauty. Источник: https://arxiv.org/pdf/2501.02509

Набор данных под названием LiveBeauty содержит 10 000 различных личностей, все из которых были получены с (неуказанных) платформ потокового вещания в марте 2024 года.

Авторы также представляют FPEM, новый мультимодальный метод FAP. FPEM объединяет целостные априорные знания о лице и мультимодальные эстетические семантические признаки с помощью персонализированного априорного модуля привлекательности (PAPM), мультимодального модуля кодирования привлекательности (MAEM) и кросс-модального модуля слияния (CMFM).

В статье утверждается, что FPEM достигает передовой производительности на новом наборе данных LiveBeauty и других наборах данных FAP. Авторы отмечают, что исследование имеет потенциальные приложения для улучшения качества видео, рекомендаций по контенту и ретуши лица в прямых трансляциях.

Авторы также обещают сделать набор данных доступным «скоро», хотя следует признать, что любые лицензионные ограничения, присущие исходному домену, по всей вероятности, распространятся на большинство соответствующих проектов, которые могут использовать эту работу.

Новая статья называется «Прогнозирование привлекательности лица в прямых трансляциях: новый эталонный и мультимодальный метод » и подготовлена ​​десятью исследователями из Alibaba Group и Шанхайского университета Цзяотун.