Эмоциональный ИИ: как Typecast понимает и выражает эмоции?

Эмоциональный ИИ: как Typecast понимает и выражает эмоции?

Понимание языка и передача эмоций имеют огромное значение в человеческом общении, однако для искусственного интеллекта (ИИ) это становится настоящим вызовом. Стартап Typecast, базирующийся в Сеуле, Южная Корея, занимается созданием синтетических голосов и видео на основе ИИ и представляет свою новую разработку - технологию Переноса Эмоций Между Говорящими (Cross-Speaker Emotion Transfer), которая позволяет применять эмоции, записанные голосом одного человека, к голосу другого, сохраняя уникальный стиль последнего.

Иновационный прорыв в выражении эмоций

Исследования показывают, что человек способен выражать одно и то же предложение тысячами различных способов, вкладывая в каждое из них свои эмоции. Основатель и генеральный директор Neosapience и Typecast, Тэсу Ким поделился с VentureBeat, что новая технология позволяет использовать ИИ-актеров с реальной эмоциональной глубиной, даже на основе небольшого образца голоса пользователя.

Декодирование эмоций

Существует семь основных эмоциональных категорий, таких как счастье, печаль, гнев и другие, основанные на универсальных движениях лица. Однако для передачи широкого спектра эмоций в сгенерированной речи этого недостаточно, как отметил Ким. Так, запись предложения "Как ты мог это со мной сделать?" с эмоциональной подсказкой "Грустно, как будто разочаровано" будет заметно отличаться от подсказки "Сердито, как будто ругаешь".

Ограничения эмоционального текста в речь

Текстовые технологии преобразования в речь добились значительного прогресса, однако разработка эмоционального текста в речь требует большого количества маркированных данных. Захват разных оттенков эмоций через голосовые записи был трудоемким и утомительным процессом. Традиционные методы синтеза эмоциональной речи требуют ярлыков эмоций на всех тренировочных данных, что влечет за собой дополнительное кодирование эмоций или аудиореференц.

Преодоление проблемы переноса эмоций

Используя глубокие нейронные сети и алгоритмы обучения без учителя, исследователи научили ИИ определять стили речи и эмоции из большой базы данных. Затем они обучили сеть переводить описания эмоций на естественном языке в числовые представления, используемые в алгоритмах преобразования текста в речь.

Адаптация к особенностям голоса по сниппетам

Методика позволяет передавать эмоции нейтральному говорящему с использованием всего лишь нескольких сэмплов, и интенсивность эмоций может быть контролируемой. Это позволяет естественным образом достигнуть переноса эмоции без изменения идентичности. Пользователи могут выбирать различные виды эмоциональной речи, записанные другими, и применять этот стиль к своему голосу, при этом сохраняя свою уникальную голосовую идентичность.

Применение технологии Typecast

Технология Typecast использовалась корпорациями такими, как Samsung Securities и LG Electronics в Корее. С момента основания в 2017 году компания привлекла инвестиции в размере $26.8 миллиардов. Теперь стартап работает над применением своих ключевых технологий в области синтеза речи к выражению лица.

Контроль над ИИ - ключ к созданию контента

Среда медиа постоянно меняется. В прошлом текстовые блоги были популярным корпоративным медиа-форматом, но теперь власть принадлежит коротким видео. Для доставки корпоративного сообщения важно иметь выразительный голос высокого качества. Тэсу Ким подчеркивает, что контролируемость в генеративном ИИ имеет решающее значение для создания содержимого. Технологии помогают обычным людям и компаниям раскрыть свой творческий потенциал и повысить свою производительность.

Комментарии

Отлично! Вы успешно зарегистрировались.

Welcome back! You've successfully signed in.

You've successfully subscribed to GPTalk | AI Новости.

Проверьте свою электронную почту для личной ссылки для входа.

Ваша платежная информация была обновлена.

Ваш счет не был обновлен.