Владимир Кондратенко - Dusha: самый большой открытый датасет для распознавания эмоций в устной речи

Опубликовано: 03 Ноябрь 2024
на канале: ML Trainings

597

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке
Мы собрали самый большой в мире датасет для задачи SER (speech emotion recognition). Спешу рассказать о том, как именно мы его собирали, о тонкостях и трудностях с которыми столкнулись в процессе. Доклад расширяет ранее написанный пост на хабр (https://habr.com/ru/companies/sberdev...) (

Почему это интересно:
1. Задача Speech Emotion Recognition сама по себе интересна: она вызывает ВАУ эффект (как так, нейронки и эмоции умеют предсказывать)
2. Многие компании пытались ее решать, я слышал много неудачных историй и только 2 удачные (одна из них наша)
3. Мы предлагаем хороший бенчмарк для задачи SER, данных в для этой задачи очень мало, а на русском языке и подавно. Любой исследователь/инженер который сейчас будет пытаться делать SER, будет использовать наш датасет

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Open Source":
https://ods.ai/tracks/df23-open-sourse

Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest