Твиттер помог выявить побочные эффекты лекарств

Технология позволит облегчить проведение клинических исследований в будущем.

Россия впервые приняла участие в международном соревновании SMM4H Shared Task 2020 по выявлению упоминаний о побочных эффектах от приема лекарственных препаратов по постам в социальных сетях. Хотя в прошлом году российские команды решали конкурсные задачи, в этом году они были не только на английском, но и на русском языке, что позволило участникам изучить отечественную фармацевтику.

Мероприятие объединяет ученых из разных стран и призвано облегчить и ускорить разработку автоматических методов сбора, извлечения, представления и анализа данных социальных сетей по теме здоровья. В следующем году организаторы планируют изучить твиты о лекарствах, применяемых при лечении коронавирусной инфекции. Подробности опубликованы в научной статье. Работа поддержана грантом Российского научного фонда (РНФ).

«Научная группа из Пенсильванского университета создала инициативу #SMM4H, чтобы облегчить и интенсифицировать разработку автоматических методов сбора, извлечения, представления, анализа данных социальных сетей по теме здоровья. В этом году она проводилась в пятый раз и первый раз включала в себя данные на русском языке, которые предоставляли мы с коллегами из Казанского федерального университета», — поясняет Елена Тутубалина, один из организатор соревнования, руководитель проекта по гранту РНФ, кандидат физико-математических наук, старший научный сотрудник Казанского федерального университета (Казань).

Ее научная группа при поддержке РНФ собирает новые корпуса пользовательских текстов медицинской направленности, а также создает новые модели, улучшающие существующие методы извлечения информации из отзывов и коротких сообщений, посвященных лекарственным средствам и реакциям на них, разрабатывает программные средства обработки текстов на английском и русском языках.

Огромный объем текстовых данных в социальных сетях представляет разные возможности для использования их в качестве ресурса для здравоохранения.

В последние годы во всем мире и в России в частности общественность все больше задумывается над проблемой продвижения продуктов фармацевтических компаний. Через интернет-ресурсы пользователи получают возможность обмена мнениями и почти неограниченный доступ к информации о сегментах фармацевтического рынка и сведениях медицинской направленности.

Лучшие научные фото 2020 года — в нашей галерее:

Кроме того, клинические испытания не всегда позволяют обнаружить полный перечень побочных эффектов. Это вызвано тем, что зачастую побочные эффекты проявляют себя после длительного приема препарата или же оказывают эффект только на определенную группу пациентов, не участвовавшую в клинических испытаниях. Решение обозначенных выше проблем ученые предлагают решать с помощью интеллектуального анализа отзывов пользователей о лечении.

В этом году научный коллектив из Казанского федерального университета и Пенсильванского университета впервые провел открытое соревнование по выявлению упоминаний о побочных эффектах от приема лекарственных препаратов из текстов твитов на русском языке в рамках соревнования Social Media Mining for Health Applications (#SMM4H) Shared Task 2020. Участники должны были разработать методы классификации публикации в Твиттере о неблагоприятных лекарственных эффектах. Для проведения соревнования Елена с коллегами подготовила коллекцию из 9,5 тысяч русскоязычных твитов о 70 антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах. Организаторы вручную разделили твиты на две группы: одни содержали информацию о побочных эффектах лекарств, другие содержали названия заболеваний и симптомов, но не побочных эффектов. Командам необходимо было предложить способы автоматизации такой классификации, используя современные языковые модели и методы машинного обучения.

Эту задачу выполняли 7 команд из России, Финляндии, США, Хорватии и Великобритании. Россию представляли команды из Высшей школы экономики и лаборатории Сбербанка по искусственному интеллекту.

По результатам подготовлен и опубликован новый размеченный корпус твитов на русском языке. Готовые корпуса могут быть использованы для обучения моделей на основе машинного обучения. Модели в дальнейшем можно применять для автоматической разметки текстов и других задач программистов и исследователей, что поможет анализировать побочные эффекты от приема лекарственных препаратов и другую важную для медицины информацию.

«Проведенные исследования позволяют сделать важный шаг для дальнейшей разработки автоматических систем для задачи извлечения побочных эффектов из текстов социальных медиа на русском языке. В будущем планируется продолжать проведение трека в рамках симпозиума SMM4H. В частности, в следующем году мы хотели бы рассмотреть твиты о лекарствах, применяемых при лечении коронавирусной инфекции. Регистрация для команд уже открыта», — заключает Елена Тутубалина.

Соцсети вредны для подростковой психики

Соцсети стали популярным средством диагностики половых инфекций

Смотрите наши видео:

Контент недоступен