Подход к извлечению информации из протоколов клинических испытаний на основе медицинских онтологий
Программа форума в формате pdf.
10:20 - 10:40
УДК 004.912, 004.82 Подход к извлечению информации из протоколов клинических испытаний
на основе медицинских онтологий
Сидорова Елена Анатольевна, Кононенко Ирина Семеновна, Загорулько Юрий Алексеевич
Ключевые слова: клинические испытания, извлечение информации, медицинские онтологии, предметный словарь, жанр текста, модель факта.
Создание информационной базы клинических испытаний, отслеживание и анализ информации о достижениях современной медицины актуально для жизнедеятельности субъектов экономики и общества. Информация об проводимых испытаниях новых препаратов и медицинского оборудования фиксируется в виде протоколов, заполняемых руководителями испытаний, и хранятся в различных базах. Несмотря на свободный доступ к этим базам поиск необходимой информации затруднен, поскольку отсутствует необходимая структуризация данных, объемы которых исчисляются сотнями тысяч документов. С другой стороны, в мировом сообществе широко распространены медицинские онтологии, которые могут быть взяты за основу структуризации данных и извлечения информации из текстовых протоколов клинических испытаний. С этой точки зрения представляют интерес системы, которые работая с базой протоколов медицинских исследований, обеспечат: а) автоматическую индексацию текстов протоколов на основе онтологии, б) анализ и структурирование результатов исследований в виде набора фактов, в) содержательный информационный поиск в базе на основе семантического анализа запроса пользователя.
Отличительной чертой предлагаемого подхода к извлечению информации является ориентация используемых лингвистических описаний на конкретную область знаний: информация словарей, семантико-синтаксических моделей и схем извлечения фактов существенным образом опирается на структуру медицинской онтологии. А жанровая структура и особенности протоколов, написанных на естественном языке, но имеющих строгую структуризацию и требования к наименованиям препаратов, оборудования и описанию процесса испытаний, позволяет значительно ограничивать область поиска информации в тексте и обеспечивает высокую точность извлекаемых данных.
Предложенный подход апробируется на публичной базе английских текстов клинических испытаний, представленных на сайте ClinicalTrials.gov, содержащей более 200 тысяч протоколов. В дальнейшем планируется направить усилия на создание аналогичной системы для русскоязычного контента.
Секция: | Секционное заседание 2.Системы искусственного интеллекта и поддержки принятия медицинских и управленческих решений. |
Зал: | Конференц-зал № 5, 2-й этаж. |
Докладчик:
Сидорова Елена Анатольевна
Лаборатория искусственного интеллекта Институт систем информатики им. А.П. Ершова Сибирского отделения Российской академии наук, Старший научный сотрудник, к.ф.-м. наук
Материалы: