Елена Сидорова о структурировании данных, написанных на естественном языке и медицинских онтологиях.
В рамках секции по методам Искусственного Интеллекта( AI) на форуме "Инфосибирь", 18 мая 2017 г. Елена Анатольевна Сидорова (ИСИ им. А.П. Ершова СО РАН) представит результаты работ по распознаванию и структурированию медицинских текстов, написанных на естественном языке.
Создание информационной базы клинических испытаний, отслеживание и анализ информации о достижениях современной медицины актуально для жизнедеятельности субъектов экономики и общества. Информация об проводимых испытаниях новых препаратов и медицинского оборудования фиксируется в виде протоколов, заполняемых руководителями испытаний, и хранятся в различных базах. Несмотря на свободный доступ к этим базам поиск необходимой информации затруднен, поскольку отсутствует необходимая структуризация данных, объемы которых исчисляются сотнями тысяч документов. С другой стороны, в мировом сообществе широко распространены медицинские онтологии, которые могут быть взяты за основу структуризации данных и извлечения информации из текстовых протоколов клинических испытаний. С этой точки зрения представляют интерес системы, которые работая с базой протоколов медицинских исследований, обеспечат: а) автоматическую индексацию текстов протоколов на основе онтологии, б) анализ и структурирование результатов исследований в виде набора фактов, в) содержательный информационный поиск в базе на основе семантического анализа запроса пользователя.
Отличительной чертой предлагаемого подхода к извлечению информации является ориентация используемых лингвистических описаний на конкретную область знаний: информация словарей, семантико-синтаксических моделей и схем извлечения фактов существенным образом опирается на структуру медицинской онтологии. А жанровая структура и особенности протоколов, написанных на естественном языке, но имеющих строгую структуризацию и требования к наименованиям препаратов, оборудования и описанию процесса испытаний, позволяет значительно ограничивать область поиска информации в тексте и обеспечивает высокую точность извлекаемых данных.
Предложенный подход апробируется на публичной базе английских текстов клинических испытаний, представленных на сайте ClinicalTrials.gov, содержащей более 200 тысяч протоколов. В дальнейшем планируется направить усилия на создание аналогичной системы для русскоязычного контента.