Общая постановка задачи в области обработки текстов в медицине




 

Медицинские организации генерируют огромный объем неструктурированной информации, которая содержится в текстах на естественном языке (ЕЯ). Большинство историй болезни, анамнезов, эпикризов, а также отчетов о проведении клинических мероприятий: операций, анализов и обследований, таких как рентгеновские, ультразвуковые исследования, записываются в виде текстов на ЕЯ. Эти тексты содержат много полезной информации, которую необходимо извлечь и структурировать. В области обработки текстов на ЕЯ выделилось отдельное актуальное быстроразвивающееся научное направление, которое занимается проблемой анализа клинических текстов. В рамках этого направления разрабатываются специализированные системы, решающие задачи извлечения информации из клинических текстов и ее структурирования. Информация, полученная из текстов, может существенно обогатить базы знаний и данных, на основе которых работают медицинские системы поддержки принятия решений, что, в конечном счете, может повысить их эффективность. Большинство существующих методов и систем анализа медицинских текстов работают только с английским языком, системы анализа медицинских текстов на русском языке отсутствуют.

Заслуга формирования научной русской медицинской терминологии в 18 веке принадлежит русским врачам, являющимся переводчиками. Такой шаг является поистине подвигом учености и патриотизма. Русские врачи-переводчики преодолевали колоссальные трудности, выполняя передачу ресурсами родного языка отвлеченных наименований понятий, которые выработаны западноевропейскими языками, а также классицизмов и неоклассицизмов, освоенных последними [2, страница 253]. Недостатки терминологии русскими врачами-педагогами ощущались особенно остро. Осуществление преподавания на русском языке медицинских дисциплин было допустимо только при наличии разработки отечественной терминологии. На основании этого многие русские выдающиеся врачи одновременно становились филологами и переводчиками.[1]

В области понимания текста (text understanding) существует множество методов и программных средств, позволяющих структурировать тексты на естественном языке и извлекать из них информацию. Большинство существующих решений ориентированы на обработку текстов общего характера, например, таких как новостные сообщения. Однако стилистика клинических текстов сильно отличается от стилистики обычных текстов, поэтому требуется как значительная доработка существующих методов и инструментов по анализу текстов на ЕЯ, так и создание новых специфичных подходов. Богатая медицинская терминология также предполагает разработку объемных лингвистических ресурсов: номенклатур, кодификаторов и тезаурусов. Эти особенности позволяют выделить анализ клинических текстов в обособленное направление исследований в области обработки ЕЯ.[2]

Среди этих задач — расшифровка медицинских аббревиатур и сокращений; выделение концептов, обозначающих заболевания, патологии, вмешательства, медицинские препараты, обследования; выявление семантических связей между этими концептами, а также определение атрибутов этих концептов.

Определим типовой состав медицинских данных, накапливаемых лечебным учреждением (на примере многопрофильного педиатрического центра) и представляющих интерес для интеллектуального анализа. Они включают текстовые, графические и числовые данные следующих типов: 1. Лабораторные данные: ● биохимические показатели сыворотки крови; ● показатели кислотно-основного состава организма; ● показатели свертывающей системы крови (коагулограмма), времени кровотечения и свертываемости; ● определение группы крови, резус-фактора, фенотипа эритроцитов; ● показатели клинического анализа крови; ● иммунологические характеристики (например, иммуноглобулины сыворотки крови); ● показатели иммунного ответа (к различным антигенам возбудителей/вирусов/паразитов); ● наличие антител к собственным белкам и компонентам клетки; ● определение гормонального состава сыворотки крови; ● определение наличия/титра ферментов и кофакторов; ● показатели активности ферментов; ● молекулярная диагностика, секвенирование мутаций, определение полиморфизма генов; ● общий анализ мочи; ● биохимический анализ мочи и клеточного остатка; ● анализ кала. 2. Инструментальные и визуализационные методы диагностики: ● ультразвуковые исследования; ● рентгенография, томография с контрастом и/или функциональными пробами; ● магнитно-резонансное исследование; ● сцинтиграфия; ● исследование электрической активности и проводимости органов и систем — электрокардиография, электроэнцефалография, электронейромиография; ● исследование функции внешнего дыхания: спирометрия и легочные объемы — бодиплетизмография; ● комплексные исследования (полисомнография). 3. Показатели комплексного клинического осмотра: ● специфические и общие жалобы; ● подробный анамнез (история) жизни (развития) пациента и непосредственно возникновения болезни; Методы и средства комплексного интеллектуального анализа медицинских данных Труды ИСА РАН. Том 65. 2/2015 87 ● наследственная предрасположенность (семейный анамнез); ● уточнение наличия вредных (отягощающих состояние) факторов окружения и внешней среды; ● осмотр органов и систем (выявление физиологических показателей и/или патологических данных, характеризующих нозологическую форму либо имеющих синдромальный характер). Анализируются: 1) кожа и подкожная жировая клетчатка: наличие и характер высыпаний, отеки; 2) дыхательная система: носовое дыхание, отделяемое из носовых ходов, храп, осиплость голоса, кашель (характер, время появления), мокрота, боли в груди или спине (характер, локализация, связь с дыханием, кашлем), одышка (затруднение вдоха и/или выдоха), приступы удушья, свистящее дыхание, характер перкуторного звука, аускультативная картина в легких (проводится или нет во все отделы), характеристики вдоха/выдоха, хрипы есть/нет, характер хрипов, влияние кашля на хрипы; 3) сердечно-сосудистая система: цианоз кожных покровов, одышка, боли в области сердца, ощущение сердцебиения и «перебоев», отеки (время появления, локализация), пульс, перкуторные границы сердца, аускультативная картина (ЧСС, наличие шумов и их локализация); 4) система органов пищеварения: наличие и характер налета на языке, глотание, тошнота, рвота, срыгивания (у младенцев), отрыжка или изжога, боли в животе (характер, локализация, иррадиация, связь с приемом пищи), характер и частота стула; пальпация живота, болезненность при пальпации вокруг пупка, по ходу толстой кишки, в точке проекции желчного пузыря; 5) мочевыделительная система: боли в животе и в поясничной области, частота мочеиспусканий, цвет мочи, недержание мочи, отеки, есть или нет болезненность в поясничной области при поколачивании; 6) опорно-двигательная система: боли в конечностях, мышцах, суставах (характер, локализация, связь с различными факторами — от времени суток до метеоусловий), изменение формы суставов, характер движений, наличие травм; 7) эндокринная система: нарушение волосяного покрова, изменения кожи (чрезмерная потливость или сухость), нарушение роста и массы тела, вторичные половые признаки; 8) нервная система и органы чувств: головные боли и головокружения, судороги, тики, нарушения со стороны органов чувств, характер рефлексов и ответа и на раздражители; очаговая симптоматика — черепно-мозговые нервы, менингеальные знаки. Выбор каждого из указанных параметров, а также их сочетание, будет определяться для каждого конкретного случая соответствующей нозологической формой и/или патологическим синдромом.[3]

В целом, системы интеллектуальной обработки медицинских данных имеют следующие направления применения:прогнозирование, классификация клинических случаев (диагностика), поиск похожих клинических случаев, наблюдение за состоянием пациентов. Рассмотрим предлагаемый расширенный список направлений, составленный с учетом специфики применения системы комплексной интеллектуальной обработки данных в многопрофильном педиатрическом центре. Одним из основных направлений применения системы является дифференциальная диагностика состояния пациента: выявление заболевания, его стадии, характера течения болезни. Необходимо предусмотреть возможность пошаговой диагностики болезни пациента с уточнением диагноза пациента на каждом шаге. Другим важным направлением применения является прогнозирование изменения клинического состояния пациента при применении различных видов вмешательств и при отсутствии вмешательств. Под вмешательством понимаются различные диагностические или лечебные мероприятия, как медикаментозные, так и немедикаментозные, реабилитационные и профилактические, а также хирургические операции, перемещение пациента в другие лечебные учреждения, либо внутри лечебного учреждения. Еще одним важным направлением применения системы является отслеживание опасных — критических — изменений в показателях здоровья пациента. К таким изменениям в показателях здоровья будем относить резкое ухудшение состояния пациента, вызванное течением болезни, либо реакцией на вмешательства. Помимо основных направлений применения, система должна будет осуществлять мониторинг и автоматическую экспертизу действий медицинского персонала. В ходе экспертизы должны оцениваться: адекватность вмешательства диагнозу, корректность дозировок и длительности приема лекарственных средств, соответствие организационных действий (выписка, перевод в определенную палату, другое лечебное учреждение) состоянию больного, поиск похожих клинических случаев. [4]

На основе состава исходных данных и предложенных типовых направлений применения были определены задачи комплексного интеллектуального анализа медицинских данных. Приведем далее наиболее значимые из них: 1) Поиск структурированных данных по запросу. Предлагается хранить структурированные данные в реляционной форме и использовать для поиска стандартные средства и методы для работы с реляционными базами данных. 2) Поиск скрытых логических и статистических закономерностей в заданных наборах медицинских данных. Для этого предлагается использовать известные статистические и логические методы интеллектуального анализа данных, а также разработать комбинированные логико-статистические методы обработки данных. 3) Классификация и предсказание признаков пациентов на основе выявленных закономерностей для решения обобщенных задач диагностики и прогнозирования. 4) Группирование структурированных данных. Группирование будет выполняться при помощи методов кластеризации. 5) Работа со сверхбольшими массивами данных, т. е. при разработке методов должна предусматриваться возможность их параллельной и распределенной реализации. 6) Лингвистический анализ текстовых документов. Для решения этой задачи будет применен метод глубокого лингвистического анализа, использующий реляционно-ситуационную модель текста. 7) Поиск похожих текстовых документов на естественном языке. Для этого будет применен метод поиска близких текстовых документов. 8) Поиск текстовых документов по запросу на естественном языке. Предлагается решать указанную задачу с помощью метода полнотекстового семантического поиска информации.[5]


 

 

Методы обработки текста:

1. Математический

· машинное обучение

· генерация правил

· экспертные системы

2. Лингвистический

· Теория языка

· Словари

3. Онтологический

· Объекты и отношения

· Требует ресурсов


 

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2019-03-17 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: