![]() |
Новосибирский государственный университетФакультет информационных технологий |
![]() |
Представлены существующие методы извлечения информации из текстовых данных. Рассматриваются способы извлечения сущностей и отношений. Приводится описание методов автоматического построения онтологий по корпусу, а также способы их оценки. Особое внимание уделяется техникам выделения сущностей и отношений из открытых областей, обработке именованных сущностей, а также идентификации фактов, локализованных во времени.
Статья представляет собой обзор существующих методов извлечения информации из текстовых данных. Извлечение информации (information extraction) – это разновидность информационного поиска, при которой из неструктурированного текста выделяется структурированная информация. Фактографический поиск – поиск фактов, соответствующих информационному запросу. Извлечение информации прежде всего связано с поиском сущностей и отношений. Это один из ключевых этапов предварительной обработки текста, необходимый для реализации более сложных моделей и программ. Базы знаний применяются для снятия омонимии, в обработке текста, семантическом поиске, вопросно-ответных системах, автоматическом понимании текста без учителя (machine reading). Сущности должны быть отнесены к некоторым категориям. Особое место в извлечении сущностей занимают проблемы идентификации именованных сущностей и кореференции (разрешение анафорических связей).
Издательство: Пермский государственный национальный исследовательский университет
Ссылка на адрес в репозитарии: Методы извлечения информации из текста
Ссылка на репозиторий DSpace: Методы извлечения информации из текста
URL-адрес источника ресурса : Методы извлечения информации из текста
Коды классификаторов: UDC 025.4.03
Ключевые слова: поиск информационный; отношение; именованные сущности; временные факты; извлечение информации; семантика; сущность;
![]() Федотова Ольга Анатольевна |
![]() НГУ ФИТ НГУ ИВТ СО РАН |