![]() |
Новосибирский государственный университетФакультет информационных технологий |
![]() |
Информационно-поисковый тезаурус (ИПТ) — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.
Основными целями разработки традиционных ИПТ являются следующие:
Иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Предпочтительно указывать связи между дескрипторами как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды. Основным иерархическим отношением, используемым в ИПТ, является родо-видовое отношение (оно же — отношение НИЖЕ-ВЫШЕ). Родо-видовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в объем понятия вышестоящего дескриптора. Также в качестве иерархического отношения в ИПТ может устанавливаться отношение ЧАСТЬ-ЦЕЛОЕ. Многие руководства и стандарты подчеркивают, что иерархические отношения в ИПТ должны устанавливаться в тех случаях, когда отношения истинны независимо от контекста — только в таких случаях дескрипторы ИПТ могут быть организованы в иерархии. Эта рекомендация связана с тем, что обычно в информационном поиске очень трудно четко определить контекст употребления термина и понять, применимо ли в данном контексте то или иное отношение. Так, для мышей можно указать, что они грызуны, поскольку это внутренняя характеристика мышей. В то же время неправильно указывать, что мыши — вредители, поскольку имеются лабораторные мыши и домашние мыши, которые вредителями не являются. Рекомендуется использовать тест "все-некоторые". Например, "все мыши являются грызунами, но некоторые мыши являются вредителями". Основное назначение установления ассоциативных отношений между дескрипторами ИПТ — указание на дополнительные дескрипторы, полезные при индексировании или поиске. Отношение ассоциации является неиерархическим и ассоциативным. Ассоциативное отношение наиболее трудно определить. Российский стандарт на создание ИПТ указывает, что "ассоциативное отношение является объединением отношений, не входящих в иерархические отношения или в отношения синонимии. Допускается включать в ассоциативное отношение все виды отношений, кроме синонимии и отношения РОД-ВИД".
Одним из подходов для автоматизации индексирования по традиционным ИПТ является подход, основанный на правилах. Такой подход к автоматическому индексированию был реализован по тезаурусу EUROVOC. Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например, в поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, в начале предложения, в конце предложения), Формат (с большой буквы, все большими буквами). Всего было создано около 40 тысяч правил. В качестве других подходов автоматизации индексирования используются статистические методы. При таких подходах процесс автоматического приписывания дескрипторов тезауруса EUROVOC полнотекстовым документам включает две стадии.На первой стадии (этап обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса. Соответствие устанавливается на основе статистических мер (chi-square или log-likelihood). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции. На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса.Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса): Community programme, Young person, Cultural policy, CEEC, European Union и т.д. Выдачу системы можно ограничить по количеству выдаваемых дескрипторов или по весу. Для текста примера присвоенные индексаторами дескрипторы находились в первой тридцатке дескрипторов, присвоенных автоматически (на позициях 3, 8, 9, 16 и 30). При этом большинство автоматически присвоенных дескрипторов выглядят весьма релевантными тексту документа и только 3 из 40 присвоенных автоматически явно неправильны (например, Кипр).Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов В настоящее время в мире существует достаточно много информационных систем, предоставляющих пользователям возможности поиска информации как по свободному запросу на естественном языке, так и с помощью дескрипторов информационно-поисковых тезаурусов, сопоставленных документам профессиональными индексаторами. Первым шагом на этом пути может быть нахождение корреляций между словами документов и дескрипторами тезауруса или рубриками рубрикатора.
Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.Основная:
Дополнительная:
Ключевые термины: тезаурус; информационный поиск; автоматизированный информационный поиск;
![]() Федотова Ольга Анатольевна |
![]() НГУ ФИТ НГУ ИВТ СО РАН |