СУЭБ ИВТ СО РАН


А.М.Федотов

Словарные статьи в коллекции: (public_cat = Thesaurus of Information Technology: Dictionary Articles )

Тезаурус WordNet

Тезаурус WordNet разработан в Принстонском университете США. WordNet относится к классу лексических онтологий, свободно доступен в Интернете, и на его основе были выполнены тысячи экспериментов в области информационного поиска.

WordNet версии 2.1 охватывает приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset); общее число пар "лексема-значение" насчитывает 200 тысяч.

Разработка тезауруса была начата в 1984 году. В 1995 году WordNet появился в Интернете в свободном доступе и вызвал всплеск исследований по его использованию в различных компьютерных приложениях автоматической обработки текстов. Результаты применения WordNet оказались не столь однозначно положительными, но WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических ресурсов, вызвал появление большого числа последователей в разных странах, создающих такие "ворднеты" для своих языков, а также стал базой для многоплановых дискуссий и исследований того, на основе каких принципов должны строиться большие лингвистические ресурсы, пригодные для разнообразных приложений в области компьютерной лингвистики.

Первоначально WordNet создавался как модель человеческой памяти. Многие решения представления описаний слов в WordNet мотивируются психолингвистическими экспериментами. Однако нужно отметить, что WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем у психолингвистов.

Основоположник WordNet Джордж Миллер формулирует основные гипотезы, лежащие в основе разработки WordNet, следующим образом:

В то время была популярной теория семантического компонентного анализа, в которой предполагалось, что значение слова, как и значение предложения, может быть представлено на основе набора семантических примитивов. Однако годы исследований не выявили лучшего набора семантических примитивов, пригодного для использования в ресурсах для обработки естественного языка.

В качестве альтернативы был выбран подход так называемой реляционной семантики, когда значения слов представляются некоторым выражением компонентов, а не на основе описания отношений между значениями разных слов.

Основным отношением в WordNet является отношение синонимии. Наборы синонимов - синсеты - основные структурные элементы WordNet.Ресурс WordNet, разработанный для английского языка, вызвал в мире огромный интерес к разработке такого рода ресурсов для десятков других языков.

Создание ворднетов для разных языков в рамках проекта EuroWordNet включает два этапа. На первом этапе (1996-1999) ворднеты создавались для голландского, испанского и итальянского языков. На втором - для французского, чешского, немецкого и эстонского языков.

Авторы проекта EuroWordNet подчеркивают различие между ресурсом класса wordnet как лингвистическими онтологиями и формальными онтологиями.

Таким образом, ворднеты - это сеть языково-специфичных лексикализованных единиц (в отличие от формальных онтологий, которые представляют собой структуру данных с формально определенными понятиями).

Основные предполагаемые применения ворднетов - это предсказание той или иной возможной замены лексических единиц в тексте для целей информационного поиска, генерации текстов, машинного перевода, разрешения лексической многозначности.

Ключевые термины, связанные с термином : "Тезаурус WordNet":

  1. Идеографический словарь [ru]
  2. Тезаурус [ru]
  3. Тезаурус Роже [ru]
  4. Тезаурус РуТез [ru]
  5. Тезаурус ЮНЕСКО [ru]
Ключевые термины публикации:  Идеографический словарь;   Тезаурус;   Тезаурус Роже;   Тезаурус РуТез;   Тезаурус ЮНЕСКО;
Контекстный поиск: Задайте образец для поиска:
    

|Список терминов| |Терминдер тізімі| |Directory of Terms|
© 2013-2024, Евразийский национальный университет им. Л.Н.Гумилева, Астана
© 2007-2024, Новосибирский государственный университет, Новосибирск
© 1998-2024, Институт вычислительных технологий СО РАН, Новосибирск
© 1998-2024, Федотов А.М.
[FIT]
ФИТ НГУ       НГУ
ЕНУ им.Гумилева
ИВТ СО РАН
    Дата последней модификации: 17.03.2015