Система Управления Электронными Библиотеками ФИЦ ИВТ

Стандартный вид

Коллекция: «Документы и публикации в Цифровой Библиотеке» (publications)

Раздел: 2. Статьи. Подраздел: 22. Статья в периодическом издании.

[all] О задании меры сходства для кластеризации текстовых документов
Барахнин Владимир Борисович, Нехаева В.А., Федотов Анатолий Михайлович

Институт вычислительных технологий СО РАН
Новосибирский государственный университет

Название альтернативное: Similarity Determination for Textual Documents Clusterization
UID: 164A2BCF

ISSN: 1818-7900
УДК: :340.11(3):

Аннотация:

В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которыемогут представлять интерес для конкретного ученого- исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описаниядокументов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычислениямеры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы.В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а так-же новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (такназываемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи являетсяFRiS- алгоритм, хотя приемлемые результаты дает и жадный алгоритм.

Abstract:

The problem of computerized selection of textual documents on scientific subjects is solved that could be of interestfor an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) areproposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculatingthe similarity measure are determined by the assumed a posteriori reliability of the respective scale data.Three classical document clusterization methods have been analysed in order to find the ones potentially feasible forthe solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity,clusterization by Rocchio method and the method based on the so- called greed algorithm as well as the new methodsuggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS- function). Testingshowed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yieldsacceptable results.

Библиографическое описание
Барахнин В. Б., Нехаева В. А., Федотов А. М., О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Серия: Информационные технологии. - 2008. - Том 6, - Выпуск № 1. - С. 3 - 9. - ISSN 1818-7900.
Полный текст публикации (Размер файла 0.434881 Mb)

Ключевые термины публикации: мера сходства; кластеризация текстовых документов;

Ссылки на авторов публикации:
Барахнин Владимир Борисович
Нехаева В.А.
Федотов Анатолий Михайлович
Ссылка на репозиторий DSpace: О задании меры сходства для кластеризации текстовых документов

|Электронная библиотека|

Ваши коментарии
А.М.Федотов

Сибирское отделение

© 2000-2024, Институт вычислительных технологий СО РАН, Новосибирск
© 1999-2024, Сибирское отделение Российской академии наук
© 2007-2024, Новосибирский государственный университет, Новосибирск
© 1996-2024, Федотов А.М.
Последнее обновление: 26.07.2017