|
Система Управления Электронными Библиотеками ФИЦ ИВТСтандартный вид |
О.А.Федотова |
Кластеризация текстовых документов на основе составных ключевых термов
Барахнин Владимир Борисович, Ткачев Д.Н.
Название альтернативное: Clustering of text documents based on composite key terms
UID: 7E291592
Аннотация:
Классический подход к координатному индексированию текстов с целью их последующей кластеризации заключается в использовании средства анализа на основе тезауруса обрабатываемой предметной области. Но если вести речь об обработке корпусов текстов достаточно узких тематик, то в таких случаях требуются весьма подробные тезаурусы, которые имеются (по крайней мере, в широком доступе) далеко не для всех предметных областей. Подход же, основанный на извлечении ключевых выражений без априорных ограничений, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема отбора ключевых термов.
Описание документа:
Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний по сравнению с весьма популярной кластеризацией на основе анализа только однословных ключевых термов, при этом для выделения ключевых словосочетаний используются общедоступные программные средства, не требующие особых вычислительных затрат.
Библиографическое описание
Барахнин В. Б., Ткачев Д. Н., Кластеризация текстовых документов на основе составных ключевых термов // Труды 12й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010. - Казань, Казанского (Приволжского) федерального университета. - 2010. - С. 415-421.
Полный текст публикации
(Размер файла 0.350394 Mb)
Ключевые термины публикации: Координатное индексирование; Тезаурус; Кластеризация;
Ссылки на авторов публикации:|
Ваши коментарии А.М.Федотов |
Сибирское отделение |