Вебометрика
ИПМИ КарНЦ РАН


Введение

Исполнители

Проекты

Публикации исполнителей

События





ОПИСАНИЕ ПРОЕКТА
НАЗВАНИЕ Вебометрические исследования научных интернет-ресурсов российского Интернета

ПОДДЕРЖАН Российским фондом фундаментальных исследований

НОМЕР ПРОЕКТА 08-07-00023-а

СРОКИ ВЫПОЛНЕНИЯ 2008-2010 годы

РУКОВОДИТЕЛЬ ПРОЕКТА А.А. Печников

ФУНДАМЕНТАЛЬНАЯ ПРОБЛЕМА
Теория информации, научные основы информационно-вычислительных систем и сетей, информатизации общества

КОНКРЕТНАЯ ФУНДАМЕНТАЛЬНАЯ ЗАДАЧА
Создание пилотной версии классификатора гиперссылок на основе разрабатываемой базы данных, содержащей вебометрическую информацию о Web-ресурсах научного фрагмента российского Интернета. Пилотная версия классификатора позволит в рамках проекта провести разработки и исследования задач типологии научных сайтов и оптимизационных математических моделей рационального поведения интернет-ресурсов.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2010 ГОД
В 2010 году проводилась следующая работа по проекту:
  1. актуализация БД ВИ РАН; доработка робота LPR с учетом новых обнаруживаемых особенностей сканируемых сайтов; разработка новых таблиц, форм и операций БД ВИ РАН с учетом появления новых потребностей пользователей и/или исследуемых задач;
  2. разработка исследовательского прототипа программы для теоретико-графового моделирования и визуализации результатов исследований связности академического Веба, использующей в качестве исходных данных данные, содержащиеся в БД ВИ РАН;
  3. продолжение работы по классификации гиперссылок; разработка весовой функции «научной близости» сайтов, имеющей своими аргументами количество, тип и уровень гиперссылок, связывающих два заданных сайта; апробация построенной весовой функции на локальном тренировочном множестве сайтов;
  4. постановка и исследование задачи о сильных компонентах связности на взвешенном графе, где в качестве весов дуг использована функция «научной близости»; построение формальной модели так называемых «обусловленных» компонент сильной связности, зависящих от значений весовых функций; визуализация результатов;
  5. исследование связности граф-схемы академического Веба с применением моделей Бордера и их доработка и модификация; расширение исследуемого множества путем включения в целевого множество коллекторов, посредников, индукторов, насыщенной оболочки и т.д.; визуализация результатов;
  6. исследование сайтов ближайших окрестностей академических сайтов; построение формальной модели веб-ресурсов учреждений РАН, представляющей собой иерархический граф с вершиной (официальным сайтом учреждения) с применение теории графов; визуализация результатов;
  7. исследование расширенной задачи ранжирования сайтов (в качестве единиц анализа берется не только официальный сайт, а все множество веб-ресурсов академической организации); апробация модели ранжирования на множестве сайтов академических организаций Северо-запада России, сравнение с результатами ранжирования по ранее предложенной модели;
  8. исследование основных механизмов возникновения гиперссылок в академическом Вебе: административный механизм, механизм профессиональных коммуникаций, механизм опосредованных коммуникаций, механизм «отпочкования» (создания «дочерних» сайтов), другие механизмы;
  9. текущая поддержка сайта проекта, размещение и обновление информации, предоставление свободного доступа к БД ВИ РАН.

Получены следующие результаты:
  1. Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в виде теоретико-множественных отношений. Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.
  2. Математическая модель фрагмента Веба, представляющая собой взвешенный веб-граф с заданной весовой функцией для дуг, основанной на разработанном классификаторе гиперссылок научного Веба.
  3. Адаптированная модель Бродера, показывающая существенное влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для академического фрагмента Веба.
  4. Модель ранжирования веб-сайтов классических университетов России с использованием веб-графа, построенного на множестве веб-сайтов РАН и университетов.
  5. Проблемно-ориентированная информационная система ИС4ВИ - специализированный комплекс программ для вебометрических исследований. Получено Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.
  6. Сайт проекта, постоянно поддерживаемый в актуальном состоянии и предоставляющий информацию о ходе проекта, выступлениях и публикациях (включая презентации) и открытый доступ к информации об исходящих гиперссылках академических веб-сайтов, содержащейся в БД ВИ РАН.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2009 ГОД
В 2009 году проводилась следующая работа по проекту:
  1. анализ содержательного наполнения сайтов целевого множества, добавление новых участников и обоснованное исключение участников;
  2. продолжение сбора информации с сайтов целевого множества и пополнение базы данных вебометрических исследований (БД ВИ РАН);
  3. доработка робота LPR (Link Page Robot) с учетом новых обнаруживаемых особенностей сканируемых сайтов;
  4. разработка новых таблиц, форм и операций БД ВИ РАН с учетом появления новых потребностей пользователей и/или исследуемых задач;
  5. продолжение работы по типологии гиперссылок с использованием данных БД ВИ РАН;
  6. проведение исследований по типологическим характеристикам и рейтинговым оценкам научных сайтов;
  7. постановка и исследование задачи об административных гиперссылках;
  8. постановка и исследование задачи о структуре «внутренних» гиперссылок на множестве научных сайтов;
  9. текущая поддержка сайта проекта, выставление и обновление информации, предоставление свободного доступа к БД ВИ РАН.

Получены следующие результаты:
  1. Уточнено, дополнено и актуализировано целевое множество научных сайтов РАН, содержащее на декабрь 2009 года 288 сайтов (рост по сравнению с декабрем 2008 года на 80 сайтов). Существенно дополнена БД ВИ РАН. Общее количество обработанных html-страниц целевого множества более 1450000, количество гиперссылок в БД ВИ РАН – более 600000, из них уникальных (без повторов) – около 85000. Сформирована информация о гиперссылках, исходящих с наиболее важных сайтов сопутствующего множества (38 сайтов, более 600000 html-страниц, около 110000 уникальных гиперссылок).
  2. Модифицирован и развит программный комплекс «Информационная система для вебометрических исследований» (ИС4ВИ), включающий LPR и БД ВИ РАН, обладающий доработанными и расширенными для целей исследования возможностями (добавлен более 10 новых функций ИС4ВИ).
  3. Разработан классификатор внешних гиперссылок (с учетом мнения экспертной группы), содержащий 34 типа гиперссылок с вербальными описаниями каждого типа и их весовые характеристики «научной значимости».
  4. Построена теоретико-множественная модель фрагмента научного (академического) Веба, представляющая собой целевое множество, 7 подмножеств, составляющих сопутствующее множество и отношения между ними, отражающие связи между сайтами подмножеств и силу этих связей.
  5. Построена древовидная модель административной подчиненности организаций РАН, определены понятия административного каркаса на целевом множестве сайтов и каркасной функции связности SFС (Skeleton Force of Connectivity). Показано, что значения SFС убывают при росте значений уровня подчиненности, но существенно различаются на одном и том же уровне (зависят от типа вышестоящей организации).
  6. Исследована задача о структуре «внутренних» гиперссылок на целевом множестве сайтов в теоретико-графовой постановке. Построена компонента сильной связности, содержащая 175 сайтов.
  7. В актуальном состоянии поддерживается сайт проекта, предоставляющий информацию о ходе проекта и открытый доступ к обновленной БД ВИ РАН.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2008 ГОД
В 2008 году проводилась следующая работа:
  • разработка первой версии базы данных для вебометрических исследований сайтов научных учреждений РАН (БД ВИ РАН),
  • разработка робота-сборщика гиперссылок LPR (Link-Page-Robot),
  • сканирование с помощью LPR более 200 научных сайтов с наполнением БД ВИ РАН,
  • измерения основных вебометрических индикаторов более 200 научных сайтов,
  • разработка сайта проекта,
  • разработка предварительной версии классификатора гиперссылок.

Получены следующие результаты:
  • Разработана принципиальная схема, структуры данных и функциональные модули и реализована первая версия БД ВИ РАН.
  • Разработано оригинальное программное обеспечение - робот-сборщик гиперссылок LPR (Link-Page-Robot), последняя реализация которого учитывает особенности и исключения, полученные в результате апробации на более чем 200 научных сайтах.
  • Сформировано целевое множество исследования, содержащее сведения о 344 сайтах РАН.
  • Проведены измерения основных вебометрических индикаторов для отсканированных сайтов целевого множества.
  • Проведено сканирование 208 сайтов целевого множества, включая официальный сайт Российской академии наук, 13 сайтов региональных отделений и научных центров, 13 сайтов научных центров региональных отделений и 185 сайтов научных учреждений (институтов, центров, музеев, ботанических садов и т.д.). Общее количество обработанных html-страниц более 900000.
  • Разработана и актуализирована БД ВИ РАН (версия – ноябрь 2008 г.), содержащая записи о более чем 64000 уникальных ссылок.
  • Разработан сайт проекта, предоставляющий информацию о ходе проекта, основных результатах и доступ к основным разделам БД ВИ РАН, реализованный в виде интерактивного взаимодействия через запросы к БД.
  • Разработана предварительная версия классификатора гиперссылок, содержащая формализованное описание более 30 типов внешних ссылок.



  Изменено: 11 ноября 2010
При поддержке Российского фонда фундаментальных исследований