ПОДДЕРЖАН Российским фондом фундаментальных исследований
НОМЕР ПРОЕКТА 08-07-00023-а
СРОКИ ВЫПОЛНЕНИЯ 2008-2010 годы
РУКОВОДИТЕЛЬ ПРОЕКТА А.А. Печников
ФУНДАМЕНТАЛЬНАЯ ПРОБЛЕМА
Теория информации, научные основы информационно-вычислительных систем и сетей, информатизации общества
КОНКРЕТНАЯ ФУНДАМЕНТАЛЬНАЯ ЗАДАЧА
Создание пилотной версии классификатора гиперссылок на основе разрабатываемой базы данных, содержащей вебометрическую информацию о Web-ресурсах научного фрагмента российского Интернета. Пилотная версия классификатора позволит в рамках проекта провести разработки и исследования задач типологии научных сайтов и оптимизационных математических моделей рационального поведения интернет-ресурсов.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2010 ГОД
В 2010 году проводилась следующая работа по проекту:
- актуализация БД ВИ РАН; доработка робота LPR с учетом новых обнаруживаемых особенностей сканируемых сайтов; разработка новых таблиц, форм и операций БД ВИ РАН с учетом появления новых потребностей пользователей и/или исследуемых задач;
- разработка исследовательского прототипа программы для теоретико-графового моделирования и визуализации результатов исследований связности академического Веба, использующей в качестве исходных данных данные, содержащиеся в БД ВИ РАН;
- продолжение работы по классификации гиперссылок; разработка весовой функции «научной близости» сайтов, имеющей своими аргументами количество, тип и уровень гиперссылок, связывающих два заданных сайта; апробация построенной весовой функции на локальном тренировочном множестве сайтов;
- постановка и исследование задачи о сильных компонентах связности на взвешенном графе, где в качестве весов дуг использована функция «научной близости»; построение формальной модели так называемых «обусловленных» компонент сильной связности, зависящих от значений весовых функций; визуализация результатов;
- исследование связности граф-схемы академического Веба с применением моделей Бордера и их доработка и модификация; расширение исследуемого множества путем включения в целевого множество коллекторов, посредников, индукторов, насыщенной оболочки и т.д.; визуализация результатов;
- исследование сайтов ближайших окрестностей академических сайтов; построение формальной модели веб-ресурсов учреждений РАН, представляющей собой иерархический граф с вершиной (официальным сайтом учреждения) с применение теории графов; визуализация результатов;
- исследование расширенной задачи ранжирования сайтов (в качестве единиц анализа берется не только официальный сайт, а все множество веб-ресурсов академической организации); апробация модели ранжирования на множестве сайтов академических организаций Северо-запада России, сравнение с результатами ранжирования по ранее предложенной модели;
- исследование основных механизмов возникновения гиперссылок в академическом Вебе: административный механизм, механизм профессиональных коммуникаций, механизм опосредованных коммуникаций, механизм «отпочкования» (создания «дочерних» сайтов), другие механизмы;
- текущая поддержка сайта проекта, размещение и обновление информации, предоставление свободного доступа к БД ВИ РАН.
Получены следующие результаты:
- Концептуальная модель фрагмента Веба для регламентируемого тематического целевого множества, представленная в виде теоретико-множественных отношений. Формальный характер модели обеспечивает возможность определения в её терминах формализованной процедуры построения концептуальной модели фрагмента Веба для заданного регламентируемого тематического целевого множества.
- Математическая модель фрагмента Веба, представляющая собой взвешенный веб-граф с заданной весовой функцией для дуг, основанной на разработанном классификаторе гиперссылок научного Веба.
- Адаптированная модель Бродера, показывающая существенное влияние сайтов-коммуникаторов на увеличение связности сайтов целевого множества для академического фрагмента Веба.
- Модель ранжирования веб-сайтов классических университетов России с использованием веб-графа, построенного на множестве веб-сайтов РАН и университетов.
- Проблемно-ориентированная информационная система ИС4ВИ - специализированный комплекс программ для вебометрических исследований. Получено Свидетельство о государственной регистрации программы для ЭВМ «Информационная система для вебометрических исследований» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2010610941 от 29 января 2010 г.
- Сайт проекта, постоянно поддерживаемый в актуальном состоянии и предоставляющий информацию о ходе проекта, выступлениях и публикациях (включая презентации) и открытый доступ к информации об исходящих гиперссылках академических веб-сайтов, содержащейся в БД ВИ РАН.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2009 ГОД
В 2009 году проводилась следующая работа по проекту:
- анализ содержательного наполнения сайтов целевого множества, добавление новых участников и обоснованное исключение участников;
- продолжение сбора информации с сайтов целевого множества и пополнение базы данных вебометрических исследований (БД ВИ РАН);
- доработка робота LPR (Link Page Robot) с учетом новых обнаруживаемых особенностей сканируемых сайтов;
- разработка новых таблиц, форм и операций БД ВИ РАН с учетом появления новых потребностей пользователей и/или исследуемых задач;
- продолжение работы по типологии гиперссылок с использованием данных БД ВИ РАН;
- проведение исследований по типологическим характеристикам и рейтинговым оценкам научных сайтов;
- постановка и исследование задачи об административных гиперссылках;
- постановка и исследование задачи о структуре «внутренних» гиперссылок на множестве научных сайтов;
- текущая поддержка сайта проекта, выставление и обновление информации, предоставление свободного доступа к БД ВИ РАН.
Получены следующие результаты:
- Уточнено, дополнено и актуализировано целевое множество научных сайтов РАН, содержащее на декабрь 2009 года 288 сайтов (рост по сравнению с декабрем 2008 года на 80 сайтов). Существенно дополнена БД ВИ РАН. Общее количество обработанных html-страниц целевого множества более 1450000, количество гиперссылок в БД ВИ РАН – более 600000, из них уникальных (без повторов) – около 85000. Сформирована информация о гиперссылках, исходящих с наиболее важных сайтов сопутствующего множества (38 сайтов, более 600000 html-страниц, около 110000 уникальных гиперссылок).
- Модифицирован и развит программный комплекс «Информационная система для вебометрических исследований» (ИС4ВИ), включающий LPR и БД ВИ РАН, обладающий доработанными и расширенными для целей исследования возможностями (добавлен более 10 новых функций ИС4ВИ).
- Разработан классификатор внешних гиперссылок (с учетом мнения экспертной группы), содержащий 34 типа гиперссылок с вербальными описаниями каждого типа и их весовые характеристики «научной значимости».
- Построена теоретико-множественная модель фрагмента научного (академического) Веба, представляющая собой целевое множество, 7 подмножеств, составляющих сопутствующее множество и отношения между ними, отражающие связи между сайтами подмножеств и силу этих связей.
- Построена древовидная модель административной подчиненности организаций РАН, определены понятия административного каркаса на целевом множестве сайтов и каркасной функции связности SFС (Skeleton Force of Connectivity). Показано, что значения SFС убывают при росте значений уровня подчиненности, но существенно различаются на одном и том же уровне (зависят от типа вышестоящей организации).
- Исследована задача о структуре «внутренних» гиперссылок на целевом множестве сайтов в теоретико-графовой постановке. Построена компонента сильной связности, содержащая 175 сайтов.
- В актуальном состоянии поддерживается сайт проекта, предоставляющий информацию о ходе проекта и открытый доступ к обновленной БД ВИ РАН.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ЗА 2008 ГОД
В 2008 году проводилась следующая работа:
- разработка первой версии базы данных для вебометрических исследований сайтов научных учреждений РАН (БД ВИ РАН),
- разработка робота-сборщика гиперссылок LPR (Link-Page-Robot),
- сканирование с помощью LPR более 200 научных сайтов с наполнением БД ВИ РАН,
- измерения основных вебометрических индикаторов более 200 научных сайтов,
- разработка сайта проекта,
- разработка предварительной версии классификатора гиперссылок.
Получены следующие результаты:
- Разработана принципиальная схема, структуры данных и функциональные модули и реализована первая версия БД ВИ РАН.
- Разработано оригинальное программное обеспечение - робот-сборщик гиперссылок LPR (Link-Page-Robot), последняя реализация которого учитывает особенности и исключения, полученные в результате апробации на более чем 200 научных сайтах.
- Сформировано целевое множество исследования, содержащее сведения о 344 сайтах РАН.
- Проведены измерения основных вебометрических индикаторов для отсканированных сайтов целевого множества.
- Проведено сканирование 208 сайтов целевого множества, включая официальный сайт Российской академии наук, 13 сайтов региональных отделений и научных центров, 13 сайтов научных центров региональных отделений и 185 сайтов научных учреждений (институтов, центров, музеев, ботанических садов и т.д.). Общее количество обработанных html-страниц более 900000.
- Разработана и актуализирована БД ВИ РАН (версия – ноябрь 2008 г.), содержащая записи о более чем 64000 уникальных ссылок.
- Разработан сайт проекта, предоставляющий информацию о ходе проекта, основных результатах и доступ к основным разделам БД ВИ РАН, реализованный в виде интерактивного взаимодействия через запросы к БД.
- Разработана предварительная версия классификатора гиперссылок, содержащая формализованное описание более 30 типов внешних ссылок.