Жукова Т.И.

 

 

На пути к объединению интеллектуальных ресурсов мира. 

   Современный этап развития архивов социологических данных

 

            Статья обобщает мировой опыт по созданию объединенных межгосударственных архивов данных, а также анализирует современную российскую реальность в области организации цивилизованных форм хранения и распространения научных социологических данных. В ней приводится разработанный автором Интернет-навигатор по Web-адресам основных национальных социологических архивов, международных организаций и проектов, снабженный информацией относительно деятельности и особенностей каждого из них, а также краткое толкование основных содержательных понятий и расшифровку тематических аббревиатур.

 

 

 

 

1. Введение

            Новое время предъявляет новые требования к стандартам и масштабам научных исследований. В области социологического знания это связано, прежде всего,  с существенным прогрессом в совершенствовании методов и инструментов анализа данных, а также с бурным развитием современных технологий доступа к  уже накопленным эмпирическим информационным массивам. В настоящее время большинство исследователей в мире получают информацию из архивов данных - специально организованных учреждений, предназначенных для их сбора, хранения и распространения, обеспечивающих высокое качество,  научное обоснование, сопоставимость  информационных массивов, а также возможность проведения сопоставительного анализа в динамике. Более того, в развитых странах перешли к предпочтительной практике вторичного использования уже собранных первичных материалов, так как проведение реального эксперимента довольно затруднительно и требует значительных финансовых и трудовых затрат [1].

Возможность локального доступа к глобальным интеллектуальным ресурсам порождает практически неограниченную свободу в выборе предмета и объекта исследования, а современный уровень развития компьютерных технологий и, в том числе, методов хранения и обработки данных обеспечивает максимальную степень глубины и точности интерпретации полученных результатов. Кроме того,  массивы социологических данных, доступных через централизованные архивы, являются необычайно ценным рынком информации в процессе обучения студентов и специалистов на базе высококачественных данных,  являющихся эталоном для их собственной работы.

В настоящее время процесс создания архивных учреждений уже перешагнул национальные рамки. В течение двух последних десятилетий национальные архивные учреждения проявили тенденцию к сотрудничеству в регионах, где существуют общие интересы. Очевидной стала такая идея, что там, где возможно, следует распределять совпадающие задачи между архивами. За последнее время  было инициировано несколько международных проектов, направленных на сокращение барьеров между пользователями социологической информацией и массивами эмпирических данных, уменьшение непроизводительных затрат, направленных на поиск, оценку, отбор массивов данных, адекватных поставленной задаче. В развитых странах – членах Совета Европейских Архивов Данных для Социальной Науки (Council of European Social Science Data Archives (CESSDA) приоритетное развитие получило направление, связанное с организацией объединенных межнациональных архивов данных, нацеленных на предоставление прямого доступа к интеллектуальным ресурсам различных стран [2,3].

Среди них можно назвать программу NESSTAR  Cетевые инструментальные средства и ресурсы для социальной науки»), созданную международным консорциумом архивов данных,  которая является инфраструктурой для распространения данных через Internet;  исследовательскую программу MOST, проводимую под эгидой ЮНЕСКО, предназначенную для того, чтобы поддержать  международные сравнительные социологические исследования; TransMONEE - публичную версию массива экономических и социальных индикаторов для Центральной, Западной Европы и  стран Содружества Независимых государств, и другие.

Хорошим примером объединения интеллектуальных ресурсов различных европейских организаций для творческого создания новейших грандиозных приложений и потому  демонстрирующим преимущества процессов интеграции внутри Европы в области информационного обеспечения социологических и других научных исследований является программа NESSTAR. Объединённые усилия трех сильных национальных архивов данных доказали, что цель быстрого и целенаправленного доступа к информации с использованием сети Интернет, может быть достигнута гораздо быстрее и эффективнее на основе использования объединенных интеллектуальных и статистических ресурсов.

2.  Программа NESSTAR

            Проект NESSTAR (Networked European Social Science Tools and Resources) -  был инициирован Европейским Союзом в  рамках программы информационного инжиниринга как совместные проект Архива данных Великобритании,  норвежских служб социологических данных и Архива данных Дании.  Работа осуществлялась в течение трех лет в 1998-2000г,  в июле 2001 года  в Интернете появилась его полностью оформленная версия. Авторы назвали проект «инфраструктурой для распространения данных через Интернет». Его основная  цель формулировалась как предоставление  лидирующим архивам социологических данных и их партнерам возможности пользоваться радикально продвинутыми интерактивными услугами, которые могут позволить:

Программное обеспечение проекта NESSTAR  разработано в виде распределенной информационной модели, где массивы данных сохраняются и поддерживаются как отдельные самостоятельные единицы повсюду в Европе. Таким образом, собственники данных и архивные учреждения могут гарантировать максимальное внимание к поддержанию   информации     в надлежащем и актуальном состоянии, а также высокую степень их  достоверности. В то же время, для конечных пользователей различные массивы выступают как элементы полностью интегрированного архива данных. Следовательно, проект NESSTAR  можно считать виртуальной библиотекой данных, предоставляющей глобальный доступ к локально расположенным информационным массивам [4].

Мультимедийное приложение проекта NESSTAR позволило создать независимую информационную систему для социальных наук, которая дает возможность исследователям  идентифицировать и обнаруживать соответствующую  информацию среди всех социологических архивов Европы. Это приложение вовлекает интерактивно существующие каталоги данных в интегрированную распределенную сеть баз данных, комбинируя хорошо зарекомендовавшие себя компьютерные технологии для того, чтобы достичь желаемых функциональных возможностей. На нынешнем этапе полностью интегрированы каталоги только трех упомянутых стран (Великобритании, Норвегии, Дании), правда существуют дополнительные механизмы, позволяющие достать информацию из архивов, которые попали на интерактивную карту мира. Позже  предполагается объединение всех европейских архивов данных в единый каталог, что решит грандиозную задачу локального доступа к мировым интеллектуальным ресурсам.

2.1. Идеальный сценарий  «the dream machine»

Прежде чем начать конкретную разработку структуры и математического обеспечения программы авторы провели серьезные исследования относительно того, кто будет являться конечным пользователем их программы, имея в виду тот факт, что максимальное удовлетворение их требований сможет обеспечить максимальный успех произведенного продукта [5].

Потенциальная пользовательская среда проекта NESSTAR может быть  подразделена на две больших категории: распространители данных и  их  конечные пользователи.

А. Распространители или издатели данных,  могут быть, в свою очередь,  разделены на следующие подкатегории:

             Правительственные организации  являются главными  распространителями  статистических данных в обществе, и в последние годы наблюдается тенденция стремительного увеличения количества и существенное улучшение качества доступной информации благодаря организации целой сети национальных статистических институтов (NSI). Местные и  региональные правительства стали делать существенные вложения капитала в инфраструктуру Интернет, что сделало возможным тиражирование локальной информации на более высокий уровень, и, в свою очередь, получение подобной информации из соседних регионов для проведения сопоставительного анализа. 

 Информационный частный сектор вырос очень быстро, особенно в области тех технологий,  которые обеспечивают  специалистов данными относительно таких характеристик развития рынков и экономики в целом, как рыночные цены, состояние запасов и  фондового рынка,  поведения главных конкурентов.  Однако возрастает также понимание важности принятия  ответственных решений в области накопления и хранения данных долгосрочного значения.  Удачными примерами в этой области являются, например,  базы данных проведенных экспертиз  лекарственных средств и исторические массивы опросов общественного мнения по разным темам. Хорошо структурированная  и задокументированная информация является очень ценным и  востребованным ресурсом, если механизм ее нахождения и получения достаточно эффективен и прост.

Академический сектор в большой степени задействован для осуществления качественных научных исследований, текущих или долгосрочных,  основанных на эмпирических данных. В последнее время особенно выявились огромные преимущества использования  подобного материала в качестве уникального накопленного интеллектуального опыта для осуществления образовательного процесса в высших и средних учебных заведениях. Именно в академической, конкретно, в университетской среде, зародились архивы данных для социальных, исторических и медицинских наук, полностью контролирующие  сохранность, накопление и актуализацию массивов данных. Независимо от того, где они располагались, в библиотеках, индивидуальных архивах или исследовательских центрах, но соблюдалось одно главное требование - широкого, своевременного  и легкодоступного распространения информации в среде вторичных аналитиков-ученых, которые не были вовлечены в процесс производства массивов данных и их первичной обработки, и которые вследствие этого нуждались в доступе к добротной и исчерпывающей сопроводительной документации.

Б. Вторая и главная категория пользователей - конечные пользователи - является более однородной, но может быть сгруппирована согласно производимым им функциям:

 Политические деятели, являясь  внутренними пользователями государственных статистических служб, часто  в процессе местного и муниципального планирования нуждаются в доступе к более широкому набору данных из самых разнообразных источников. Единственное требование  к этим источникам – чтобы они предоставляли быстрый и эффективный доступ к хорошо задокументированным и унифицированным информационным массивам, гарантирующим высокую достоверность и достаточную  сравнимость для того, чтобы они могли служить основой для принятия важных политических и экономических решений.

Следующая группа, исследователи, находится значительно дальше от выработки рекомендаций в высоких сферах,  но имеет подобные же требования. Обычно ученые стремятся осуществлять качественные научные исследования, основываясь на нескольких статистических источниках, чтобы иметь возможность выбрать наиболее адекватный поставленным задачам массив эмпирических данных.  Поэтому для них является очень важным обладать продвинутым инструментальным средством поиска, обнаружения и получения информации.

Случайный пользователь из широкой публики вряд ли имеет в своем распоряжении мощный современный компьютер и поэтому вряд ли будет заинтересован в получении доступа к сопроводительной и сопоставительной информации. Следовательно, ему нужна система с доступной для неспециалиста диалоговой инфраструктурой и хорошо структурированная информация о стране, местности или любимых темах.

Как видно из проведенного выше анализа, несмотря на свою разнородность, все эти группы пользователей выдвигают определенный набор требований, который  они могли бы предъявить к некой «идеальной машине», обеспечивающей их диалог с хранилищами информационных массивов и служащей некоторой  технологической средой, которая могла бы повысить их собственные  возможности.

 Эти требования можно сформулировать в виде существование следующих обобщенных условий:

·        Все существующие эмпирические данные доступны в интерактивном режиме;

·        Существует интегрированный механизм обнаружения необходимого  ресурса и система поиска, которая могла бы помогать идентифицировать и располагать эти ресурсы;

·        Обширные количества доступных метаданных (мультимедийных, снабженных гиперсвязями и полностью интегрированными  с данными как таковыми);

·        Возможность  просматривать, осуществлять несложный анализ и графически представлять  данные в интерактивном режиме;

·        Способность конвертировать данные в один из ряда форматов и копировать, вместе  с метаданными, на персональный компьютер пользователя;

·        Существование «активных поисковых агентов»,  которые постоянно снуют поперек системы и информируют пользователя, когда новые материалы, соответствующие их интересам, становятся доступными;

·        Наличие  эффективных гиперсвязей между источниками данных и всеми научными  публикациями, когда-либо написанными  на их основе;

·        Существование эффективной системы обратных связей к массиву метаданных, позволяющих исследователю добавить добытую в процессе анализа  информацию о состоянии и качестве конкретных наборов данных к коллективной памяти о нем.

Целью проекта NESSTAR было реализовать как можно большее количество вышеперечисленных требований и приблизить пользователей  к реализации их «мечты». 

Конечно, проект NESSTAR не подразумевает, что все данные доступны в интерактивном режиме, но многие – доступны. Контроль на доступе в большинстве случаев устанавливается по требованию собственников информации, которые в основном исходят из коммерческих  интересов и условий конфиденциальности.

2.2. Метаданные – основное средство коммуникации в проекте

В терминах вышеперечисленных требований со стороны конечных пользователей схема внедрения программы  NESSTAR в более широкую среду манипулирования данными выглядит, как показано на рис. 1.

В соответствии со схемой, система NESSTAR разработана таким образом, чтобы адекватно вписаться в технологическое окружение входных и выходных потоков данных. Система устроена так, что, используя входные потоки из целого ряда источников, она связывается с многочисленными услугами поддержки, а затем с более широкой средой управления данными. Эта интеграция достигнута благодаря специальному вниманию, которое авторы проекта уделили процессам стандартизации в системе, а этого удалось достичь благодаря важной роли такого информационного потока, как  метаданные [6].

            Компьютерные архивы предоставляют уникальные возможности для сбора, хранения и распространения метаданных. Метаданные - данные относительно данных -  представляют собой  информацию, которая позволяет более эффективно и целенаправленно  использовать имеющиеся наборы данных. В процессе работы исследователи проявляют стремление добраться до существа предложенных им массивов. Глубинные исследования с использованием одиночных блоков данных приводят к накапливанию знаний об их характеристиках (например, об их преимуществах, недостатках, потенциальных аналитических ловушках). Возвращение вновь полученных сведений в архив, из которого были извлечены данные,  пополняет информацию на более высоком уровне обобщения об этом конкретном ресурсе, генерируя, таким образом, очень важный массив – массив метаданных.

 

Рис.1. Схема прохождения информационных потоков через NESSTAR.

 

Становясь частью информационной базы, метаинформация, обогащающая хранящиеся в архиве данные,  защищена во временном отношении и остается доступной  для последующих исследователей.

Очевидно, что без хороших метаданных эмпирические исследования, основанные на информационных массивах, собранных другими авторами,  становятся «игрой предположений». Информационные ресурсы будут представляться конечным пользователям как более или менее бессмысленные собрания статистических конструкций. Обращение к массиву  метаданных как бы встраивает пользователя в процесс исследования, делая его непосредственным участником  всех  этапов и позволяя ему заново формулировать гипотезы и проверять альтернативные возможности на тех же самых данных.

Хорошие метаданные становятся обязательным фактором и начальным условием для расположения статистического массива в независимом архиве данных (тем более, если имеется в виду архив данных, предназначенный для использования во всем мире), так как только они могут стать основой для структурирования характеристик исследования. Без них идеалистическая цель – возможность использовать в исследованиях некоторые комбинации из различных наборов данных, так и останется идеалистической.

Авторский коллектив NESSTAR придал самый высокий приоритет содержательным разработкам, связанным с развитием инструментов и математического обеспечения для поддержки массивов метаданных в проекте NESSTAR,  учитывая четыре основные фактора:

Из этих четырех причин следует, что расстояние между конечными пользователями статистического материала  и его создателями бывает очень значительным, и незадокументированный и неформальный информационный массив может увести вторичного аналитика далеко от целей исследования, не давая гарантии  достоверности полученных результатов. Поэтому единственное, на что может положиться исследователь при определении информационного поля, это исчерпывающий, легкодоступный и структурированный массив метаданных.

Можно даже усилить эту мысль и сказать, что данные в социальной науке становятся общедоступными только благодаря метаданным. Они обеспечивают «мосты» между производителями данных и их пользователями и передают информацию, которая является существенной для вторичных аналитиков.

            Метаданные  также являются отправной точкой для  любой системы обнаружения ресурса.  Академические пользователи  часто ищут массивы данных, соответствующие их задаче, которые могли бы использоваться, чтобы пролить свет на тему их исследования, при доказательстве теории или проверке гипотезы. И хотя основная структура каталогов устроена так, что  дает представление об общем содержании источников данных, необходима дополнительная, более точная и научная информация для проведения процесса обнаружения данных, тем более что объем массивов объединенных каталогов данных умопомрачительно велик, и, осуществляя поиск по нескольким общим параметрам, можно получить лавину информации, необъятную с точки зрения выбора одного единственного адекватного массива. 

Очевидно, что детальная информация, подходящая рассматриваемому случаю, должна включать в себя такие показатели, такие объективные характеристики, как, например: время и место проведения исследования, состав авторского коллектива, формулировка основных концепций и гипотез, заложенных в основу исследования, методика и характер сбора данных, характеристики выборки, расчетные показатели, результаты исследований и т.п.

            Существует еще один фактор, который нельзя не упомянуть - это потенциальная роль метаданных в качестве некоего моста между данными, пользователями и интеллектуальной продукцией пользователей. С помощью ссылок и гиперсвязей, отсылающих к сообщениям и научным исследованиям,  написанным на основе данных, а также с помощью отдельных механизмов, связывающих пользователей с конкретными организациями, ответственными за научный результат, метаданные  становятся важным средством коммуникации и узлом связи в процессе накопления знания.

 Слишком часто набор данных или публикация таблицы становится конечной точкой в процессе производства и анализа статистической информации. Поэтому включение вторичных исследований в этот процесс, ставший возможным благодаря более тщательной разработке массивов метаданных,  кажется весьма значительным и разумным достижением.

2.3. Технологии и стандарты

Для того чтобы в машинном виде воплотить все разумные замыслы содержательных разработчиков, пришлось вводить некоторые усовершенствования в технологическое устройство информационной системы. Для достижения статистической и исследовательской общности, а также для гарантирования единообразия во всех элементах системы были применены следующие стандарты и технологии.

            DDI  - стандарт метаданных

На протяжении нескольких последних лет было предпринято много инициатив в направлении  создания унифицированных  стандартов  метаданных. Однако ни одна из них не достигла того уровня приемлемости, который необходим, чтобы стать единственным эталоном стандарта. Большинство социальных архивов данных документировало свои информационные  запасы согласно стандартному описанию исследования, принятому  в середине 70-х годов  международным Комитетом архивов данных. К сожалению, с тех пор развилось  много локальных "диалектов" этого стандарта, и архивы  адаптировали свои  запасы метаданных к требованиям  различных пользователей и поисковых систем. Следствием этого немедленно стало существенное снижение уровня стандартизации и потому невозможность осуществления интегративных процессов.

            Чтобы улучшать эту ситуацию в 1995 году под эгидой Межуниверситетского Консорциума по политическим и социальным исследованиям был создан  новый международный комитет - Инициатива Документации Данных - the Data Documentation Initiative (DDI), членами которого стали специалисты социальных архивов данных и гуманитарных библиотек США, Канады, Европы, а также из большинства организаций – производителей данных в этих странах, таких как  Бюро Переписи США,  Бюро трудовой статистики США, Комитете по статистике Канады и т.п.

Первоначально  основная цель DDI состояла в том, чтобы заменить устаревший формат описания OSIRIS  на более современный формат. Однако, по мере осуществления проекта, амбиции разработчиков стали намного большими. Стало возможным рассматривать подобный формат  как потенциально структурирующий массив метаданных и тем самым организующий весь  процесс накопления, распределения и  анализа данных  внутри социальных и поведенческих наук. Дополнив этот процесс разработкой специального языка программирования XML DDI, авторы  обеспечили своего рода некоторый "клей", который позволяет объединить различные стадии этого процесса.

В 1999 году согласованный проект разработанного DDI-стандарта был подвергнут интенсивной экспертизе тринадцатью организациями по обе стороны Атлантики.

Эта деятельность подразумевала производство структурированных массивов метаданных для разных типов данных, разработку программного обеспечения для введения новых стандартов  уже существующих источников, сравнение DDI-стандарта с другими стандартами, функционирующими в системе. В конечном итоге, этот стандарт был одобрен участниками комитета и принят к использованию совместно с его подробным описанием в руководстве для пользователей.

            Стандарт DDI декларирует обязательные элементы, из которых должен состоять документ, сопровождающий данные, характеристики этих элементов, а также их функциональные взаимосвязи между собой.

Иерархически элементы организованы в виде структуры логического дерева. Основными разделами стандарта являются следующие:

1.  Описание документа, которое характеризует не только сам документ с метаданными, но и источники, на основании которых метаданные были разработаны (этот раздел может таким образом рассматриваться как своего рода метаданные для метаданных).

2. Описание исследования,  которое содержит подробную информацию относительно исследования и  сбора данных (содержание, методы сбора информации, обработка данных,  источники, условия доступа и т.д.).

3. Описание файла, которое описывает каждый отдельный файл  данных (форматы, размерности, пакеты обработки информации, информация о пропущенных данных и т.п.)

4. Описание переменных, которое описывает каждую отдельную переменную в файле данных (формат, название переменной и ее метки, определения и т.п.).

5. Другие связанные материалы, которые могут содержать ссылки на сообщения, публикации и  другую машиночитаемую документацию,  которая может пригодиться пользователям данных.

                   XML – стандарт синтаксиса

Наиболее значительным развитием семантики  Всемирной сети WWW, сети, которая  обеспечивает специализированные структуры и информацию для различных сообществ,  является создание XML-синтаксиса (eXtensible Markup Language). Этот язык  дает возможность разработчику создавать свои  собственные шаблоны и формализованные структуры, что в свою очередь позволяет ученым работать только в содержательном контексте, не беспокоясь относительно стандартизации и возможности взаимодействия.   За несколько последних лет потенциал качественного совершенствования существующих Web-технологий заметно исчерпался из-за сдерживающего влияния, которое стали  оказывать слабые стороны языка HTML - основного выразительного и структурообразующего средства гипермедийных информационных ресурсов Web. Эти слабые стороны заключаются, прежде всего, в закрытом характере языка HTML, в невозможности расширения его функциональности самим пользователем, а также в отсутствии поддержки метаданных, которые могли бы описывать структурные и семантические свойства документов.

 Магистральное направление развития Web-технологий в последнее время связано с новым расширяемым языком разметки XML.

В 1996 году рабочая группа под эгидой Консорциума Всемирной Паутины выпустила первый рабочий проект языка XML, который был предназначен стать господствующей технологией для включения исследователей в область широких функциональных возможностей, которые предоставляет Интернет. Язык XML представляет собой удобное для реализации подмножество стандартизованного  языка SGM, который в отличие от своего предшественника - языка HTML,  является "открытым". В нем не фиксируется множество ярлыков, используемых для разметки документов. Создатель XML-документа или набора документов может сам конструировать необходимое  ему множество, определяя его с помощью метасредств языка XML - набора синтаксических конструкций, называемых декларациями разметки (Markup Declaration). Язык XML позволяет описывать логическую структуру документов в терминах составляющих их элементов; такие описания - Document Type Definition (DTD) могут поддерживаться в глобальной среде независимо от экземпляров XML-документов и могут унифицироваться в интересах различных сообществ пользователей. Благодаря этому можно создавать новые языки разметки, адекватные потребностям различных сфер применения.

Таким образом, социальная наука сможет в полной мере обладать всеми информационными средствами, которые предоставляются новейшими компьютерными технологиями, существенно облегчая поведение исследователей и расширяя круг методов, приводящих к более точным и предсказуемым результатам.

Предполагается, что с помощью  языка XML и стандартной структуры метаданных  DDI появятся новые возможности  осуществления сравнительного и другого научного исследования, основанного на привлечении многочисленных  наборов данных, что является  возрастающей тенденцией  в социальных и поведенческих науках. Пользователи смогут приспосабливать сложные наборы данных к статистическим пакетам SPSS, SAS, STATA через DDI-кодировку. Информация, доступная программному обеспечению через  DDI,  будет намного более богатая и полная, чем когда она обеспечивалась специальными средствами этих статистических пакетов, к тому же сам процесс  импортирования данных в диалоговое сетевое использование будет намного ускорен.

 Таким образом, становится очевидным, что разработка XML-языка и DDI-стандарта является полезным приложением не только для производителей данных и организаторов массивов, но также и для пользователей данными,  которые получают в распоряжение новые инструменты для  более успешного и эффективного  осуществления  своей деятельности.

            JAVA – стандарт языка программирования

Много усовершенствований сделано благодаря технологиям языка программирования JAVA, который является объектно-ориентированным, машинно-независимым, распределенным и интерпретируемым языком, синтаксически схожим с языком программирования С++ и предназначенным как для создания самостоятельных приложений, так и для разработки приложений в Internet. Приложения JAVA могут выполняться на различных аппаратных платформах (PC, SUN) и в различных операционных средах (Windows 3.x, Windows NT, Windows 95, Solaris), работающих в Internet. Язык JAVA в последнее время становится в определенном смысле стандартом языка программирования для Internet и интерпретатор JAVA теперь стал неотъемлемой частью наиболее популярного Web-броузера Netscape Navigator.

Основным преимуществом этого языка, с точки зрения конечного пользователя, является тот факт, что  можно передавать JAVA-программу и не заботиться при этом о модели и внутреннем устройстве принимающего компьютера. Используя возможности языка JAVA, удалось создать более гибкую конфигурацию с широкими возможностями интерфейсной среды для пользователей.

Все вместе, вышеописанные технологии и стандарты  привели к тому, что разработчики системы NESSTAR почти не были ограничены техническими характеристиками в своей работе и могли сосредоточиться на воплощении в жизнь требований как пользователей данных, так и их распространителей. 

2.4. Основные элементы программы NESSTAR

Программное обеспечение проекта NESSTAR существует в виде трех основных  элементов: NESSTAR Explorer (Проводник),  NESSTAR Publisher (Издатель) и NESSTAR Protocol (Протокол). Каждый из этих элементов  может использоваться независимо друг от друга, хотя логически имеет смысл использовать их в общей связке, чтобы эксплуатировать  максимальные возможности проекта.

NESSTAR Проводник (Explorer)

Проводник – оригинальный программный продукт системы, который функционирует на рабочем столе пользователя и взаимодействует с данными, содержащимися на сервере. Проводник предлагает пользователю комфортный интерфейс (диалоговую систему)  для поиска, анализа и загрузки данных и сопровождающей документации. Этот элемент программы позволяет пользователю находить данные, содержащиеся на целом ряде серверов, используя поисковые запросы по любой части DDI-структуры.

В начале работы с проводником открываются возможности работы с каталогами Архива Данных Великобритании, Службы Данных для социальных наук Норвегии и Архива Данных Дании, причем, если возникает необходимость обратиться в какие-либо другие архивы Европы (естественно из тех, кто интегрирован в единую систему), NESSTAR предоставляет и такие возможности. 

            Что касается доступа к данным, то, как уже говорилось выше, в некоторых случаях устанавливаются ограничения исключительно собственником данных, однако вся описательная документация и большинство метаданных к такой информации, обычно находится в открытом неограниченном доступе.

            NESSTAR-проводник имеет три основные функциональные стадии.

Во-первых, имеется экран непосредственно поиска, разделенный на три уровня сложности. Проводник NESSTAR обеспечивает три вида поиска данных в системе: простой поиск, поиск по полям и продвинутый поиск. Простой поиск, это обычный поиск по ключевым словам среди сопровождающих данные документов (в названии, аннотации и т.д.); можно сузить свой поиск, перечислив список интересующих полей – переменных. Продвинутый поиск доступен специалистам или пользователям, не первый раз участвующим в процессе поиска, и заключается в более точном формулировании предмета поиска (например, с названиями переменных или их метками).

Во-вторых, имеется экран результатов, в котором наборы данных могут быть перечислены и сортироваться на основе некоторых из метаданных. Найденные системой массивы данных высвечиваются на экране в виде названия и короткой аннотации, которая обычно состоит из двух частей – описания исследования и описания переменных. Как только набор данных был идентифицирован, тогда пользователь может решать,  исследовать ли их  далее или загружать массив данных на индивидуальный компьютер.

Третья стадия наиболее сложна и дает возможность пользователю исследовать полный набор данных и, где возможно, сопроводительный набор данных одновременно.

Для того, чтобы из нескольких массивов выбрать наиболее  подходящий,  система NESSTAR предлагает некоторый набор инструментов, помогающий провести их сопоставление, например, выисление  частотных распределений, перекрестных таблиц,  регрессий, построение графиков и диаграмм. После проведения перечисленных операций пользователь может загрузить выбранный набор данных в одном из форматов, которые предоставляются наиболее популярными программными статистическими пакетами, такими как SPSS, Statistica, NSDstat, Data interchange format (DIF).

NESSTAR Издатель (Publisher)

Ядро NESSTAR Publisher (программного  обеспечения сервера) выполнено в технологии  Java, но интегрирует одну третью часть компонентов,  написанных на других языках (C и C++). В настоящее время функционирует  на платформе Windows NT, однако  переносится и на другие платформы.

            Схематично архитектуру сервера NESSTAR можно представить в виде трехуровневого дерева, на вершине которого – клиенты, средний уровень поддерживает основные услуги на сервере, а нижний уровень обеспечивает доступ к данным, метаданным и информации относительно пользователей.

Службы передачи сообщений эффективно работают как «брокеры» между NESSTAR Проводниками и различными услугами обработки. Они получают все запросы от Проводников и отправляют их к соответствующим внешним или внутренним услугам.

Они также собирают результаты, часто   объединяя из мелких частей из разных источников, и возвращают конечный результат обратно на NESSTAR  Проводники.

            Как уже упоминалось выше, большинство данных в системе подвергнуто различного сорта ограничениям.  Наборы ограничений отличаются в различных архивах и в зависимости от характеристик пользователей. Например, в то время как  набор данных может  быть свободно доступен для академического использования в Норвегии, в Великобритании для использования того же самого набора данных, может потребоваться  специальное соглашение. Учитывая такие тонкие и сложные моменты, механизм управления доступом можно назвать критическим компонентом во всей системе NESSTAR. Если предоставить слишком свободный доступ, можно разочаровать собственников данных и даже нарушить критические ограничения конфиденциальности. С другой стороны, при наличии слишком строгих ограничений можно отпугнуть множество потенциальных пользователей, и тем самым не выполнить самую главную задачу – предоставить самый широкий доступ к интеллектуальным ресурсам Европы.

Для того чтобы учесть эти сложные идеологические разногласия, разработана  специальная опознавательная и разрешающая система, которая призвана предотвратить несанкционированное использование данных и послать пользователю уведомление о необходимых действиях, которые потребуется предпринять для получения доступа к определенным источникам данных  (например, заполнить в интерактивном режиме некоторую форму, принять условия конфиденциальности, зарегистрироваться  и т.п.)

Целью создания такой системы было сделать  данные легко доступными, насколько возможно, в пределах некоторых ограничений, заявленных собственниками,  и минимизировать бремя, которое накладывается на пользователей. Система управления доступом состоит из принимающего  решения администратора, архива, содержащего строгие описание условий и правил доступа, и базы данных пользователей, содержащей информацию относительно пользователей и их прав.

Учитывая сложность и важность вопроса, текущая система управления доступом может считаться лишь её первой версией, развитие которой будет, несомненно, продолжено   даже после окончания работы над проектом.

NESSTAR Протокол (Protocol)

Все распределенные системы основаны на некоторых микропрограммных средствах - на таком наборе правил и предположений, которые диктуют, каким образом  информация должна функционировать в рамках различных элементов системы. В первоначальной версии проекта   NESSTAR планировалось, что все микропрограммные средства будут базироваться на системе CORBA, однако ее пришлось заменить, главным образом, по требованию сетевых устройств защиты.

Поскольку, как и NESSTAR Explorer, так и  NESSTAR Publishers можно размещать позади сетевых устройств защиты (с самыми разными неизвестными механизмами и типами конфигураций), система требует протокола, который позволил бы избежать этой неоднородности. Было решено следовать за последними  предложениями осуществлять взаимосвязь с помощью XML-сообщений, а сам  переговорный протокол вести в терминах гипертекстового транспортного протокола HTTP.  Преимущества этого нового подхода очевидны:

И хотя был предложен целый ряд  систем передачи сообщений XML, единого стандарта все же не появилось. Поэтому в проекте был разработан специальный протокол. Однако, поскольку система непосредственно не выдвигает особых требований относительно протокола, за исключением того, что он должен надежно и достоверно доставлять сообщения, было решено просто модифицировать существующий, используя хорошо зарекомендовавшие себя микропрограммные средства типа CORBA. NESSTAR-протокол отдельно опубликован в  Сети для  поощрения развития альтернативных интерфейсов на серверах.

2.5. Отличительные особенности и применения NESSTAR

Таким образом, разработанная система NESSTAR  является интегрированным набором  программного обеспечения,  облегчающим расположение, обнаружение и использование социально-экономических и других структурированных  данных. Она  позволяет пользователям просматривать распределенные каталоги данных в Сети, исследовать детальную информацию относительно данных (метаданные), выполнять несложный анализ данных (например,  перекрестные таблицы, регрессии и графические представления),  и затем загружать полные или частичные подмножества данных, по выбору, в одном из целого ряда популярных форматов.

Система содержит механизм регистрации и опознавательные средства, чтобы фильтровать доступ к некоторым наборам данных,  наборам программ для публикации данных и инструментальным средствам управления сервера.

Особенно большой вклад программа  NESSTAR внесла в разработку технологий, дающих возможность естественно интегрировать систему просмотра и анализа сложных информационных массивов на рабочие дисплеи пользователей.  Они полностью встроены в технологию Web-сети и использует эту технологию для того, чтобы сделать ряд существенных продвижений в этой области. Главное  среди них - способность обнаружить  данные среди целого  ряда сайтов, расположенных в разных местах по  всему миру. Это преимущество стало возможным благодаря разработке и использования таких стандартов взаимодействия в системе, как XML -  синтаксис и DDI – стандарт.

Ещё одна отличительная особенность проекта NESSTAR - разработка таких программных средств, которые предоставили возможности быстрого просмотра данных и сопутствующей документации, а также осуществления в интерактивном режиме, не отрываясь от процесса поиска, беглого анализа полученных данных, что, безусловно, открыло ценнейшие информационные источники более широкому кругу пользователей. Существование и доступность механизмов просмотра данных само по себе не является большим открытием, такие механизмы использовались и раньше. Но что является новым, насколько известно, так это  доступность универсального механизма, который оперирует в Web-сети, не привязан к определенному массиву  данных, и может быть полностью интегрирован с рабочим столом пользователя, с одной стороны,  и  распределённым информационным полем, - с другой.

Как было описано в разделе, анализирующим максимальные требования потенциальных конечных пользователей системы,  программный пакет NESSTAR был разработан с первичной и главной целью обеспечения архивов данных более профессиональными инструментами для обслуживания объединенных информационных систем, а в конечном итоге – для обеспечения пользователя комфортным, надежным, быстрым,  современным средством для проведения социологических исследований на базе широчайшего, практически неограниченного, информационного поля.

3. Современный этап развития архивов социологических данных в России

Следуя  современным тенденциям в области информационного обеспечения социологических исследований и совершенствования инструментов анализа данных, российская социология  в начале века присоединилась  к мировому научному сообществу в деле организации цивилизованных форм хранения и распространения научной социологической информации. По мнению автора, является очень позитивным тот факт, что этот процесс пошел у нас в стране сразу по двум направлениям.

3.1. Информационная система «Россия»

С одной стороны, при широком использовании опыта развитых стран, в которых основную координационную и объединяющую роль выполняли исследовательские структуры главных национальных университетов и профилирующих университетских центров, один из первых электронных архивов данных начал разрабатываться при Московском Государственном Университете им. Ломоносова. Университетское сообщество России оказалось среди наиболее технически оснащенных и подготовленных к использованию компьютерных технологий исследовательских  групп. Благодаря программе "Университетские центры Интернет" Института "Открытое общество", включившей 33 университета, усилиям правительства РФ, местных властей, научных фондов и зарубежных организаций в региональных университетах создаются современные компьютерные комплексы, вокруг которых формируется российское Интернет-сообщество - специалисты, нацеленные на использование новых информационных технологий в своей профессиональной деятельности - научных исследованиях, в образовательных программах.

Организация коллективного информационного комплекса для всего университетского сообщества признана самым рациональным и эффективным решением и для каждого отдельного образовательного учреждения, и для развития общественных наук в стране в целом. Действительно, за счет местных университетов, получивших равные возможности доступа к информационным ресурсам, расширилась география и тематика исследований, получили развитие нетрадиционные методы анализа, активизировалась научная жизнь, стало развиваться сотрудничество университетов и организация совместных проектов, в том числе социально значимых исследований.

С 1996 года коллективом Научно-исследовательского вычислительного центра МГУ им. М. В. Ломоносова (НИВЦ МГУ)  реализуется проект создания межуниверситетского информационного центра на базе Информационной системы РОССИЯ [7]. Цель проекта - целенаправленное формирование информационной системы (электронной библиотеки), поддерживающей комплекс ресурсов социальной тематики федерального и регионального уровней.

На первом этапе в систему  включены правовые документы,  выборная статистика, материалы от ведущих средств массовой информации в центре и регионах, справочные данные по системе власти федерального уровня и регионов, научные журналы, бюллетени, вестники по гуманитарной тематике, аналитические материалы. Базовый комплекс источников составлен специалистами Центра социологических исследований МГУ в рамках проекта "Рабочее место социолога".

В НИВЦ МГУ реализован как лабораторная версия и эксплуатируется прототип Информационной системы РОССИЯ (ИС РОССИЯ). Прототип включает несколько информационных блоков: полные тексты официальных документов с 1994 года (эталонные версии, более 30000 документов, около 200 Мб), справочные данные по политической системе России, справочные данные по регионам (блок реализован на основе векторной карты), статистические массивы Госкомстата РФ, выборную статистику Центризбиркома РФ с 1991 года.

Прототип ИС РОССИЯ реализован на СУБД Oracle8. В рамках прототипа разработана технология автоматической лингвистической обработки текстов (АЛОТ) социальной тематики и автоматической загрузки результатов обработки в ИС РОССИЯ. Технология АЛОТ позволяет автоматически осуществлять содержательную обработку - индексирование, рубрицирование и аннотирование текстов документов, создание их развернутых поисковых образов (метаинформации).

В прототипе ИС РОССИЯ реализованы развитые поисковые возможности, в частности, поиск по рубрикатору (200 позиций) и тезаурусу (50000 терминов, 250000 иерархических связей), а также просмотр метаинформации и работа в системе на уровне метаинформации, ранжирование документов при выдаче на запрос пользователя. Технология позволяет интегрировать массивы и осуществлять сквозной тематический поиск по всему информационному комплексу. Учитывая, что для научных целей специалисты используют большой объем данных (широкий круг источников и ретроспектива, полные тексты документов), отбор и просмотр документов увеличивает время работы с ресурсами, и соответственно растут затраты на оплату каналов связи, реализованные в рамках ИС РОССИЯ технологические инструменты являются важным элементом с точки зрения рациональной организации поисковых возможностей для решения исследовательских задач и минимизации затрат.

В перспективе в рамках проекта будут организованы совместные скоординированные работы университетов России, желающих и готовых сотрудничать в развитии информационного ресурса: созданные коллективом методики и программно-лингвистические средства будут бесплатно переданы региональным университетам для создания информационных систем на базе местных источников. Региональные университеты смогут достаточно быстро накапливать свои информационные ресурсы, используя готовые средства частично или полностью. Единая методика и технология обеспечат унификацию работы с документами и данными и создание интегрированной информационной системы, сэкономят региональным университетам значительные средства и время на создание средств обработки и индексирования документов.

В рамках проекта реализуются международные стандарты представления ресурсов, что обеспечивает совместимость с мировыми информационными ресурсами, расширяя  тем самым  возможности совместных исследований с зарубежными специалистами.

Следует отметить, что в окончательном варианте Информационная система РОССИЯ должна стать надежным информационным ресурсом для обслуживания исследовательских подразделений, независимых аналитических центров, общественных движений и неправительственных организаций, обеспечивая доступ к правительственным документам, статистике, СМИ и другим источникам важной социальной информации. Единственное ограничение, которое пока демонстрирует ИС РОССИЯ, это слабое привлечение академических научно-исследовательских институтов и лабораторий, которые являются основными производителями не серийных, а уникальных, глубоких по содержанию и качественных по методам массивов социологической информации (именно социологической, что подчеркивает соответствие классическим научным канонам проведения эмпирических исследований). Безусловно, механизм привлечения научных исследователей в подобного рода электронные библиотеки довольно тонок, это – или материальные стимулы, которые университетские структуры, находящиеся на государственном бюджете, позволить себе не могут, или, как в большинстве стран на Западе, - престижность расположения индивидуальных результатов в общественном архиве, и тем самым – более широкая публикация своих достижений, что в настоящее время электронные системы пока не могут гарантировать ученым ввиду слишком малой распространенности этой формы хранения информации.

 

            Однако, мы надеемся, что этот цивилизованный путь развития информационного обеспечения только прокладывает свои первые шаги в будущее, и через несколько лет можно будет судить об успешности этой, предпринятой университетским научным сообществом, попытки внедрить в нашу практику широко распространенную в мире форму сбора, накопления, хранения, защиты и обработки информации.

3.2.  Российский национальный архив СОФИСТ- Система Организации Фактографической Информации по Социологической Тематике 

 

 В сентябре 2000 года при финансовой поддержке Фонда Форда ВЦИОМ (Всероссийский центр изучения общественного мнения) инициировал проект по созданию национального архива социологических данных в рамках программы по созданию единого национального архива. Цель программы - разработка и апробация содержательных, организационных и финансовых условий формирования и дальнейшего функционирования национального общедоступного архива социологических данных, имеющих научную ценность и общественный интерес.

 

В настоящий момент архив содержит более 60 исследований, проведенных ведущими социологическими агентствами России, и функционирует как самостоятельная программа в рамках Независимого института социальной политики, имея свой штат, материальную базу и бюджет.

В рамках этого проекта был создан электронный архив данных SOFIST – (СОФИСТ- Система Организации Фактографической Информации по Социологической Тематике) [8]. В него включены результаты социологических исследований таких организаций, как ВЦИОМ, РОМИР, РНИИиСП. Все исследования объединены в несколько групп, в число которых входят  серийные исследования, которые предоставляют возможность оценивать динамические тенденции  в оценке того или иного социального фактора, и уникальные единичные исследования, первоначальной целью которых являлось подробное исследование определенных, точно сформулированных гипотез. Среди серийных исследований можно назвать:

-                           объединенный мониторинг жителей России, проводимый ВЦИОМом с частотой один раз в два месяца;

-                           результаты объединенных электоральных исследований, начиная с 1995 года;

-                           объединенный массив индексов потребительских настроений,

-                           а также бюджеты времени сельского населения.

Каталог единичных исследований включает в себя названия уникальных социологических исследований, проведенных авторитетными научными и академическими организациями. Среди этих исследований можно назвать такие как: Всероссийский мониторинг «Зеркало мнений», еженедельные общероссийские опросы населения, несколько результатов исследования «Омнибус РОМИР», а также исследование «Современное российское общество, переходный период». Каждое исследование сопровождается описанием и списком вопросов анкеты, если она используется.

Кроме того, пользователю доступны широкие интерактивные возможности, такие как поиск по ключевым словам, поиск по тексту, поиск по рубрикатору, что существенно упрощает и расширяет возможности по нахождению массивов данных, адекватных задачам исследователя.

7 декабря 2001 года состоялся семинар “Создание всероссийского архива социологических данных: результаты и перспективы”, который  подводил итоги этого  проекта, инициированного ВЦИОМом.

Участники семинара  говорили об истории становления архивов, об особенностях работы с пользователями и депозиторами, проблемах финансирования и хранения информации, о проблемах разработки программного обеспечения.

В целом семинар вызвал большой интерес и собрал самые позитивные отклики. В его работе приняли участие около 100 человек из различных исследовательских организаций, благотворительных фондов, учебных институтов. Семинар подтолкнул ряд исследователей и организаций к участию в работе архива: они выразили желание депонировать свои исследования. Были высказаны пожелания сделать работу семинара регулярной.

На наш взгляд, создание архива СОФИСТ свидетельствует о качественном прорыве в области информационного обеспечения социологических исследований и становлении на тот цивилизованный путь, которые развитые страны прошли уже более 30 лет назад. Об этом сейчас можно говорить, поскольку организация, возглавившая этот процесс в России, а именно Всероссийский центр изучения общественного мнения – ВЦИОМ,  является одним из общепризнанных лидеров в научном сообществе по проведению эмпирических исследований и общероссийских опросов, обладающий высочайшим научным потенциалом, хорошо подготовленным штатом, необходимым оборудованием и программным обеспечением. А главное,  штат научных сотрудников в совершенстве владеет опытом и методами проведения классических социологических исследований, а также последними достижениями в области хранения, обработки и интерпретации данных. Сейчас главная задача – найти и внедрить в жизнь определенные механизмы привлечения в архив сторонних научных коллективов и индивидуальных исследователей, также производящих качественные информационные массивы, иначе этому предприятию грозит остаться пусть и современным и мощным, но все-таки локальным архивом ВЦИОМа и нескольких работающих с ним организаций.

Всестороннее изучение функционирования архивов за рубежом позволяет сделать вывод о том, что самое главное условие эффективного существования архивов данных состоит в том, что система производства, накопления и распространения информации должна быть обязательно открытой, причем здесь важно не только открытое распространение, но и незамкнутая система производства информации, пополняемая  за счет широкого круга исследователей, составляющих научное сообщество. В самой этой незамкнутости множества производителей массивов эмпирических данных, полученных в результате проведения полноценных социологических исследований, заложена изнутри целая система стимулов, подталкивающая разработчиков к открытой публикации своей информации. Среди них можно упомянуть такие,  как качественное сохранение и актуализация данных,  получение реакции обратной связи на свои исследования, авторское самоутверждение среди профессионального сообщества. Кроме того, гениально прост механизм формирования библиотеки массивов данных, принятый в главных архивах развитых стран: финансовые учреждения, выделяющие  ресурсы для развития той или иной области науки,  теперь в обязательном порядке выдвигают требование, чтобы исполнитель непременно внес свои данные в общественные архивы после завершения работы над своими  проектами. А, будучи заинтересованными в  том, чтобы их данные были включены в массивы  известных и  престижных архивов, исследователи стремятся соблюсти все формальные требования к процедурам сбора, накопления и хранения информации. Это, в свою очередь, гарантирует высокое качество данных и существенно облегчает процесс их стандартизации и сертификации, а, следовательно, и процесс организации больших массивов информации в единую систему.

Весь смысл зарубежных архивов в том, что они сумели выработать  не только финансовые, но и нематериальные механизмы привлечения массивов данных, работа с архивами является для всех исследователей престижной, выгодной и необходимой с точки зрения доступности всего спектра научной информации; в обмен на свою информацию они обладают локальным доступом к глобальным интеллектуальным ресурсам и продвинутым интерактивным возможностям в области обработки данных и визуализации полученных результатов. Все это делает практически бессмысленной исследовательскую работу вне эффективной взаимосвязи с научными архивами данных, и организовать такое существование социологического сообщества у нас в стране является благородной, актуальной,  но отнюдь не тривиальной задачей.

Все вышесказанное позволяет сделать заключение, что процесс аккуратного и уважительного отношения к уже созданным массивам социологических данных, являющимся содержанием архивных учреждений, захватил и Россию. Научное сообщество наконец признало тот факт, что произведенные даже единичными исследователями информационные ресурсы являются бесценным содержательным капиталом, позволяющим (при условии легкой общественной доступности) существенно обогатить классические научные исследования, вовлекая в него все новые и новые структурные  элементы. Эта информационная база может быть утеряна, если не будет сохранена, систематизирована и защищена. Поэтому организационное внедрение в практику таких структур как архивы социологической информации становятся необходимым элементом соответствия современному уровню развития общественных наук, и более того, практически единственным моментом, генерирующим  профессиональную общность в социологическом исследовательском  сообществе в наше время. Многие финансовые учреждения в развитых странах, выделяющие  ресурсы для развития той или иной области науки,  теперь в обязательном порядке выдвигают требование, чтобы исполнитель непременно внес свои данные в общественные архивы после завершения работы над своими  проектами.  Было бы очень полезным для нашей науки воспользоваться этим опытом зарубежных архивов, что сразу могло бы продвинуть далеко вперед практику организации массивов экспериментальных данных в науке и наполнения архивов социологических данных качественной информацией.

4. Интернет-навигатор

            На основании проведенной обобщающей работы и анализа оригинальной литературы автором был разработан Интернет-навигатор по Web-адресам основных национальных социологических архивов, международных организаций и проектов, снабженный информацией относительно деятельности и особенностей каждого из них. Приведем также  краткую консолидированную информацию и  толкование основных содержательных понятий и расшифровку тематических аббревиатур.

4.1. Некоторые общие понятия

Архивы данных или архивные учреждения

 - высокоорганизованные и хорошо   технически оснащенные информационные центры, деятельность которых полностью охватывает автоматизированный процесс сбора, накопления, хранения и обработки данных. Созданы для обслуживания всего научного сообщества,  снабжающие его достоверной и качественной информацией,  помимо этого выполняющие аналитические, консультативные и просветительские функции. Начали создаваться в 60-е годы 20-го века, наиболее значительные из них: Межуниверситетский Консорциум политических и социальных исследований, США   (Interuniversity Consortium for Political and Social Research - ICPSR), Архив данных Социологического Исследовательского Комитета – Великобритания, (Social Science Research Commitee - SSRC),    Архивы Штайнметца в Нидерландах, центры Ропера и Харриса, - обладатели данных обследования американского общественного мнения, Информационный центр социально-политических данных во Франции (BDSPIC.E.R.A.T), Центральный архив социальных эмпирических исследований (ZA) в Германии и другие, которые сосредоточили у себя огромный исследовательский потенциал для проведения вторичного анализа.  Более того, в 1977 году была создана Международная федерация В настоящее время около 200 архивов социологических данных в 60 странах мира.

            В 1977 году была создана Международная федерация информационных организаций для социальных наук (IFDO), задачей которой является координация усилий ученых этих стран по разработке технологий в области хранения и обработки данных и, более того, в области разработки интегрированных межгосударственных баз данных для проведения сравнительных межгосударственных исследований.

- индивидуальные архивы данных

            - неотъемлемый элемент любой интеллектуальной деятельности,  индивидуальные хранилища систематизированных уникальных данных, протоколы научных исследований, различного рода хроники;

- локальные архивы данных

            - форма организации научных исследований в небольшом отдельно взятом коллективе. Систематизированное собрание полученных в результате исследований массивов данных, вся необходимая для работы справочно-библиографическая информация, а также возможность унифицированного представления результатов работы коллектива;

- национальные архивы данных

            - являются исследовательскими центрами для обслуживания всего научного сообщества,  снабжающие его достоверной и качественной информацией, и помимо этого выполняющие аналитические, консультативные и просветительские функции.

Сертификат исследования

– конкретная форма документа, сопровождающего информационный массив при включении в архив данных. Основан на классической методологии проведения  социологических эмпирических исследований. Автором разработана унифицированная структура документа, позволяющая реально сделать вывод о том, насколько данный массив адекватен задачам исследования. Этот момент необычайно важен, поскольку для автора большое значение имеет степень доверия к информационной базе, иначе все его усилия могут оказаться напрасными. Предлагается, что сертификат исследования должен содержать следующие основные разделы:

1 - объективные характеристики, такие как название исследования, дата проведения исследования, место проведения исследования - регион, территория и т.д.,  авторский коллектив;

            2 - вторая часть посвящена постановке проблемы и выбору объекта исследования;

            3 –описание метода сбора данных, выборки

            4 – краткая аннотация результатов исследования

            5 – характеристики полученных массивов данных

            6 – анкета, если она использовалась.

Метаданные

 - данные относительно данных. Представляют собой  информацию, которая позволяет наиболее эффективно и целенаправленно  использовать имеющиеся наборы  данных. Становясь частью информационной базы, метаинформация, обогащающая хранящиеся в архиве данные,  защищена во временном отношении и остается доступной  для последующих исследователей. Обращение к массиву  метаданных как бы встраивает пользователя в процесс исследования, делая его непосредственным участником  всех  этапов и позволяя ему заново формулировать гипотезы и проверять альтернативные возможности на тех же самых данных.

Можно сказать, что данные в социальной науке становятся общедоступными только благодаря метаданным. Они обеспечивают «мосты» между производителями данных и их пользователями и передают информацию, которая является существенной для вторичных аналитиков.   Метаданные   являются отправной точкой для  любой системы обнаружения ресурса.  И хотя основная структура каталогов устроена так, что  дает представление об общем содержании источников данных, необходима дополнительная, более точная и научная информация для проведения процесса обнаружения данных, тем более что объем массивов объединенных каталогов данных умопомрачительно велик, и, осуществляя поиск по нескольким общим параметрам, можно получить лавину информации, необъятную с точки зрения выбора одного единственного подходящего массива. 

Вторичный анализ

Под вторичным анализом понимают совокупность методов и приемов получения нового знания, характеризующихся следующими признаками:

1.      Это методы, которые используются в случае, когда исследователи отказываются от проведения специально организованного эмпирического исследования, сбора нового эмпирического материала и довольствуются старой информацией из ранее проведенных исследований.

2.      В отличие от первичного анализа, вторичный аналитик ставит перед собой  новые исследовательские цели и задачи, не стоявшие при сборе первичных данных.

3.      Основным этапом, отличающим первичный анализ от вторичного является этап формирования "информационного поля" на базе первичной информации. Именно на этом этапе проявляется специфика проводимого ВА, дающая основание отнести его к тому или иному типу.

4.      Как правило, постановка новых исследовательских задач осуществляется другими авторами, т.е. смена авторства является одним из признаков ВА.

Логическая пара – «первичный-вторичный анализ», порождает новое, дополнительное методическое содержание в процесс социологического исследования. Вторичное исследование необязательно проигрывает первичному в объеме и значимости результатов. Оно необязательно "дополнительное", менее значимое, оно фактически разрабатывает любые по важности задачи. Практика показала, что при проведении уникальных эмпирических исследований ученые зачастую получают такое количество информации, которое для данное исследования является избыточным, и его вполне хватило бы на  несколько вполне солидных исследований.

Было бы неверно рассматривать вторичный анализ изолированно от других социологических понятий и категорий. На самом деле, вторичный анализ не только вписывается в уже имеющуюся систему понятий, но и обрастает значительным числом смежных терминов, что является одним из доказательств перспективности вторичного анализа, того, что он становится центром притяжения новых современных терминов, связанных с процессами компьютеризации и информатизации.

 

 (OLAP) On-Line Analytical Processing

- программа интерактивной аналитической обработки  - конкретная  программная технология, которая дает возможность аналитикам, администраторам и системным операторам попасть внутрь массивов данных с помощью  быстрого, непротиворечивого, интерактивного доступа к широкому разнообразию возможных представлений информации, в которые была преобразована первичная информация.

Функциональные возможности OLAP характеризуются как  динамический многомерный анализ объединенных данных, поддерживающих аналитические и навигационные действия конечного пользователя, включая:

·     - прикладные вычисления и моделирование;

- анализ тенденций по последовательным периодам времени;

-         структурирование подмножества для экранного просмотра;

- Практическая отработка - до более глубоких уровней консолидации

OLAP осуществлен в многопользовательском режиме клиент /сервер и предлагает быстрый ответ на запросы, независимо от размера базы данных и ее сложности. OLAP помогает пользователю генерировать новую  информацию на основе сравнительного  индивидуализированного просмотра, а также с помощью анализа исторических и проектируемых данных в различных" сценариях «что-если» модели данных.

Character Encoding Scheme

- символьный метод кодирования, включающий  алфавитные символы (A-Z, верхний регистр и нижний регистр), цифры 0-9, знаки  пунктуации и другие метки (например,   пробел,  *), и различные "управляющие символы" (например, табуляция, перевод каретки, перевод строки), использующие двоичные числа. Два наиболее часто используемых стандарта для представления символов в байтах - ASCII  и расширенный двоично-десятичный код обмена информацией EBCDIC. Большинство персональных компьютеров

ASCII  

- американский cтандартный код для информационного взаимообмена - символьная схема кодировки, которая используется многими компьютерами.

CBw.d

-  команды, которые система SAS  использует, чтобы читать стандартные числовые значения файлов двоичного представления данных по колонкам, транслируя данные в стандартный двоичный формат. Значение w определяет ширину переменной - обычно 8, но имеет диапазон между 1 и 32. Значение d определяет число знаков справа  от десятичной точки в числовом значении.

Data Documentation Initiative (DDI)-  ( http: // www.icpsr.umich.edu/DDI/). 

- Созданная в 1995 году Международная программа, проводимая ICPSR, целью которой является разработка и распространение нового стандарта  записи  метаданных для научной социологической документации. Этот стандарт, над созданием которого работают представители  международного социологического сообщества, предназначен для того, чтобы заполнить потребность в структурном единообразии представления информации, и должен  служить как общий формат взаимообмена, создающий благоприятные условия для   развития новых Интернет-приложений.

Согласно разработанной концепции основными составляющими каждого документа, произведенного в унифицированном стандарте, должны быть следующими:

 

Ø      Описание документа, которое может рассматриваться в качестве «ярлыка»,

который исчерпывающим образом описывает содержание совместимого с форматом DDI файла. В него входят такие характеристики, как название (если есть подзаголовок и аббревиатура), библиографические ссылки, идентификационный номер, собственник массива данных и его источника, производитель электронной версии массива данных и место производства, а также версия программного обеспечения, с помощью которого она была создана. Указывается также источник финансирования и дистрибьютор. Описание каждого поля расширено такими признаками как: обязательный или нет, повторяемый или нет, имеет ли связь с другими элементами массива или нет.

Ø      Описание исследования, которое             в основном состоит из информации, характеризующей статистические массивы данных и исследование как таковое. Он состоит из пяти подразделов, в которые включены:  объективные характеристики, масштаб исследования, методология проведения  исследования, доступ к данным и другие материалы, характеризующие исследования. Отдельно разрабатываются признаки доступа к базам данных, описываются элементы условий доступа и сроки использования данных.

Ø      Описание файлов данных  состоит из информации относительно конкретных файлов, содержащих числовую или текстовую информацию: название файла, его содержание; резюме или назначение файла, описывающее его цель, природу и возможности; некоторые специальные характеристики его содержания, основные охваченные области и (что считается очень важным) - список главных переменных. В случае если в собрании много файлов,  этот раздел  уникально описывает содержание каждого файла.

           Кроме этого, приводятся многочисленные технические характеристики самих файлов: тип структуры файлов (иерархический, прямоугольный или другой),  их размерность, количество наблюдений, сведенных в файле, количество переменных в нем,  количество записей, соответствующих каждому случаю, а также общее количество записей. Отдельно отмечаются типы файлов, включающие в себя сырые данные (например, ASCII-файлы) и файлы, скомпонованные некоторыми другими программными продуктами (например, SPSS-экспортные файлы), а также файлы, представляющие собой комбинацию из указанных двух.  Отдельным показателем  определяется место производства файлов данных, и способ осуществления их проверки, в результате которой заполняются пропущенные и незакодированные данные.

Case

  Единица анализа в отдельном файле данных, например, отдельный респондент в опросе, потребитель, отрасль экономики и т.п.

Codebook -  

- Руководство для кодирования переменных,  основной документ, дающий возможность связывать методику и инструментарий сбора данных с соответствующими файлами данных. Его создание требует определенного искусства от разработчиков и очень важно, чтобы кодировка переменных не оставляла возможности для разночтения и была сугубо автономно расположена от всех других материалов. Содержит описание структуры и содержания файлов данных, а также информацию  относительно размерности и содержания кодировок, необходимую для интерпретации данных.

Documentation

- информация, которая сопровождает файлы данных, содержит описание данных, процесс создания массивов, размещение и размерность переменных в файле, а также символьную кодировку и значения переменных.

Экспортный файл

-  Файл, произведенный определенным пакетом программ, который предназначен для того, чтобы читаться на другом компьютере, часто имеющим отличную   операционную систему, но осуществляющим  версию того же самого пакета программ.

HTML – (HyperText Markup Language) 

– гипертекстовой язык программирования, используемый для создания интернет страниц. Состоит из ключевых слов, заключенных в угловые скобки "<" и ">", называемых тэгами. HTML-страница - произвольная информация в виде набора компьютерных экранов. Переходы между экранами хозяин (или его Web-мастер) устраивает по своему усмотрению. Главное заключается в том, что если все сделано правильно, то информация Web-сайта одинаково доступна пользователям во всех уголках мира.

Web-сайт

с точки зрения специалиста-компьютерщика - это набор связанных между собой HTML-страниц, имеющий URL-адрес и находящихся на компьютере владельца или сервере провайдера. С точки зрения пользователей- это место (англ. site - место) в глобальной сети, где хозяин сайта размещает всю информацию: текстовые материалы, электронные документы, таблицы и диаграммы, схемы и чертежи, условия контрактов и прайс-листы, цветные иллюстрации, слайд-шоу, анимацию - словом, практически любые типы информации, которые способны обрабатывать и отображать современные компьютеры. Размещение на Web-сайте видеоматериалов тоже принципиально возможно, но предполагает высокие требования к качеству связи с Интернетом посетителей сайта. Если система посетителя сайта не будет соответствовать этим требованиям, тоже ничего страшного не случится, но у него могут возникнуть определенные затруднения - понадобится слишком много времени на загрузку файла и т.п.

 

URL (Uniform Resource Locators)

- адрес Web документов. В общем случае, URL может использоваться для ссылки на ресурс в Интернете или в других информационных системах. Общий вид следующий: scheme://host:port/path/filename , где
    scheme - определяет протокол, использующийся для доступа к ресурсу.
    host - имя хост-машины в доменной нотации. Например, www.yandex.ru, www.microsoft.com
    :port - номер порта path - путь внутри хост-машины
    filename - имя файла внутри директории.

TCP/IP (Протокол)

 - семейство протоколов TCP/IP (Transmission Control Protocol/Internet Protocol), которое широко применяется во всем мире для объединения компьютеров в сеть. Существует множество протоколов для обмена данными по сети: TCP (Transmission Control Protocol) - протокол управления передачей, FTP, HTTP, Telnet и т.д. Более подробная информация в RFC (Request For Comment).

SPSS—Statistical Package for the Social Sciences.

Универсальный пакет, объединяющий функции ввода и управления данными, статистического анализа и представления результатов. Разработчик – корпорация SPSS Inc. (США). SPSS используется для: анализа результатов и проведения опросов всех видов, бизнес-анализа,  маркетинговых исследований, анализа продаж, контроля качеств, научных исследований.

SPSS обладает рядом качеств, которые делают его идеальным инструментом для обработки больших массивов содержательной информации:

§         Всеобъемлющие возможности работы с данными, включая чтение и запись в различных форматах, ввод и чистку данных, работу с метками значений, преобразование, слияние, расщепление и агрегирование данных, сортировку и ранжирование наблюдений;

§         Мощный статистический аппарат пакета, включающий несколько сотен процедур, помогает извлечь всю информацию из данных. Это новый уровень анализа по сравнению с возможностями электронных таблиц и систем управления базами данных;

§         Гибкие инструменты вывода результатов делают возможным представление итогов анализа в наглядной и понятной форме. Все возможности форматирования таблиц и графиков, создания отчетов и презентаций;

§         Удобный интуитивно понятный интерфейс позволит немедленно приступить к работе и быстро получить результаты;

§         Новые возможности автоматизации анализа данных и поддержка Internet.

Базовый модуль SPSS – основа пакета. В него встраиваются дополнительные модули, добавляющие новые возможности обработки данных. Таким образом, можно как из конструктора построить собственную рабочую среду.

4.2. Международные программы и организации

 

CESSDA (http://www.nsd.uib.no/Cessda/) 

- (Council of European Social Science Data Archives) - Совет Европейских архивов данных для социальной науки. Осуществляет сбор, архивирование и распространение электронных данных для использования в процессе образования и вторичных социологических исследованиях. Эта международная организация стимулирует обмен информацией и продвинутыми компьютерными технологиями в области обработки данных, а также широко сотрудничает с другими организациями, которые действуют в этом же направлении.

DARE (http:/www.unesco.org/most/dare.htm)

- база данных для социальных наук ЮНЕСКО. База данных, которая предлагает более чем 11.000 ссылок на социологические научно-исследовательские и образовательные  институты, специалистов в области социальных наук, различные информационные службы, и  периодические издания по социальной науке. Также эта база содержит специальные ссылки на организации по правам человека, а также  научно-исследовательские институты по международному праву.

MOST  - (http:/www.unesco.org/most/dare.htm)

- Организация, управляющая программой социальных трансформаций. Это исследовательская программа, проводимая ЮНЕСКО, предназначенная для того, чтобы поддержать  международные сравнительные социологические исследования. В рамках этой программы  поддерживаются крупномасштабные, долгосрочные независимые исследования. Организация осуществляет публикацию современных статистических материалов по всем важным разделам, фокусируя свое основное внимание на следующих трех направлениях: много-национальные и много-этнические общества; города как арены ускоренных социальных преобразований, а также на теме «глобализация  и правительства». Основная  долгосрочная цель организации  состоит в том, чтобы установить жизнеспособные связи между научным сообществом  и политическим обществом и подчеркнуть важность и целесообразность  применения социологических исследований в сфере принятия политических решений.

NESSTAR  (Networked Social Science Tools and Resourceshttp://www.nesstar.org/) 

            - (Cетевые Инструментальные средства и ресурсы для социальной Науки) -

инфраструктура для распространения данных через Internet, созданная консорциумом архивов данных. NESSTAR дает возможность пользователю (1) обнаруживать необходимые источники данных, минуя национальные границы, (2) просматривать  детальные метаданные относительно найденной информации, (3) интерактивно анализировать и визуализировать данные, и (4) загружать соответствующие подмножества данных в одном из ряда форматов для локального использования на собственном персональном компьютере. Общая цель проекта состоит в том, чтобы разработать общий интерфейс на Internet для массивов данных, поддерживаемых большим количеством независимых провайдеров. Авторы назвали NESSTAR инструментом для «локального доступа к глобальным интеллектуальным ресурсам».

OECD  (Organization for Economic Cooperation and Development – (http://www.oecd.org/)

            - Организация «За экономическое взаимодействие и развитие»  обеспечивает правительства материалами для  обсуждения, разработки и совершенствования экономической и социальной политики. 29 государств - членов принимают участие в обмене опытом, поиске оптимальных решений для  общих проблем, а также в координации  внутренней и международной политики. Интернет-сайт обеспечивает доступ ко многим публикациям и массивам данных.

TransMONEE (http://www.unicef-icdc.it/information/databases/index.htm)

- публичная версия массива экономических и социальных индикаторов для Центральной и западной Европы, а также Содружества Независимых государств. Управляемая с помощью меню база данных обеспечивает  быстрый поиск и эффективную манипуляцию с экономическими  и социальными индикаторами для 27 стран переходного периода  в Центральной Европе и прежнем СССР. Программа включает общее руководство и обширное приложение, состоящее из таблиц данных. Новый выпуск включает данные, обновленные вплоть до  1996 года ,  и предоставляет  интерфейс 32-разрядной версии Windows (tm) NT/95  в дополнение к также доступной версии Windows (tm) 3.1. База данных может быть загружена бесплатно с трех различных информационных интернет-страниц.

UNECE – United Nations Economic Commission for Europe(http://www.unece.org/stats/stats_h.htm) -   Европейская экономическая комиссия при ООН

United Nations InfoNation – (http://www.cyberschoolbus.un.org/infonation/info.asp) - легкая в использовании, двухступенчатая база данных, которая позволяет находить и сравнивать последнюю информацию по странам – членам Организации Объединенных Наций.

 LSMS (Living Standards Measurement Study) (http://www.worldbank.org/html/prdph/lsms/lsmshome.html)

- программа, осуществляемая Мировым Банком. Проводит регулярные мониторинги потребительского поведения и благосостояния семьи в развивающихся странах. Информация, содержащаяся на сайте, включает в себя описание и историю организации, а также руководство для получения необходимых данных. Некоторое ограниченное количества LSMS данных доступно для скачивания непосредственно с сайта.

World Bank: Social Indicators of Development, 1994 – (http://www.ciesin.org/IC/wbank/sid-home.html)

– Объединенный массив «Социальные индикаторы развития, 1994» Мирового банка и Консорциума по Международной Информационной Научной  Сети (CIESIN). Включает в себя показатели общественного благосостояния стран для исследования последствий экономического развития.  Данные представлены более чем для  170 стран, за исключением только тех,  для которых данные являются неадекватными. До 1994 года  для каждой страны опубликованы такие индикаторы, как: численность  структура населения,  детерминанты прироста населения (включая данные относительно рождаемости и детской смертности);трудовые ресурсы; образование и неграмотность; природные ресурсы; доход и бедность; расходы на продовольствие, ведение домашнего хозяйства, топливо и энергию, транспорт и связь; вложения в медицинское обслуживание и образование.

World Bank: Trends in Developing Economies, 1994 (TIDE)–

(http://www.ciesin.org/IC/wbank/sid-home.html)

-  Объединенный массив «Тенденции развивающихся экономик, 1994» Мирового банка и Консорциума по Международной Информационной Научной  Сети (CIESIN). Включает в себя показатели тенденций экономического развития каждой страны, дополняющие Сообщение о мировом развитии, которое исследует основные глобальные и региональные экономические тенденции и их значение для будущих перспектив развивающихся экономик. TIDE получает информацию из национальных источников и дополняет ее комментариями своего штата, касающимися последних достижений.

World Bank Annual Reports(http://www.worldbank.org/html/extpb/annrep96/) -  

- Ежегодные  сообщения детализируют действия Международного Банка Реконструкции и Развития (IBRD) и Международной Ассоциации Развития (IDA) в течение каждого бюджетного года. Для разработки этих сообщений привлекаются департаменты по банковским операциям, программам,  финансам и финансовым отчетам. В них высвечены определенные региональные перспективы (по которым достигнут, по мнению банка,  определенный реальный успех) в Африке, Восточной Азии и странах Tихого океана, Южной Азии, Европейской  и Центральной Азии, Латинской Америке и странах Карибского бассейна, на Ближнем Востоке и в Северной Африке. Полные тексты сообщений доступны в формате (.pdf) через программу Adobe Acrobat, а также (кроме финансовых отчетов и приложений) доступны в формате HTML.

World POPClock (http://www/census.gov/cgi-bin/ipc/popclockw)–

- Программа Национального бюро переписей США, разрабатывает и публикует ежегодные оценки численности мирового населения, а также прогнозы роста численности до 2050 года. Данные представлены в виде таблиц и графиков.
 

4.3.  Национальные архивы данных

·        Австралийский Консорциум для Социальных и Политических Исследований (Australian Consortium for Social and Political Research Incorporated (ACSPRI) http://ssda.anu.edu.au/acspri) консорциум, состоящий из исследовательских  учреждений  и организаций, которые обеспечивают  доступ к Австралийским и заграничным источникам компьютерно-читаемых данных социальной науки, поощряет и поддерживает действия и процедуры, которые расширяют  доступ к этим данным, частично финансирует образовательные и исследовательские программы  в социальных науках. Все сотрудники академических институтов Австралии имеют право на свободный доступ к большой коллекции выборочных, исторических и межнациональных данных  в ICPSR Архиве.

·        Австралийский Архив Данных для Социальной Науки (Australian Social Science Data Archives (SSDA)http://ssda.anu.edu.au/)  - Архив данных Австралийского национального университета. Его собрание включает более чем 500 массивов данных по социальной науке и массивы переписи населения в Австралии с 1966 г.  по настоящее время. Он выпускает свой каталог массивов данных и информационный бюллетень  ACSPRI.  Очень важно, что данные, являющиеся результатом эмпирических исследований, проведенных академическими,  правительственными и частными организациями и индивидуумами, также  депонированы в Архиве. Библиотека архива содержит ссылки на источники сбора данных, среди которых выделяются государственные учреждения, главные опросные организации, а также индивидуальные исследователи.

·        Архив Данных Социальных Исследований Новой Зеландии ((New Zealand Social Research Data Archive (NZSRDA) -http://www.massey.ac.nz/~NZSRDA/ - университет MASSEY) – организованный в 1992 году,  служит для того, чтобы собирать, "очищать", документировать и сохранять машино-читаемые данные, относящиеся к социальным, политическим и экономическим событиям, а также, что очень важно, предоставлять эти данные для дальнейшего анализа. Данные собираются архивом в различных видах и на различных материальных носителях, но затем преобразуют их в наиболее современную форму. Периодически происходит замена носителей на более новые для того, чтобы статистический материал всегда оставался доступным для пользования.

·        Архив Данных Социальной Науки Израиля (Israel Social Science Data Archive ISSDA - http://ssda.huji.ac.il/)  преследует цели сбора, хранения и распространения интересующих данных среди академического сообщества. С начала 90-х годов стал национальным центром, поставляющим статистические данные для всего Израиля и по соглашению с зарубежными архивами – в другие страны. В число его пользователей входят  все университеты Израиля, а также специалисты и политики из частных и общественных организаций.

Сейчас в архиве содержится приблизительно 1200 массивов данных, включая данные выборочных обследований, муниципальных исследований, переписей населения. Присутствуют как микро -, так и макроданные, некоторые из которых доступны через Всемирную сеть. В архиве собраны также и данные по зарубежным странам, получаемые, в основном, через ICPSR архив в Мичигане, в члены которого SSDA входит в качестве официального представителя.

·        Архив CIESINСША (CIESIN Gateway) - поиск  в каталогах этой организации  осуществляется одновременно с поиском информации во многих  базах данных  всего мира. Консорциум для Международной научной информационной сети (Consortium for International Earth Science Information Network (CIESIN) - http://www.ciesin.org) осуществляет  доступ к данным и информации относительно человеческих взаимодействий в природе, глобальных изменений окружающей среды  и  стратегии жизнеспособного  развития.  Архив CIESIN  обеспечивают доступ к распределенному каталогу, который идентифицирует  данные и информационные ресурсы, соответствующие выбранным темам. Организации, предоставляющие информацию в архив, включают в себя очень масштабные и уважаемые информационные и исследовательские учреждения. Тематика массивов данных описывает:  динамику населения; земные  и водные ресурсы; промышленность и энергию; сельское хозяйство и безопасность продовольствия; экономическую деятельность; человеческие отношения, предпочтения и поведение; политику и учреждения; человеческое и природное здоровье; океанскую и атмосферную динамику. 

·        Страновые исследования - США (Country studies  -http://lcweb2.loc.gov/frd/cs/cshome.html)    Библиотеки Конгресса включают в себя ряд книг, подготовленных Федеральным Исследовательским подразделением  Библиотеки Конгресса согласно Программе страновых исследований, заказанной отделением Вооруженных сил. Этот диалоговый ряд теперь содержит результат исследования 85 стран мира. Каждый том в массиве имеет дело с определенной  зарубежной  страной, описывая и анализируя ее политические, экономические, социальные характеристики,  систему национальной безопасности и учреждения, и исследуя взаимосвязи тех систем и путей, которыми они были сформированы. В массиве содержатся данные как относительно групп стран, так и относительно каждой отдельно взятой страны, причем доступны не только цифры, но и карты и диаграммы.

·        Корнельский Институт Социального и Экономического Исследования – США (Cornell Institute for Social and Economic Research (CISER) http://www.ciser.comell.edu/info/pxi.html). Архив Данных обслуживает собрание машинно-читаемых социальных и экономических наборов данных, которое состоит  из более чем 16,000 диалоговых файлов и тысячи исследований  на CD-ROM'ах  и дискетах.

·        Архив Данных  Межуниверситетского Консорциума для Политических и Социальных Исследований (ICPSR Data Archive - Университет Мичиган, США http://www.icpsr.umich.edu/archive1.html) - Один из самых больших в мире архивов  компьютеризированных  данных для социальной науки. Его целью при создании в 1962 году было значительное расширение доступа исследователей к огромному массиву данных, собранных с 1950 г. Это самое обширное в мире хранилище и служба распространения машиночитаемых социологических данных, насчитывающих 17000 компьютерных файлов данных по сравнительному и историческому анализу, представляющих все социальные дисциплины по 150 странам мира.  

Часто используемые в Америке первичные исследования, такие как Американское национальное исследование выборов, Панельное исследование динамики доходов и Всеобщее Социальное обследование, проводились Консорциумом, поскольку важные масштабные социальные исследования всегда инициировались государством. Здесь также хранятся огромные материалы из Бюро Переписей, включая десятилетние периодические переписи населения, ежегодные демографические данные, начиная с 1968 г., и исследования по специальным темам. Есть и неамериканские данные, относящиеся по большей части к международным вопросам и качеству жизни. Его база данных приспособлена для процедур поиска и выбора в интерактивном режиме.

Деятельность Консорциума сконцентрирована в трех различных областях.

      1.  Консорциум хранит и распределяет машиночитаемые социологические данные, полученные и введенные собственными исследователями, а также купленные у коммерческих или государственных организаций.

2. Он обучает ученых эмпирическим исследованиям посредством проведения программы ``Количественные методы в социальных исследованиях’’.

3. ICPSR вырабатывает рекомендации и методики, которые способствуют использованию продвинутых компьютерных технологий.          

4. В настоящее время является организацией, координирующей международные связи между национальными архивами и распространяющей свой непревзойденный опыт среди менее развитых членов мирового сообщества.        Членами ICPSR являются  более чем 325 колледжей и университетов в Северной Америке, а также  несколько сотен  учреждений, обслуживаемых зарубежными организациями в Европе, Океании, Азии, и Латинской Америке. В число зарубежных членов архива входят такие страны как Франция, Германия,  Испания, Швеция, Швейцария, Дания, Израиль, Корея, Австралия, Южная Африка, Польша и некоторые другие. Такое широкое представительство зарубежных членов в составе архива основано, прежде всего, на безусловной целесообразности членства в ICPSR: за разумную ежегодную плату участники имеют доступ к обширному архиву данных и полному диапазону его ресурсов и услуг, включая Летнюю программу по применению количественных методов. Кроме этого, существуют также дополнительные преимущества членства в этом архиве, которые привлекают в него все основные научные и образовательные учреждения.

·        Национальный Архив Канады (National Archives of Canada - http://www/archieves.ca)  - в нем основное внимание уделено фактам, свидетельствующим о развитии нации. Бесчисленные письма, дневники, картины, официальные документы и отчеты предков служат как коллективная память о нации. Национальный Архив Канады сохраняет архивное наследие Канады, и делает его доступным для канадцев с помощью широкого  разнообразия средств - публикаций, выставок, специальных событий. Собрание Архивов включают миллионы файлов, включая тексты, фотографии, фильмы, карты, видео, книги, картины, печатные издания и правительственные файлы, которые возвращают прошлое к жизни.

·        Венcкий  Институт Социальных Данных и Документации - Wiener Institut fur Sozialwissenschaftliche Dokumentation und Methodik (WISDOM)http://www2.soz.univie.ac.at/wisdom .

·        Бельгийский Архив для Социальных Наук (BASS) - Belgin Archives for the Social Sciences (BASS) - http://www.ssd.gu.se/info/BASS.html

·        Архив Национального Статистического Института Болгарии (National Statistical Institute (NSI) http://www.acad.bg/BulRTD/nsi/index.htm) создан в 1991 году как совершенно самостоятельная и независимая организация при парламенте Республики Болгария, продолжает богатые традиции статистической деятельности и развивает свои проекты для того, чтобы обеспечить болгарских и иностранных пользователей надежной и сопоставимой информацией.

·        Архивы Центрального Бюро Статистики Хорватии – г.Загреб (Central Bureau of Statisticshttp://www.dzs.hr) - осуществляет экспертную работу, связанную с подготовкой и проведением статистических обследований республики Хорватия. Архив собирает, анализирует и распространяет статистические данные, произведенные на основе единой методологии и статистических стандартов. Представляет Хорватию в международных статистических организациях, применяет основные принципы и стандарты развитых стран в архивировании данных, обеспечивая тем самым сопоставимость своих статистических показателей. Чешская Республика

·        Социологический Архив Данных  Чехии (Sociological Data Archive - http://archiv.soc.cas.cz/) - архив данных в Институте Социологии Академии Наук Чешской Республики, организованный в сентябре 1998 года.  Хранит файлы данных, произведенные в результате  социальных научных исследований, систематически проверяет, документирует и классифицирует их,  предохраняет от порчи.  Делает их доступными для вторичного использования. Архив предоставляет  возможность заказывать файлы данных или напрямую пользоваться  отобранными данными для образовательных целей, причем делает это бесплатно, т.к. его деятельность спонсируется государственным финансовым грантом.

·        Датские Архивы Данных (Danish Data Archives (DDA) - http://www.dda.dk)  - базы данных по областям: общая, организационная и промышленная  социология. Данные доступны для вторичного анализа. DDA являются частью  Датского государственного архива и служат хранилищем данных для всей Дании.

·        Эстонский Социальный Архив Данных – г.Тарту  (Estonian Social Science Data Archive (ESSDA)http://psych.ut.ee/esta/essda.html) образован в 1996 году при Тартусском университете в рамках Эстонского социологического сообщества. Состоит из нескольких сотен баз данных по следующим областям: журналистика, социология города и образования,  исследования семьи, социология девиантного поведения, а также этносоциология.

·        Статистика Финляндии (Statistics Finlandhttp://www.stat.fi/sf/home.html ) основное статистическое агентство Финляндии предоставляет статистику по экономическим и социальным тенденциям в стране, а также связано со всеми организациями, производящими статистику в Финляндии. Особое внимание уделено разделу, посвященному электоральной статистике, причем не только финской. Доступны данные по муниципальным и президентским выборам в Финляндии вплоть до 2000 года, европейским парламентским выборам до 1996 года, а также данные переписей населения, образовательная статистика Финляндии и т.п. Поиск большинства данных можно осуществить интерактивно.

·        Центральный архив для эмпирических социальных исследований Германии (Zentralarchiv für Sozialforschung (ZA) -  http://www.za.uni-koeln.de/  ) в Кельне организовывает программы посещения для исследователей из стран Европейского Союза и связанных с ним государств. В рамках 5-ой Программы "Межнациональный доступ к главным инфраструктурам исследований",   архив получил финансирование от Евросоюза сроком на три года, начиная с февраля 2000. Архив коллекционирует первичный материал (данные, анкеты, кодировки) и результаты эмпирических исследований для того, чтобы подготовить их к последующему вторичному анализу и сделать их доступными для нуждающихся исследователей. Диапазон архива охватывает все области, в которых используются данные эмпирического и исторического социального анализа.

Доступ к ZA-архивам обеспечивается в трех областях: доступ к данным, участие в обучающих семинарах и обучение управлению данных и архивированию. Главная цель ZA-архивов состоит в том, чтобы обеспечить доступность сравнимых наборов данных, а также новейшего программного обеспечения для статистического анализа. Вместе со стандартными пакетами текстов и графическими приложениями они могут быть найдены в библиотеке программного обеспечения ZA-архивов.

·        Центр Информации по социальным наукам (InformationsZentrum Sozialwissenschaften - (IZ) – http://www.bonn.iz-soz.de/) в Бонне собирает и распространяет информацию относительно текущего состояния  в социальных науках в германо-говорящих  странах, а  также и  в странах Восточной Европы. Его собственные базы данных, а также ресурсы национальных и международных баз данных, доступных с помощью его инструментов, формируют основание для оказания полноценного спектра  услуг в сопоставительных социальных исследованиях, в число которых входят следующие: обучение и образование в государственном и частном секторах, администрации, предоставление методик для политических организаций и в  средства информации.

Чтобы получать, обрабатывать и использовать информацию наиболее эффективным способом, IZ выполняет исследования с применением новейших информационных и программных технологий.

Центр Информации по социальным наукам  является подразделением  ASI - Ассоциации Институтов в  Социальных Науках, имеет близкое сотрудничество с университетом в г.Кобленц-Ландау.

·        Банк Данных в социо-политической сфере Франции – (Banque de Donnees Socio-Politiques (B.D.S.P)http://solcidsp.upmf-grenoble.fr/ ) был создан национальным научно-исследовательским центром в 1981, чтобы развивать во Франции исследовательское направление, подобное тому, которое с середины 60-х годов развивалось в других европейских странах и вылилось в организацию в них  целого ряда банков и архивов данных.

Созданный в Гренобле архив  отвечал на необходимость собирать, сдавать на хранение  и распространять файлы фактологической информации  для количественных исследований в общественных науках. История, социология и политическая наука являются дисциплинами,  которые способствовали,  главным образом, появлению B.D.S.P. В начале своего существования  B.D.S.P. осуществлял  международное сотрудничество через европейскую и международную сеть банков данных в общественных науках,  составляя французское звено этой сети. Сегодня, представляя французское членство при Совете европейских архивов данных для социальных наук,  B.D.S.P. принимает участие в совместных  проектах  этой организацией для создания единого европейского  банка данных. Эта задача соответствует, в частности,  желанию банков данных  - членов  C.E.S.S.D.A., обеспечить интегральное качественное информационное поля для осуществления сравнительного эмпирического анализа в международном масштабе.

Эта перспектива европейской интеграции дополняется для B.D.S.P. более давним членством в  Международной федерации информационных организаций, и с 1993 года – официальным представительством Франции в  Межуниверситетском  Консорциуме политических и социальных исследований (ICPSR). Это позволило отныне  распространять в  США данные  французских  исследований, а французским исследователям пользоваться большими сериями американских данных в общественных науках. 

·        Норвежские службы данных социологической науки  (The Norwegian Social Science Data Services (NSD) – http:/www.nsd.uib.no/) -  национальный центр,  обслуживающий исследовательское сообщество. Его главная цель состоит в том, чтобы гарантировать свободный доступ  Норвежского сообщества  к данным и обеспечить всевозможные технические  услуги для эффективного манипулирования с ними. Именно Норвежские службы  данных социологической науки был выбраны  Европейским союзом как базовое учреждение для внедрения Программы обучения и тренинга исследователей. NSD ответственен за информационное обеспечение  научно-исследовательских проектов и связанных с ними исследований в социальных науках,  медицине, охране окружающей среды.

В течение нескольких последних лет  NSD преимущественно занимается разработкой обучающих материалов и преподавательских пакетов для стимулирования вторичного использования данных. Кроме того, их идея состоит в том, чтобы внести вклад в развитие аналитических и методологических навыков среди пользователей.

Массивы данных NSD представляют собой общественную информацию, организованную в трех главных уровнях: региональные данные, индивидуальные  данные и данные относительно политической системы:

-    региональные данные описывает географические единицы, то есть региональные переписи, характеристики муниципалитетов, округов и т.д., а также агрегированные индивидуальные данные  в пределах конкретных  областей. На этом уровне поддерживается база данных,  содержащая информацию относительно Норвежских муниципалитетов с 1769 года по настоящее время.

- уровень индивидуальных данных содержит всестороннюю информацию относительно членов норвежского общества, причем  все индивидуальные данные уровня  доступны для  пользователей в анонимной форме.

- данные относительно политической системы предоставляют  информацию относительно учреждений, лиц  и процессов в политической системе и правительстве. Здесь можно найти биографические сведения, результаты голосования в Норвежский парламент и манифесты различных организаций и партий.

·        Архивы Штайнметца – Нидерланды (Steinmetz Archivehttp://www.niwi.knaw.nl/cgi-bin/nph-star_search.pl). Институт Штайнметца, названный в честь одного из основателей социологии в Нидерландах, был основан в 1964 г. Позже Институт стал архивом, который сейчас является частью Центра информации и документации социальных наук (SWIDOC).  Архив предназначен для сбора, хранения и распространения социологических данных среди вторичных аналитиков. В нем собраны более 12000 массивов данных, охватывающих все социальных науки. Все исследования различаются по природе и по масштабу, но среди них выделяются два основных:

1.      исследования национальных выборов в Нидерландах;

2.      серия более чем 700 еженедельных опросов общественного мнения,  проводимых   Нидерландским институтом общественного мнения и рыночных исследований (NIPO), начиная с 1962 г.

Архив Штайнметца определенным образом хранит данные, собранные из нескольких исследовательских институтов и государственных источников. Некоторые файлы данных покупаются Архивом на основе информации, получаемой из библиотеки SWIDOC и научной периодики. Исследования, сохраняемые в архиве, должны иметь основную сопутствующую документацию, включая систему кодирования, копию опросного листа, две копии о цели исследования, описание формата данных. Могут быть отмечены конкретные ограничения использования данных.

Архив систематически классифицирует каждое исследование в своем ``Каталоге’’ и ``Путеводителе’’ соответственно международной схеме, которая требует обозначения идентификационного номера исследования, заголовка, даты начала, ключевых слов, числа переменных и т.д. Каталожные индексы позволяют исследователю расположить массивы данных по ключевым словам, названию, дате, руководителям проектов.

Архив предлагает пользователю множество услуг, некоторые бесплатно.     Получить данные из архива довольно просто. Достаточно заполнить форму, напечатанную на обороте каталога. Данные обычно предлагаются в машиночитаемом виде, чаще всего в файлах SPSS.

Архив Штайнметца является членом Международной федерации информационных организаций (IFDO), Международной ассоциации Социологических информационных услуг и технологий (IASSIST), а также членом ECPR  и  ICPSR.

·        Центральный Статистический Офис Польши (Central Statistical Office – (CSO/P) - http://ciesin.ci.uw.edu.pl/) – был организован в Польше в 1994 году как региональное отделение CIESIN (Constortium for International Earth Science Information Network)  Консорциума информационной связи для науки на базе компьютерного центра Варшавского университета. Основными целями деятельности его  организации были:

1.      Разработка стратегической линии развития Польши

2.  Собрание мета-информации относительно  существующих в Польше Баз  Данных

3.  Распространение доступной в диалоговом режиме  информации из существующих        баз данных

4. Проведение лекций для студентов по информатике на тему:  "Использование Интернета для осуществления ориентированного информационного поиска"

Членами регионального отделения CEISIN являются такие организации, как      Компьютерный центр Варшавского университета, Институт Философии и Социологии Польской Академии Наук, Центральный Статистический Офис и Исследовательский центр Общественного мнения Польши.

·        Архив данных Социологического исследовательского комитета (Social Science Research CommitteeSSRC) – http://dawww.essex.ac.uk/), образованный в 1967 г., - самый большой банк социологических данных в Великобритании. Его деятельность поддерживается материально Социологическим исследовательским комитетом и Университетом в Эссексе, где архив и расположен. В банке содержатся  файлы данных из академических исследований, опросов общественного мнения, государственных маркетинговых исследований, рыночных обзоров. В него включено также детализированное описание текущих Британских социологических обследований. Кроме этого, в архиве имеются каталоги многих других значительных хранилищ данных (как национальных, так и международных), и одной из его функций является обеспечение доступа исследователей к их данным. Архив поддерживает отношения с другими архивами и является членом Международного Консорциума политических и социальных исследований, являясь его Британским членом. Он также принадлежит к Международной Федерации информационных организаций (IFDO) и к Международной Ассоциации ``Информационные услуги и технологии в социальных науках’’ (IASSIST).

Процесс получения данных в архиве SSRC очень прост. Исследователь должен заполнить две формы. Одна включает в себя полные требования относительно массивов данных, их типов, размерности и т.д. Вторая  -  согласие пользователя с определенными условиями использования данных, выдвигаемыми архивом. Данные предоставляются на магнитных носителях в формате, определенном пользователем. Копии всех шифров и оригиналы опросных листов или анкет предоставляются заказчику до того, как оформлен заказ.

Архивом публикуется два обширных каталога, предоставляющих полнейшую информацию о массивах данных и способах их получения. Прилагаются списки публикаций, связанных с этими данными, списки собственников данных и спонсоров исследования и т.д. В каталогах файлы классифицированы соответственно 23 категориям, включая социальное благосостояние, изучение общественного мнения, услуги здравоохранения, экономическое поведения и широкомасштабные долгосрочные исследования.

Архив SSRC много усилий прилагает к поиску новых первичных файлов данных. Трехгодичный ``Бюллетень Архива Данных’’ распространяет новости об услугах архива и продвижениях в области количественного социологического анализа. В нем прилагается список новых файлов данных, пополнивших архив за последнее время. Он также анонсирует конференции, встречи и семинары по использованию и обработке данных.

·        Архив данных Информационного Центра социологических исследований Японии (SSJ Data ArchiveSSJDA) - http://ssjda.iss.u-tokyo.ac.jp/pages/ssjda-e/ ) организован в 1997 году на базе Токийского университета. Архив предлагает для вторичного исследования собрания статистических данных, полученных в результате различных социологических программ. Финансовую поддержку архив получал на протяжении трех лет от министерства образования.

 

 

ЛИТЕРАТУРА

1.      Жукова Т.И. Архивирование социологической информации как современный фактор проведения эмпирических исследований. // Российское общество: социологические перспективы. Эдиториал УРСС, Москва, 2000.

2.      Making data visible //The Data Archive Bulletin, September 1999 No. 72

3.      Европейские базы данных по социальным наукам. Их использование в межнациональных исследованиях. //Международный журнал социальных наук. Том III, 1995 г. РАН/ЮНЕСКО.

4.      J. Ryssevik, S.Musgrave. Virtual Data Libraries //Conference Papers, Sorrento, 1998.

5.      J. Ryssevik, S.Musgrave. The Social Science Dream Machine: Resource Discovery, Analysis, and Delivery on the Web, Social Science Computing Review, Summer 2001

6.      J. Bethlehem, J.Kent, A.Willeboordse. "On the use of metadata in Statistical data processing", Working Paper No. 23, UN/ECE Work Session on Statistical Metadata, Geneva, Switzerland, 22-24 September 1999.

7.      Юдина Т.Н., Журавлев С.В. Проблема информационного обеспечения науки и образования.  Информационная система "РОССИЯ"// Научно-исследовательский вычислительный  центр МГУ им. М. В. Ломоносова, 1999.

8.      СОФИСТ - Система Организации Фактографической Информации по Социологической Тематике //http://sofist.socpol.ru

 

 

 

Используются технологии uCoz