Принципы построениЯ и структура информационных систем ДЛЯ анализа социальных процессов[1]

 

В.Б.Бритков, Т.И.Жукова

 

Введение

 

            Широкое распространение методов информатики в гуманитарных науках и прежде всего в социологических исследованиях, как обычно при бурном развитии новых направлений, не только помогает получать новые результаты, но и ставит много новых научных проблем. В исследованиях социальных процессов на основе информационного подхода авторы корреспондируются с предложенным Н.И.Лапиным пониманием социальной информатики как новой междисциплинарной области знания, включающей в себя сложный комплекс социальных, экономических, политических, культурных, методологических и иных проблем [1]. Мы предполагаем использовать предложенное Н.И.Лапиным понятие ``социоинформационное пространство’’ в процессе применения методов социальной информатики для создания и использования информационных систем социологических данных.   В связи с переходом на рыночные отношения в России, уменьшением средств, выделяемых на развитие науки, возникают серьезные проблемы для информационной поддержки социальных и социологических исследований. В настоящее время в России (да и за рубежом) развиваются прежде всего коммерческие информационные системы, которые могут дать заметную прибыль в короткое время. В этих условиях исключительно актуальной становится задача эффективного использования очень ценной (в буквальном и переносном смыслах) уже накопленной и полученной в результате исследований социологической информации.

 

Социальная и социологическая информация

 

            Введем следующие определения, которые будем использовать в данной работе. Социальная информация - в соответствии со значением слова ``социальный’’  - это общественная информация, то есть информация, связанная с жизнью и отношениями людей в обществе. Социологическая информация, следуя значению термина социология - это информация об обществе, созданная с помощью ``науки о закономерности и функционировании общества в целом и отдельных составляющих его социальных систем’’ - социологии. Таким образом, можно считать, что социальную информацию мы выделяем из различных статистических и других источников, в то время как социологическая информация создается специалистами - социологами в результате применения специальных социологических инструментов - опросов, анкетирования, применения специальных социологических методик. Естественно, что жесткой однозначной границы между социальной и социологической информацией не существует. Одна и та же информация может выступать и считаться принадлежащей и тому, и другому классу одновременно, однако участники научных исследований предпочитают иметь дело с социологической информацией.

            Характерной чертой социологической информации является плохая формализуемость [2]. Это не эмоциональная оценка, а реальная ситуация.  Плохая формализуемость означает, что недостаточно хранить только данные, (технология хранения и использования данных хорошо отработана). Для оперирования социологической информацией в компьютерных системах нужно обязательно хранить и использовать большой объем дополнительных сведений (знаний), которые описывают, где эти данные взяты и по какой методике они получены.

            Существует противоречие между необходимостью хранить первичные (исходные)  данные и удобством работать с обработанными, приведенными к унифицированной форме, показателями. Почти всякая обработка является субъективной и вносит искажение в исходные данные. И хотя каждый раз исследователь стремится как можно более точно воспроизвести структуру генеральной совокупности, все же определенных искажений и погрешностей нельзя избежать никогда. Например, приводя данные на 1000 жителей,  мы делаем субъективный выбор определения понятия ``жители’’, включая в него только  постоянно прописанных граждан или с учетом приезжих, принимая во внимание маятниковую миграцию или нет,  устанавливая границы возрастных групп и т.п. В любом случае нужно хранить не только данные, информацию, но и знания - методики, по которым эти данные (информация) были получены, гипотезы и предположения, положенные в основу исследования.

            До недавнего времени исследователи пользовались традиционными источниками социальной информации. В основном, это общие универсальные статистические системы, чаще всего материалы соответствующих статистических организаций, отчетные материалы различных ведомств. Из таких систем выбираются, например, данные по образованию, интенсивности культурной жизни населения,  политической активности (участие в выборах) и т.п.

            При более тщательном анализе используются данные социологических обследований. Для этого класса данных одна из главных проблем состоит в сложности перевода в машинной вид всей информации о методике обследования, репрезентативности выборок, используемых гипотезах.

            В последнее время вследствие бурного развития информационных технологий появились нетрадиционные источники получения социальной информации. Это предоставляет принципиально новые возможности для прикладной социологии.

            Возьмем к примеру, Государственную автоматизированную систему ``Выборы’’. После проведения выборов или других типов голосований социологи могут получить в свои руки громадный объем данных, социологический анализ которых может дать много интересных результатов, для получения которых раньше требовались грандиозные усилия. Получив результаты выборов по республикам, областям, городу и селу, рабочим и                     привилегированным районам, военным и гражданским категориям населения, и т.д. можно делать весьма содержательные выводы.

             Другие данные,  которые можно получить практически даром, без дорогостоящих  социологических обследований - это информация из компьютерных сетей общего пользования. В них автоматически накапливается информация о количестве пользователей базами данных,  информационными системами, тематическими страницами в Интернет. Некоторые системы запрашивают персональные данные пользователей, их возраст, пол, образование и т.д. Эти данные можно эффективно использовать для социологического анализа.

            Актуальность организации социологической информации признается на всех уровнях. В 1994 г. было основано Агентство социальной информации - незавиcимое информационное агентство. С мая 1996 года совместно с благотворительным фондом ``Сопричастность’’ АСИ издает информационно-аналитический бюллетень, который выходит два раза в месяц. Каждый выпуск бюллетеня посвящен отдельной актуальной социальной проблеме и содержит интересные статистические данные, интервью, аналитические материалы.

 

Классификация подходов, методов и средств

хранения и обработки информации

 

            Рассмотрим основные категории, используемые в информатике при взаимодействии с информационными системами.

            Базы данных - наиболее изученная и проработанная за последнее время область информатики. Для работы с ними используются Системы управления базами данных (СУБД). В последнее время реляционные СУБД практически вытеснили все остальные, хотя еще 10 лет назад среди многих специалистов было распространено мнение, что использование реляционных СУБД в практических задачах не имеет перспективы. Реляционный принцип управления данными основывается на принципе создания отношения между данными, которые внешне выглядят как таблицы. Эти схемы являются предельно гибкими и легко расширяются и видоизменяются по сравнению с иерархическими и сетевыми базами данных (изменить иерархию в виде дерева очень непросто не перестраивая все дерево) [3]. Базы знаний  - очень модный термин, который подчеркивает, что кроме чисто данных здесь могут храниться и знания. Существует множество подходов к созданию баз знаний и еще больше вариантов систем управления ими. В этой области достижения в основном связаны с решением некоторого специального класса задач с учетом их специфики.

            Информационная система - комплекс программных, аппаратных средств и информационных массивов, разработанных по некоторой методологии и позволяющий решать комплекс задач ввода, хранения, поиска, обработки и представления информации.

            По характеру доступа и схеме функционирования информационные системы социологических данных нужно разделить на два класса систем: системы on-line и off-line.

            В режиме off-line формирование запроса (задания) и получение результата разделено по времени и составляет три раздельных этапа: запрос, выполнение, представление результатов. Это наиболее простой, надежный и эффективный метод работы, когда имеется возможность четко сформулировать запрос (мы не говорим о понятии срочности проведения работы, поскольку как правило социологические исследования не проводятся в реальном масштабе времени).

            В режиме on-line возникают множество дополнительных проблем, связанных с наличием каналов связи, разграничением доступа, временем обработки ожидания ответа. Важным преимуществом режима on-line является возможность формирования запросов (заданий) в процессе работы с учетом предыдущих результатов.

            Разработчики информационных систем социологических данных сталкиваются с проблемой, когда от пользователей не удается добиться четко формализованного ответа, какая же информация им нужна. Поскольку социальная информация как правило не является коммерческой и пользователю не надо платить за каждый байт заказываемой информации, то потребитель всегда отвечает, что нужна вся информация. Здесь самое время вспомнить принцип ``Дадим заказчику не то, что он просит, а то, что ему нужно’’. Но на практике реализовать этот принцип не всегда возможно. Его реализация как правило требует больших усилий.

            Практическая работа с большими объемами социальной информации дает основание считать, что одной из главных проблем взаимодействия с информационными ресурсами является противоречие между количеством и качеством (актуальность, достоверность, непротиворечивость, целостность) информации.

            Существует несколько факторов,  из-за которых большие объемы социологических данных снижают общую ценность информационных систем.

            В мире не существует абсолютно надежного контроля входной информации, поскольку в ее создании принимает участие человек. Вероятность ошибки возрастает пропорционально количеству информации (может быть даже пропорционально квадрату или кубу).

            Мы все больше и больше зависим от информации в компьютере, все больше требования к достоверности и точности данных, поэтому увеличивая объемы данных надо отдавать себе отчет, сумеем ли обеспечить их достоверность.

            Другим важным фактором являются технологические возможности

оперирования, которые связаны с ограниченностью различного рода ресурсов, возможностью размещения на дисковой или оперативной памяти, необходимостью копирования, дублирования и т.д.

            Для того, чтобы информация была достоверна необходимо ее проверять, актуализировать и дополнять большим количеством дополнительных данных. Во многих случаях необходимость дополнительной информации не является очевидной. Например, если приводится дата рождения для пожилых людей, то необходимо указать, по старому или новому стилю она указана. В одном из календарей было приведено два дня рождения Л.И.Брежнева: по новому и старому стилю. Выяснилось, что страна праздновала юбилей не в тот день.

           

            Проектируя информационные системы социологических данных, надо четко представлять, что желая увеличить объем информации, надо иметь в виду, что объем может возрасти гораздо больше ожидаемого. Если не учесть некоторые детали, то информация может стать недостоверной.

            Очень важным вопросом является возможность поддержания информационной базы в актуальном состоянии или актуализация информации.  Многие разработчики, проектируя информационные системы, не задумываются над тем, смогут ли они своевременно обновлять информацию. В некоторых случаях это чисто техническая задача. В лучшем положении оказываются создатели систем законодательной информации. Все законы должны публиковаться, их можно регулярно получать. У разработчиков остается логически--техническая проблема:          хранить исходные законы и изменения к ним или вносить изменения в тексты законов.

            Оба варианта имеют недостатки, иногда нужно знать, какой вариант постановления действовал в конкретный момент времени. Но в любом случае, здесь вопрос об объемах стоит просто. Если есть возможность получать новые законодательные акты их можно включать в информационную систему.

 

Проблемно-ориентированные информационные системы

социологических данных

 

            В  последнее время в публикациях по информатике и в дискуссиях специалистов зазвучала нота неудовлетворенности  состоянием  дел  в  области информационных систем . Оптимизм 80-х годов, что развитие и  совершенствование  систем управления базами данных  позволят решить  проблемы  информационного обеспечения, не оправдался.

            Стали говорить, что индустрия информационных систем  в глубоком кризисе. Идеальный сценарий создания крупных централизованных баз  данных,  независимых  от  систем  обработки, на практике оказался плохо осуществимым из-за огромных размеров, сложностей согласования и администрирования. Причины неудач здесь очень схожи с недостатками централизованного административного управления в экономике в целом.

            Особенно сильный удар по идеологии централизованных баз данных нанесло широкое распространение персональных компьютеров. Стали повсеместно  возникать локальные информационные системы,  персональные базы данных. Но поскольку ясно, что в изолированных информационных системах  существуют  проблемы  сбора информации и ввода данных в ЭВМ (что является одним из критических вопросов в индустрии обработки данных), то актуальной становится проблема взаимодействия между отдельными информационными системами.

            На конгрессе Международной Федерации по обработке данных в 1986 г. [4] была предложена  концепция  ``Третьей волны’’ в информационных системах. Там было констатировано, что первая волна развития информационных технологий связана с использованием в работе на персональных ЭВМ индивидуальных наборов файлов, в которых хранилась вся необходимая информация. Вторая волна провозгласила магистральным направлением создание интегрированных систем независимых данных , поддерживаемых системами управления базами данных. В этой идее была реализована логическая централизация пользования общими информационными системами, составленными специалистами в области хранения и обработки данных. Несмотря на видимую эффектность всевозможных глобальных систем и централизованных массивов информации, очень скоро стало ясно, что для глубокого анализа явлений таких обобщенных данных явно не хватает. Поэтому специалисты пришли к необходимости создания отдельных (персональных) информационных систем вместо общих баз данных, что характерно для третьей волны развития информационных технологий. К тому же, существуют технические возможности для связи этих систем и использования информации из других информационных систем.

            Персональные базы данных имеют  преимущества  приближенности  к решаемым задачам, сравнительно небольшой объем, понятный и хорошо знакомый пользователю словарь данных.

            Главной проблемой персональных баз данных являются вопросы получения информации и обновления данных, которые для стандартного пользователя являются обузой и от которых он хотел бы  избавиться.

            Способом разрешения данного противоречия может быть создание комплекса проблемно-ориентированных информационных систем социологических данных и интегрированной (общей) информационной системы социологических данных.

            Проблемно-ориентированная информационная система может быть одна на несколько  пользователей,  занимающихся некоторой узкой проблемой.

На наш взгляд, эта форма наиболее пригодна для использования в рамках небольшого коллектива ученых, занимающихся смежными проблемами. Она имеет разумный размер и не требует сверхбольших компьютерных мощностей. В проблемно-ориентированной информационной системе может быть представлена вся необходимая справочная информация, она предоставляет весь комплекс несложных возможностей актуализации информации. В то же время, она может являться и базой знаний, в которую включены все результаты деятельности данного коллектива ученых, дополняющую первоначальный набор информации.

            Большинство неудач информационных систем (впрочем и других систем тоже) закладываются на первоначальных этапах их создания. Главной причиной этих неудач является непонимание того факта, что этот этап является наиболее сложным, плохо формализуемым и очень ответственным.

            Одной из основных причин построения неудачных систем является наличие плохо сформулированных требований, которым должна отвечать та или иная система. Почему мы зачастую не в состоянии четко сформулировать требования к системе? Потому что это весьма не просто; разработчики имеют слабое представление о работе пользователей (и наоборот); представления разработчиков об этой фазе проектирования систем отличны от представлений об этом пользователей.

           

           

            Эта проблема складывается из нескольких:

            1. Решение сложной проблемы требует наличия четких требований к ее решению [5]. Должны быть определены конкретные цели, задачи и методы решения проблемы. Но не зная точно, какие вопросы необходимо будет решать на последующих этапах проектирования, можно не учесть очень важных возможностей.

             2. Неожиданно сложно оказывается сформулировать четкие и ясные требования, поскольку не так уж просто описать все функции и процессы.

             3. Требования к системе могут меняться, а потому необходимо иметь возможность вносить возникающие изменения.

             4. Решение проблемы, как правило,  требует компромиссных решений и необходимо на первоначальном этапе четко определить рамки, в которых возможен компромисс.

             5. К сожалению, мы не располагаем другими критериями, кроме окончательного успеха или провала системы, так что на стадии спецификации еще трудно судить о  качестве будущей системы.

            Поскольку полностью устранить эти трудности практически невозможно, необходимо попытаться хотя бы минимизировать их воздействие. Большое значение имеют психологические факторы. Проектировщики и пользователи сильно сомневаются друг в друге, и причины такого отношения очевидны. В случае провала системы наступает разочарование: у пользователей от ошибок разработчиков системы, а у разработчиков оттого, что они оказываются виноватыми.

            Надо иметь ввиду, что  пользователь обладает гораздо большими знаниями и опытом в своей конкретной области, чем в общесистемных вопросах, а значит нужно, чтобы он действовал с учетом имеющихся у него знаний, в области существующих систем и спецификации новой, т.е. делал то, что он может выполнять лучше разработчика.  Первоочередной задачей пользователя в проекте является защита его собственных интересов, поэтому пользователю предоставляется возможность формулировки схемы взаимодействия ``информационная система - исследователь’’.

            Еще одна проблема заключается в том, что у разработчиков и пользователей нет в процессе определения  информационной системы общих задач. И те, и другие согласны, однако, что главной целью спецификации должно быть выяснение конечных контуров системы и определение ее функциональных характеристик.  С точки зрения проектировщика, необходимо составить такую спецификацию которая эффективно трансформировалась бы в проект системы. Для этого она должна быть сформулирована в терминах запросов, входной и выходной информации, а также структур данных. Специалисты требуют, чтобы спецификация была четкой, ясной, а также полной, так как проектирование будет оптимальным, если известны все детали,

необходимые для  корректного перевода требований пользователей на язык баз данных и программ обработки. В идеальных случаях спецификация должна быть настолько жесткой, что проектирование, программирование и тестирование не приходится изменять и повторять, но таких идеальных случаев, по-видимому, не существует.

            Разработчики заинтересованы в том, чтобы составить такую спецификацию системы, которая была бы не только технически осуществимой, но и элегантной,  с которой можно добиться получения несложных баз данных, эффективной работы ЭВМ и достаточного вывода. Поэтому проектировщикам системы необходимо вникать в мельчайшие характеристики требуемой системы.

            Напротив, очевидно, что  пользователей больше устраивает спецификация, характеризующая систему в целом. Для достижения уровня детализации, требующегося разработчикам, пользователи должны очень хорошо разбираться в схеме решения проблемы. Они часто не могут понять вопросы разработчиков ``что?’’ и ``как?’’, поскольку, как правило,  мыслят в разных категориях и часто не могут понять друг друга, являясь высококлассными специалистами в своей области.

            Качественный характер спецификаций пользователя предполагает, что будет существовать возможность для дальнейшего их уточнения и развития. Часто пользователи ожидают, что ответив на все поставленные разработчиками вопросы, они гарантируют исполнение всех своих требований в новой системе. Считая необходимым для достижения поставленных целей безусловное выполнение всех требований без исключения, они бывают просто ошарашены, узнав о том, что некоторые из них технически неосуществимы.

            Пользователи требуют гибкости системы. Спецификация системы должна меняться, как и сама система, в соответствии с их нуждами, и пользователи считают, что процесс спецификации может тянуться сколь угодно долго. Однако, это неверно. Традиционно считается, что спецификация должна быть составлена во время первой, предварительной стадии проекта. Вся деятельность по спецификации должна быть ограничена сроками и закончена к началу непосредственного проектирования. В противном случае, это может привести к такому положению, когда пользователь захочет что-то изменить в системе, а реальных технических возможностей для этого уже не будет. Иногда пользователи вносят в спецификацию системы преувеличенные требования и завышенные характеристики. Это обусловлено психологическими причинами: они пытаются себя застраховать от возможных неудач.

            Следует отметить, что и  пользователи, и разработчики  заинтересованы в спецификации такой системы, которая бы работала, выполняя определенные функции без сбоев, была бы максимально эффективной и служила намеченным целям.

            Попытаемся определить, что такое хорошо специфицированная система?

            Определимость системы зависит от ее характеристик. Среди характеристик можно выделить следующие:

            Тип системы (статическая, динамическая).

            Размер системы (количество выполняемых операций; количество организаций ; количество людей, участвующих в спецификации системы; количество подсистем; количество интерфейсов). По мере увеличения размера системы определить ее становится все сложнее.

            Сложность системы (количество переменных; степень независимости переменных; количество баз данных и возможность их обновления; логическая сложность; степень динамичности). Определимость системы ухудшается пропорционально росту сложности.

             Очень важно проконтролировать, действительно ли необходимы все запланированные характеристики системы.

            Таким образом, опираясь на вышеизложенное, можно сформулировать основные требования к спецификации проектируемой информационной системы.

            1) К началу спецификации системы должен быть выработан документ со строгими рамками проекта.

            2) Система должна быть разделена на отдельные части. Это может вызвать проблемы согласования, но зато поможет лучше понять каждую часть системы в отдельности.

            3) Необходимо разграничить подсистемы, ориентированные на выполнение различных операций: проверку данных, их обработку,  предоставление справочной информации и т.д.

            4) Необходимо расположить все требования к системе в порядке приоритета.

            5) Ограничить количество переменных и баз данных в системе.

            6) Устранить гибкость системы, которую не может контролировать пользователь. Установить, нужна ли она для обеспечения часто повторяющихся операций или же редких исключений.

            7) Отвергнуть запросы на те характеристики системы, которые не могут быть реализованы из--за неготовности техники или персонала (техническое вето).

            8) Отвергнуть характеристики, реализация которых приведет к большим затратам машинного времени, дискового пространства, и других ресурсов ЭВМ (операционное вето).

            9) Отвергнуть характеристику (или совокупность характеристик системы), если она не может быть реализована без нарушения временных ограничений (ресурсное вето).  Другими словами, нельзя молчать, если видишь, что система становится перегруженной. Нужно срочно формулировать рекомендации по приведению ее в норму, вносить исправления в официальные документы проекта с обоснованием выполнимости и стоимости, а также требовать, чтобы пользователи одобрили эти изменения.

 

    Сравнительный анализ социальных информационных систем

 

            Как уже упоминалось наибольшее развитие получали те информационные системы, применение которых может дать большую прибыль. Характерными примерами в этой области являются такие системы как:

           

            Reuter - 2000, которая позволяет в реальном масштабе времени получать информацию со всего мира о курсах валют и тут же проводить спекулятивные операции;

            MAID (Profound) [6], которая позволяет в считанные минуты получить данные о 10 миллионах фирм, с распределением должностей ведущего персонала и финансовым отчетом за последние несколько лет, а также аналитические отчеты по различным секторам рынка для оперативного принятия решений при заключении контрактов;

            Mobile (Москва), которая содержит оперативную информацию (обновление 2 раза в неделю) о практически всех предложениях на компьютерном, риэлтерском и других рынках Москвы;

            Гарант и Консультант+, которые позволяют получить подробные юридические справки по разного рода законодательным вопросам.

            Эти системы хорошо продаются и поэтому имеют финансовую поддержку для своего развития. Другая ситуация с социальной и социологической информацией. До периода следующих выборов трудно ожидать резкого всплеска интереса широкого класса заказчиков на социальную информацию. Поэтому социальная информация на сегодня очень слабо представлена на информационном рынке. Подробный анализ ситуации с предложениями социальной информации в России тема отдельной статьи, но можно привести ряд характерных примеров.

            Так в Российской энциклопедии информации и телекоммуникаций за 1984 г. [7], где достаточно полно представлены информационные ресурсы России, есть всего два упоминания о социальной информации (не считая Госкомстата):

            1) Архив ВЦИОМ (социологические исследования, в т.ч. формы анкет, отчеты, результаты в виде распределений и таблиц);

            2) Социально-экономическое развитие города Новосибирска (показатели развития города, включая технико-экономические и статистические показатели промышленности, строительства, здравоохранения, образования и др.).

            Институт научной информации по общественным наукам (ИНИОН РАН), имея длинную историю использования вычислительной техники, может предложить в качестве социальной и социологической информации на машинных носителях только библиографию изданий по этой проблематике.

           

 

            Не имея богатого опыта разработки и использования информационных систем социологических данных, мы обратили внимание на зарубежный опыт. Для ученых развитых стран мира уже давно стала очевидной непреходящая ценность экспериментальных исследований в социальных науках,  уникальности социальных процессов, невозможности многократного повторения эксперимента, исключительной трудности проверки и сопоставления экспериментальных результатов. Это сделало насущной проблему систематического сохранения и накопления эмпирических данных, привело к признанию необходимости создания информационных систем социологических данных с применением новейших современных информационных технологий. Практика электронного хранения и архивирования социальной информации в странах Запада последовательно культивируется с 60-х годов и с тех пор постоянно развивается и совершенствуется. Еще в 1955 году Штейн Роккан изучал “...возможности и проблемы вторичного анализа данных ... на основе отдельных, независимо организованных исследований”[8].

            Исторически большие информационные центры называются архивными учреждениями, и, следуя этому понятию, мы будем проводить сравнительный анализ архивов социологических данных , которые значительно различаются в зависимости от источника и от уровня финансирования. Понятно, что чем  выше уровень финансирования, тем глубже и шире те услуги, которые предоставляются архивами. Внешнее финансирование (от фондов и агентств) является основным для развития и поддержки архивов, т.к. сами архивы могут покрыть только издержки своего существования.  Как показывает практика, лучшие условия финансирования обеспечивают себе те архивы, которые нашли возможность внедриться в структуру коммерческих организаций.

            Основная услуга, предоставляемая архивами, - это создание и распространение массивов систематизированных данных и сопровождающей их документация.  Данные предоставляются на машинных носителях. Обычно маленькие архивы предоставляют только данные и документы, а большие архивы предлагают помощь  в обработке данных и информацию о наличии данных в других архивах. При поступлении массива данных в архив основная его деятельность направлена на унификацию, проверку, систематизацию и размещение данных в файлы. Многие архивы предоставляют помощь в компьютерной обработке. Другие также предоставляют выборки данных в табличном виде, что оказывается дешевле для пользователя, чем оплачивать полный файл данных. Некоторые архивы проводят статистическую обработку по заказу.

            Разные архивы осуществляют образовательную функцию,  проводя семинары и организуя институты (например, летний Международный Консорциум политических и социальных исследований).

            Все архивы хранят и накапливают данные, но они сильно отличаются в подготовке данных к использованию.

            Некоторые архивы обрабатывают данные, собранные своими исследователями, преобразовывая их в машинную форму и делая их доступными для сообщества потребителей. Другие же ищут и обрабатывают данные, собранные внешними исследователями, но при условии, что данные не требуют существенной  ``чистки’’ (например, исправления неправильного кодирования) и дополнительного описания.

            Доступ к данным и услугам тоже различается среди архивов. Чаще всего небольшие организации обслуживают только членов своих научных сообществ. На другом конце спектра - такие, которые осуществляют доступ общественности к своим фондам.

            Архивы социологических данных различаются также по отношению к специализации их фондов и по местонахождению. Например, некоторые специализируются на экономических данных, другие - на показателях здоровья населения и услугах медицины, третьи - на социальных и политических вопросах.

            Большинство архивов имеют свои каталоги, которые дают представление об услугах и фондах архива. Таким образом, первым этапом работы пользователя при решении задачи вторичного анализа является выбор адекватного массива данных и, чаще всего, этот этап становится ключевым. Чтобы выбрать адекватный задаче массив данных исследователь должен послать запросы в несколько архивов, при этом он должен сформулировать как можно больше требований к типу данных, к типу исследований, к стоимости массива. После получения ответов, пользователь должен выбрать для себя наиболее подходящий вариант, проведя дополнительные консультации с программистами архивов и выяснив, смогут ли они предоставить данные в удобной форме и с необходимыми комментариями.

             Приведем примеры наиболее известных и авторитетных архивов.

            Лидирующий источник данных для вторичного анализа в академической науке в Америке - Межуниверситетский Консорциум политических и социальных исследований (ICPSR). Много более мелких архивов являются его членами, тем самым предоставляя большому числу пользователей легкий доступ к собственности Консорциума. Архив данных Социологического Исследовательского Комитета (SSRC) и Архивы Штайнметца в Нидерландах, два национальных социологических архива данных, являют примеры важных источников данных и услуг в социологической науке.  Центры Ропера и Харриса - собственники данных обследования американского общественного мнения, представляют собой огромный исследовательский потенциал для проведения вторичного анализа.

 

Межуниверситетский Консорциум политических и социальных исследований (ICPSR)

 

            ICPSR расположен на территории Университета в Мичигане - уникальный среди архивов социологических данных. Организован в 1962 году. Его целью при создании было значительное расширение доступа исследователей к огромному массиву данных, собранных с 1950 г. Это самое обширное в мире хранилище и служба распространения машиночитаемых социологических данных, насчитывающих 17000 компьютерных файлов данных по сравнительному и историческому анализу, представляющих все социальные дисциплины по 130 странам мира.

           

            Часто используемые в Америке первичные исследования, такие как Американское национальное исследование выборов, Панельное исследование динамики доходов и Всеобщее Социальное обследование, проводились Консорциумом, поскольку важные масштабные социальные исследования всегда инициировались государством. Национальное изучение здоровья, изучение образования, потребительского поведения и занятости - все данные доступны через Консорциум.

            Здесь также хранятся огромные материалы из Бюро Переписей, включая десятилетние периодические переписи населения, ежегодные демографические данные, начиная с 1968 г., и исследования по специальным темам. Есть и неамериканские данные, относящиеся по большей части к международным вопросам и качеству жизни.

            Два более маленьких архива существуют под покровительством ICPSR:  Национальный архив компьютерных данных по старению населения (NACDA), который специализируется на статистике о  здоровье, пенсии, причинах смерти, стереотипах старения, и  Криминальный архив (CJAIN), поддерживаемый Бюро правоохранительной статистики.

            Деятельность Консорциума сконцентрирована в трех различных областях.

            1.  Консорциум хранит и распределяет машиночитаемые социологические данные, полученные и введенные собственными исследователями, а также купленные у коммерческих или государственных организаций.

            2. Он обучает ученых эмпирическим исследованиям посредством проведения программы ``Количественные методы в социальных исследованиях’’.

            3. ICPSR вырабатывает рекомендации и методики, которые способствуют использованию продвинутых компьютерных технологий.

            Стать членом Консорциума в первую очередь имеют право институты системы высшего образования. Размеры платы для каждой членской категории основаны на размере организации и типе социологической программы, которую они выполняют. Корпоративное членство доступно для группы организаций. Ежегодные взносы дают членам факультета и студентам право доступа к полному спектру услуг Консорциума.

 

Архив данных Социологического Исследовательского Комитета

           

            Архив данных Социологического исследовательского комитета (SSRC), образованный в 1967 г., самый большой банк социологических данных в Великобритании. Его деятельность поддерживается материально Социологическим исследовательским комитетом и Университетом в Эссексе, где архив и расположен. В банке содержится более 13000 файлов данных из академических исследований, опросов общественного мнения,

государственных анализов, рыночных обзоров. Он содержит детализированное описание текущих Британских социологических обследований. К тому же в этом архиве имеются каталоги многих других значительных хранилищ данных (как национальных, так и международных), и он облегчает доступ исследователей к данным. Архив поддерживает отношения с другими архивами и является членом Международного Консорциума политических и социальных исследований, являясь его Британским членом. Он также принадлежит к Международной Федерации информационных организаций (IFDO) и к Международной Ассоциации ``Информационные услуги и технологии в социальных науках’’ (IASSIST).

            Процесс получения данных в архиве SSRC очень прост. Исследователь должен заполнить две формы. Одна включает в себя полные требования относительно массивов данных, их типов, размерности и т.д. Вторая -  согласие пользователя с определенными условиями использования данных, выдвигаемыми архивом. Данные предоставляются на магнитных носителях в формате, определенном пользователем. Копии всех шифров и оригиналы опросных листов или анкет предоставляются заказчику до того, как оформлен заказ.

            Архивом публикуется два обширных каталога, предоставляющих полнейшую информацию о массивах данных и способах их получения. Прилагаются списки публикаций, связанных с этими данными, списки собственников данных и спонсоров исследования и т.д. В каталогах файлы классифицированы соответственно 23 категориям, включая социальное благосостояние, изучение общественного мнения, услуги здравоохранения, экономическое поведения и широкомасштабные долгосрочные исследования.

            Архив SSRC много усилий прилагает к поиску новых первичных файлов данных. Трехгодичный ``Бюллетень Архива Данных’’ распространяет новости об услугах архива и продвижениях в области количественного социологического анализа. В нем прилагается список новых файлов данных, пополнивших архив за последнее время. Он также анонсирует конференции, встречи и семинары по использованию и обработке данных. 

 

Архивы Штайнметца

           

            Институт Штайнметца, названный в честь одного из основателей социологии в Нидерландах, был основан в 1964 г. Позже Институт стал архивом, который сейчас является частью Центра информации и документации социальных наук (SWIDOC).  Архив предназначен для сбора, хранения и распространения социологических данных среди вторичных аналистов. В нем собраны более 12000 массивов данных, охватывающих все социальных науки. Все исследования различаются по природе и по масштабу, но среди них выделяются два основных:

            1) исследования национальных выборов в Нидерландах;

            2) серия более чем 700 еженедельных опросов общественного мнения,  проводимых   Нидерландским институтом общественного мнения и рыночных исследований (NIPO), начиная с 1962 г.

            Архив Штайнметца определенным образом хранит данные, собранные из нескольких исследовательских институтов и государственных источников. Некоторые файлы данных покупаются Архивом на основе информации, получаемой из библиотеки SWIDOC и научной периодики. Исследования, сохраняемые в архиве, должны иметь основную сопутствующую документацию, включая систему кодирования, копию опросного листа, две копии о цели исследования, описание формата данных. Могут быть отмечены конкретные ограничения использования данных.

            Архив систематически классифицирует каждое исследование в своем ``Каталоге’’ и ``Путеводителе’’ соответственно международной схеме, которая требует обозначения идентификационного номера исследования, заголовка, даты начала, ключевых слов, числа переменных и т.д. Каталожные индексы позволяют исследователю расположить массивы данных по ключевым словам, названию, дате, руководителям проектов.

            Архив предлагает пользователю множество услуг, некоторые бесплатно.     Получить данные из архива довольно просто. Достаточно заполнить форму, напечатанную на обороте каталога. Данные обычно предлагаются в машиночитаемом виде, чаще всего в файлах SPSS.

            Широко распространена практика чтения работниками этого архива обучающих лекций, проведения семинаров по новейшей обработке данных, по созданию специфических файлов данных из собранных материалов, а также по вторичному анализу.

            Архив Штайнметца является членом Международной федерации информационных организаций (IFDO), Международной ассоциации Социологических информационных услуг и технологий (IASSIST), а также членом ECPR  и  ICPSR.

 

Основные архивы опросов общественного мнения: Центр по изучению общественного мнения Ропера и Центр данных Льюиса Харриса

 

            Данные опросов общественного мнения являются богатым источником для вторичного анализа. Основные центры по изучению общественного мнения в Америке - Центр Ропера и Центр Харриса.

            Основанный в 1946 г., центр Ропера по изучению общественного мнения стал самым большим по теме архивом в мире. Центр не является в прямом смысле архивом данных опроса, потому что некоторые академические исследования (например, Всеобщее социологическое исследование) также проводились с участием сотрудников этого центра. Начиная с 1977 г., центр Ропера обосновался в Университете Коннектикута, который управляет Центром наряду с Иельским Университетом и колледжем Уильямса. Центр имеет более чем 10000 файлов данных и каждый год добавляет по 500 новых файлов. Обследования проводились, начиная с 1930 г. до настоящего времени и охватывают Соединенные Штаты и еще более 70 государств. В основном массивы данных Центра относятся к социальным показателям, социальным и политическим предпочтениям, личностным оценкам.

            Многие организации, специализирующиеся на обследованиях (например, Американский Институт Общественного мнения, Национальный Центр по исследованию общественного мнения и т.п.) регулярно пополняют массивы данных Центра Ропера. Результаты многих известных специфически социологических исследований хранятся в базе данных этого Центра. Среди них можно назвать исследование Самуэля Стаффера ``Обследование американских солдат Второй мировой войны’’, проект Алекса Инкеля ``Вхождение в современность’’, посвященный изучению социальных и культурных аспектов процесса развития, обследование мнений американских женщин, серия исследований ``Состояние нации’’ и различные массивы данных, описывающих американский электорат с различных точек зрения.

            Для получения данных из Центра необходимо стать его членом. Центр предлагает три категории членства: для колледжей, для университетов и для внешний организаций. За небольшие по размерам ежегодные взносы эти организации получают доступ к определенным массивам данных (есть и некоторые ограничения) и к соответствующим услугам. Дополнительные данные и услуги доступны за дополнительную плату, причем она существенно ниже, чем для организаций, не имеющих членства в Центре.

            Центр Ропера выпускает несколько периодических публикаций, например, ``Обзор данных для прогнозирования’’ с описанием обследований, регулярно проводящихся с 1930 г., бюллетени новых данных и еще несколько очень ценных изданий.

            Центр Льюиса Харриса, основанный в 1965 г., сейчас является частью Библиотеки данных по социальным наукам при Университете Северной Каролины. ``Льюис Харрис и компаньоны’’ - частная международная фирма, которая с 1956 г. проводила обследования, в том числе непрерывное исследование ``ABC News/Harris’’. Фирма ``Харрис и К’’ и Университет в Северной Каролине  создали огромный архив данных, куда вошли результаты исследований фирмы, начиная с 60-х годов. В свою очередь, Университет взял на себя ответственность за организацию  хранения и распространения данных.

            Центр Харриса содержит сотни файлов данных, затрагивающих такие интересные проблемы, как подвижки в статусе женщин, налогообложение, выборы, контроль за вооружением, покупательские предпочтения. Причем выборки проводились как из специфических популяций (например, врачей, путешественников  через Атлантику и государственных лидеров), так и из общих популяций (население в целом, электорат).

            Вышеприведенный анализ некоторых архивов данных свидетельствует о том, что ключевая проблема для вторичного анализа - выбор адекватного массива данных - в настоящее время решается без существенных проблем. Все архивы публикуют каталоги и путеводители по своим базам данных со всей необходимой сопутствующей документацией. Достаточно только четко сформулировать свои требования к информации, область своих интересов и повести дополнительные консультации с программистами выбранного архива.

            Таким образом, на основании многолетнего опыта можно выявить и обобщить основной перечень архивных функций. Национальные архивные учреждения работают над приобретением данных, обоснованием их хранения, документированием, каталогизацией, обучением пользователей, организацией контроля, повышением качества информации, созданием систем связи, вызывающих особый интерес, оформлением блоков данных для учебных целей, международной деятельностью по обмену опытом.

 

Создание европейской базы данных

 

            Развитие национальных архивов социологических данных позволило перейти к осуществлению идеи создания объединенных межгосударственных баз данных.

                        Многое из того, что ставилось в повестку дня 30 лет назад, оказалось реализованным. Созданы или создаются хранилища баз данных социальных наук в большинстве западноевропейских стран. С конца 60-х годов регулярно проводятся международные семинары по данной тематике, в которых принимают участие исследователи со всей Европы и представители других континентов. Получили свое развитие инструментарии и методы, используемые в сравнительных исследованиях. Значительно укрепился фундамент для проведения профессиональных исследований по мере развития в Европе широкой координации в коммерческом секторе. В проводимых исследованиях широко используются телекоммуникации, компьютерные сети и новейшие компьютерные программы.

            Группа европейских архивов содержит разнообразные данные: обзорную информацию, статистическую микроинформацию, совокупные базы данных, сведения на региональном уровне, а также текстуальную информацию за период, начиная с 1944 г. Некоторые архивы содержат также исторические сведения предшествующих веков. В хранящихся материалах отражены почти все аспекты социальной жизни.

            Архивы социологических данных в настоящее время имеются во многих европейских странах. В таблице 1 перечислены нынешние члены и кандидаты в члены Совета европейских архивов социологических данных. Все они ассоциированы с высшими учебными заведениями, многие финансируются национальными советами по социологическим исследованиям [9].

Таблица 1.

Совет европейских архивов социологических данных

_________________________________________________________________

Австрия            Венский институт социально--научной        WISDOM

                       документации и методики

Бельгия            Бельгийские архивы социальных наук         BASS

Дания               Датские архивы данных                            DPA

Франция           Информационный центр социально--      BDSPIC.E.R.A.T

                       политических данных

Германия          Центральный архив социальных                 ZA

                       эмпирических исследований

Венгрия            Общество социальных исследований           TARKJ

                       в области информатики

Италия             Архив данных и программ по социологии     ADPSS

Нидерланды      Архивы Штайнметца                                 STAR

Норвегия          Норвежские службы социологических          NSD

                       данных

Швеция            Шведская служба социологических              SSD

                       данных

Швейцария       Швейцарская служба информации и дан--      SJDOS

                       ных по социальным наукам

__________________________________________________________________

           

            Учреждение банков данных несло с собой нечто большее, чем просто размещение пакетов сведений в надежном окружении и извлечение из них нужной информации. Существует еще один очень важный аспект, который возник при образовании архивов данных.

            В процессе работы исследователи проявляли стремление добраться до существа предложенных им массивов данных. Глубинные исследования с использованием одиночных блоков данных приводили к накапливанию знаний о параметрах блоков данных (например, об их преимуществах, недостатках, потенциальных аналитических ловушках). Возвращение вновь полученных сведений в архив, из которого были извлечены данные,

пополняло метаинформацию об этом конкретном ресурсе. Архивы разработали систему записи дополнительной информации, сообщаемой исследователем, которая затем передавалась следующим заказчикам этих данных.

            Компьютерные архивы занимают уникальное положение для сбора, хранения и распространения метаинформации. Эту ``информацию об информации’’ часто обнаруживают аналитики в процессе использования данных. Об обнаруженных проблемах и способах их решения сообщается в архив, где они первоначально хранились, теми, кто занимается вторичным анализом. Становясь частью информационной базы, метаинформация обогащает хранящиеся в архиве данные. Кроме того, приобретенные о конкретных данных знания защищены во временном отношении и остаются доступными для последующих исследователей.

            Создание объединенной европейской базы данных  стало возможным благодаря деятельности первооткрывателей сравнительных социальных исследований. Более 30 лет назад Стейн Роккэн обратился к проблемам и возможностям сравнительных социальных исследований, выходящих за рамки национальных границ и вопросам интернационализации социальных наук  [8[.   Роккэн задавал вопрос о возможности создания либо международного, либо регионального архива, который координировал бы интересы как тех, кто генерирует данные, так и тех, кто их использует. Роккэн подчеркивал, что идея создания регионального архива, в основном, была связана с проблемами сравнительного вторичного анализа. Для его создания было необходимо провести дополнительные исследования, которые

            - касались бы сопоставимости на межгосударственном уровне разнообразных источников данных, особенно если они имели отношение к различной ``... исторической, культурной и лингвистической обстановке...’’;

            -  в их процессе изучались бы выводы разных, отдельно взятых проектов;

            -  давалась бы оценка влияния различных стратегий опроса;

            -  рассматривалось бы качество предварительных прикидок в сопоставлении с официальными статистическими источниками.

Роккэн, по-видимому, склонялся к созданию архива, выходящего за национальные рамки, который, возможно, обслуживал бы ``западноевропейский избирательный округ’’.

            Хотя европейские компьютерные архивы в значительной мере развивались по национальным направлениям, сама работа подготовила их к роли, которая облегчает межгосударственные исследования. В течение двух последних десятилетий национальные архивные учреждения проявили тенденцию к сотрудничеству в регионах, где существуют общие интересы.

            Очевидной стала идея, что там, где возможно, следует распределять совпадающие задачи между архивами. Несколько примеров такого сотрудничества показывают его потенциальные масштабы.

            1. Центральный архив Кельна в сотрудничестве с JCPSR (Анн-Арбор)

взялся за обоснование и пересмотр документации нынешних серийных выпусков программы EUROBAROMETER в интересах других европейских архивов. Он также выполняет роль архива для Международного комитета по исследованию выборов и представительной демократии и для Международной программы социальных исследований.

            2. Архив Штайнметца в Амстердаме занимается изучением различных наглядных протоколов, сопровождающихся графическими схемами. Это облегчит распределение между архивами иллюстрированных материалов.

            3. Архивный центр в Колчестере исследует новые формы документации, передаваемой с помощью средств связи. Его цель - создание европейского подхода, который поможет распределению имеющихся данных.

            4. Норвежские архивы статистических данных приложили огромные усилия в деле создания NSDSTAT, пакета предложений, сделанных на основе статистического анализа и сориентированных на школы и колледжи. Несколько европейских архивов поддержали их усилия и выразили готовность воспользоваться полученными результатами.

            5. Датские архивы данных стимулировали стандартизацию схемы, прилагаемой к исследованию, которая первоначально была разработана Архивом Штайнметца и Центральным архивом Клингеманна в 1966 г. Стандартная схема исследования (SSD) используется большинством архивов для каталогизации автоматически расшифровываемых блоков данных. Такая стандартизация облегчает составление описей данных перекрестных исследований европейского масштаба.

            6. Шведская служба социологических данных разработала программу Gopher, предоставляющую доступ к изучению графических изображений и постоянно меняющегося уровня документации.

            Наконец, европейские архивы, действующие под эгидой CESSDA, руководят составлением протокола об обмене данными. Этот протокол существует уже свыше 10 лет. Любой новый национальный архив, желающий вступить в CESSDA, должен согласиться с поставленными в нем условиями. Эффективность этого протокола заключается в том, что он способствует возникновению двусторонних обменов. Вследствие того, что договоренность о протоколе была достигнута между несколькими странами, исследователи сразу же узнавали, имеются ли в наличии подходящие для них зарубежные данные и на каких условиях их можно получить.

            В заключении статьи следует отметить, что глубокий анализ зарубежного опыта по созданию информационных систем убедительно продемонстрировал широкие возможности новых информационных технологий в области информационного обеспечения современных социологических исследований. Они открывают новые перспективы не только для централизованных информационных центров, но и для небольших коллективов ученых, для которых наиболее подходящей формой являются проблемно-ориентированные информационные системы. Только тогда, когда их внедрение станет массовым явлением социологической практики,  будут обеспечены достойный уровень анализа, поддержание профессиональной культуры исследователей и необходимый потенциал ускоренного развития социологической науки.

 

                                                            Литература

 

1. Лапин Н.И. О предмете социальной информатики и ее приложениях. //Системные исследования. Методологические проблемы. Ежегодник 1996. Москва, Эдиториал УРСС, 1996, с.

2. Бритков В.Б. Информатика - качественно новое явление в науке  и  жизни.  В сб.: Философские аспекты  информатизации. Труды семинара. М.: ВНИИСИ АН СССР, 1989, с.17-18.

3. Алеев  В.Р.,  Безруков Д.И., Бритков В.Б., Васильев А.А., Голосов А.О. Использование реляционных СУБД при разработке интерактивных  информационных  систем.  Препринт.  М.:ВНИИСИ АН СССР, 1989. 59 с.90.

4. Sernadas A. Information Systems: The THIRD WAVE. In: Information  Processing-86.  Proceedings  of  the  IFIP 10th World Computer Congress.  H.  - J.Kugler(ed). North Holland, IFIP, 1986, p.641.

5. Требования и спецификации в разработке программ. Пер. с англ. под редакцией В.Н.Агафонова. М.: Мир, 1984.

6. MAID,   Business  Intelligence  Online.  MAID  plc  Annual Report, 1995.

7. Российская энциклопедия информации и телекоммуникаций. Международное бюро информации и телекоммуникаций. Том 3, 1994 г.

8. Rokkan S. Archives for secondary analysis of sample survey data: An early inquiry into the prospects for Western Europe// Inter.Social Science Journal. 1964. @XYI, p.49-62.

9. Европейские базы данных по социальным наукам. Их использование в межнациональных исследованиях. //Международный журнал социальных наук. Том III, 1995 г. РАН/ЮНЕСКО.

 

 



[1] Работа выполнена при финансовой поддержке Российского гуманитарного научного фонда (грант N97-03-04378)

 

Используются технологии uCoz