Анализ документов
Среди методов сбора эмпирической информации в социальных науках и психологии большое значение имеют методы анализа документов.
Прежде всего, обратим внимание на то, что понятие документа в данном контексте отличается от обыденного. Так в повседневной жизни словом «документ» мы обозначаем только официальные материалы. В социальных науках документ — это любой материальный объект, содержащий фиксированную в нем информацию. Так, в качестве документов могут рассматриваться любые тексты, изложенные на бумаге (бересте, папирусе, стене здания и т. п.) или на цифровом носителе (дискета, компакт-диск, флеш-карта, жесткий диск компьютера), а также фотографии, аудио- и видеозаписи.
Существуют различные основания для классификации документов.
По своему' статусу документы бывают:
- - официальные (законы, распоряжения, заявления, стенограммы заседаний правительственных органов, отчеты служб государственной и ведомственной статистики, внутренние документы организаций ит. п.);
- - неофициальные (письма, дневники, мемуары, художественная, научная литература, статьи, заметки, репортажи в СМИ, статистические обобщения, выполненные не государственными службами).
По источнику информации различают документы:
- - первичные - имеют непосредственное отношение к объекту исследования и не являются результатом научного анализа. К ним относятся все документы, составленные в ненаучных целях, а также первичные данные эмпирических исследований, подученные в ходе прямого наблюдения, опроса.
- - вторичные - это результаты анализа и обобщения первичных данных: нау чные статьи, отчеты по научным исследованиям.
По степени персонификации выделяют документы:
- - личные (персонифицированные), которые имеют отношение к конкретной личности: письма, дневники, характеристики, рекомендательные письма;
- - безличные', статистические или событийные отчеты, сообщения в прессе, протоколы заседаний, нормативные акты.
С чем связана репрезентативность документов? С тем, что каждый предмет созданный человеком, является, в больше или меньшей степени, проекцией его психики и окружающей его социальной реальности. Любой текст несет нс только ту информацию, которую хотел передать автор, но также содержит признаки, указывающие на его интересы, ценностные ориентации, эмоциональное состояние. Поэтому7, даже составляя вымышленный текст, человек передает и часть истинной информации о себе и своем времени. Тем более это справедливо в отношении документов, в которых человек стремился отразить объективную реальность. С другой стороны, информация, представленная в документах никогда нс является абсолютно точным и полным отражением реальности. Это связано не только и не столько с умышленными искажениями, сколько с субъективностью восприятия. Поэтому, чтобы нс сделать ошибочных выводов, нужно знать принципы и владеть методами анализа документов.
Перед тем как присту пить к анализу документов, важно убедиться в их подлинности и надежности. При этом подлинность документа - это соответствие его происхождения тому, которое указывается. Конечно. исследователь изучающий, к примеру, письма эмигрантов должен быть уверен, что эти письма действительно написаны эмигрантами. Надежность - это. как правило, характеристика информации, содержащейся в документе, степень ее достоверности. Например, характеристика с места работы может быть подлинной, но содержащаяся в ней информация недостоверной (неправдивой).
Считается, что надежность первичных документов выше, чем вторичных, а официальных документов - выше, чем неофициальных[1].
При оценке степени достоверности информации исследователь должен учитывать следующие моменты: Существует два подхода к анализу документов: качественный и количественный. Качественный анализ подразумевает выявление в тексте содержательных моментов, проясняющих состояние того аспекта социальной реальности или внутренних переживаний автора, который связан с исследуемой научной проблемой. В отличие от обыденного прочтения текста с целью расширения знания научный анализ направлен на выявление скрытых смыслов, логики текста, взаимосвязей с внешними обстоятельствами его написания и все это осуществ
ляется не хаотично, а по заранее определенному плану’ в рамках проверки рабочей гипотезы исследования. Количественный анализ текста - это метод перевода смысловой информации, содержащейся в документе, в количественные показатели с их последующей статистической обработкой. Количественный анализ обычно применяют для документов большого объема, а также в тех случаях, когда имеется значительный массив однотипных документов: например, выпуски газеты за определенный период или ответы на открытые вопросы в массовом социологическом опросе. Самым распространенным методом количественного анализа текстов является контент-анализ, разработанный Гарольдом Лассуэл-лом1. «Контент-анализ - это методика выявления частоты появления в тексте определенных интересующих исследователя характеристик»[3] . Для того чтобы контент-анализ был эффективным инструментом, необходимо соблюдение следующих условий:
Порядок действий при осуществлении контент-анализа заключается в следующем: 1. На основании проведенного анализа научной проблемы и объекта исследования, с учетом рабочей гипотезы, а также концептуального и операционального содержания ключевых понятий выбираются единицы наблюдения, определяются категории анализа и смысловые единицы. Единицы исследования - это документы, подлежащие анализу: выпуски газет, записи телепередач, ответы на открытые вопросы анкет и т. п. Категории анализа - это ключевые понятия, раскрывающие содержание объекта, предмета и гипотезы исследования. Определяются в результате концептуализации понятий. Единицы смысла (подкатегории) - это эмпирические признаки ключевых понятий, выделенные в ходе операционализации’. 2. Составляются списки индикаторов и устанавливаются единицы счета. Индикаторы (единицы анализа) - здесь это слова, выражения и суждения, соответствующие определенной единице смысла. Список индикаторов может составляться непосредственно в ходе анализа первых документов. При этом каждый новый индикатор включается в уже имеющийся перечень индикаторов определенной смысловой единицы. Пополнение списков продолжается до тех пор, пока не перестанут встречаться новые индикаторы. Для компьютерных программ контент-анализа разработаны специальные семантические словари? Как уже упоминалось, документом может быть не только печатный или рукописный вербальный текст, но и видеозаписи, фотографии. Для их анализа определяются и соответствующие индикаторы. Так, при анализе видео-документа могут учитываться не только слова (вербальные индикаторы), но и другие виды индикаторов: При анализе фото-документов в качестве индикаторов могут выступать запечатленные объекты, способы взаимного расположения объектов в пространстве и т. п. Единица счета - это способ количественного учета индикаторов: учет каждого индикатора по отдельности или количества строк, абзацев, авторских листов, статей, единиц исследования в целом, в которых они представлены; при этом может быть простой подсчет или определение доли (удельного веса) от общего объема текста в процентах. Способом счета в анализе видео-доку мента может быть нс только количество упоминаний (появлений в кадре), но и время, в течение которого представлялась соответствующая смысловой единице тема, или объект-индикатор находился в кадре. 3. Разрабатывается инструкция кодировщика и таблица контент-анализа. Инструкция кодировщика - это методические указания по поводу того, как работать с текстом. Смысл инструкции заключается в следующем: перед тем, как непосредственно приступить к анализу документа, нужно ознакомиться с категориями анализа и смысловыми единицами, просмотреть список индикаторов. Затем нужно вписать название единицы исследования в строку над таблицей контент-анализа. Если документов много, то целесообразно составить пронумерованный список и затем вписывать порядковые номера. Если предполагается в дальнейшем определять удельный вес каждой смысловой единицы во всем объеме текста, то нужно сосчитать и рядом с названием указать количество слов в единице исследования. Текст необходимо читать внимательно и при обнаружении индикатора из списка делать в таблице напротив соот ветствующей смысловой единицы пометку (например, вертикальную черточку). Если в тексте встречается слово или выражение, которое, по мнению кодировщика, соответствует одной из смысловых единиц, но при этом отсутствует в списке, то его нужно вписать внизу таблицы и также отмечать при каждом упоминании в документе. Иногда также в таблице прису тствуют специальные столбцы для указания с какой оценкой упоминается единица смысла: положительно (+), отрицательной (-), или нейтральной (0). Результатом работы является заполненная таблица. Если документы анализируются в общем массиве, то закончив делать пометки по одной единице исследования, в той же таблице и том же столбце кодировщик продолжает делать пометки по другой. Но, если документы поделены на гру ппы или предполагается сравнение отдельных документов между собой, то для каждой выделенной гру ппы или отдельных документов выделяются отдельные столбцы в таблице или заполняется отдельная таблица. Таблица контент-анализа выглядит примерно так: Название (или порядковый номер) единицы исследования (статьи, журнала, письма и т. п.)____________________________________________ Катсгори> анализа Единиць смысла Количество споминаниг Лоложительна? оценка(+) Этрицательна> оценка (-) 4ейтральна> оценка (0) 1. 1.1. 1.2. 1.3. 2. 2.1. 2.2. 2.3. Статистическая обработка данных контент-анализа может быть представлена самым простым подсчетом частот встречаемости смысловых единиц или категорий анализа в тексте (массиве документов). Частота (/) смысловой единицы (г?) в тексте (/) будет обозначаться: Ограничиться подсчетом таких частот можно в случае, если нужно просто сравнить частоты встречаемости различных смысловых единиц в одном тексте или наборе текстов без сравнения этих текстов между собой. Например, если мы хотим выяснить, что больше интересует конкретного человека, политика или искусство, можно вычислить и сравнить частоты соответствующих категорий в контенте страниц, открываемых им в Интернете. Если нужно сравнить два текста между собой по частоте определенных смысловых единиц, то необходимо, чтобы либо тексты были равной длины (что практически невозможно), либо сравнивать удельные веса категорий (иногда их называют условные частоты). Удельный вес категории - это доля единиц счета, в которых эта категория представлена в общей длине (объеме) текста, выраженной в таких же единицах счета (словах, предложениях, строках, абзацах и т. п.). Обозначается удельный вес (условная частота) категории а в тексте t, какp(a,t) и рассчитывается по формуле: p(a,t) =f{a,t) I L(t), где L(t) - длина текста. Условные частоты можно перевести в проценты, просто умножив на 100%, тогда часто говорят о процентном распределении частот. Путем сравнения условных частот мы может проследить изменение значимости определенной смысловой единицы в документах одного человека или одной организации на определенном промежутке времени, а далее делать выводы, к примеру, об изменении ведущей мотивации, динамике уровня агрессии и т. п. Следующую группу возможностей открывает контекстный контент-анализ. Смысл его заключается в том, что нс просто подсчитывается частота упоминаний определенной единицы смысла или конкретного слова в тексте, а анализируется контекст, сопровождающий данное слово. В качестве единицы контекста может быть предложе ние, в котором обнаружен индикатор, абзац. 5 слов до и 5 слов после индикатора. Такой прием анализа позволяет выявить связи между смысловыми единицами или то, с чем ассоциируется конкретное слово или выражение. Предположим, что в качестве единицы контекста выбрано предложение. Тогда, контекст смысловой единицы или категории С в тексте t будет выражен формулой: Ctx(C,t) = {s-{m’}| set, we С, wes}1, где w - слова-индикаторы, s - предложения в которых они встречаются. Если мы хотим выявить, насколько категория С в тексте t ассоциируется с категорией а, то мы может высчитать по отдельности частоту категории а в контексте категории С (1), и частоту’ этой же категории а в остальном тексте (2): Множество слов {w}, которые в контексте категории С встречаются гораздо чаще, чем в остальном тексте обозначаются как col(C.t), от английского collocation — словосочетание, совместное размещение. Таким способом возможно выявление ближайшего семантического пространства слова. Связи между разными категориями в текстах могут выявляться также посредством другого приема - отображения расположения сопоставляемых категорий в тексте в виде булевых векторов[4] . Осуществляется это следующим образом: Текст t рассматривается как последовательность предложений
P(f.C’) = Далее можно рассчитать расстояние Хемминга между' векторами -число компонент, по которым векторы различаются*. Чем, меньше расстояние между векторами, тем сильнее связаны рассматриваемые категории. Фактически такой же принцип сравнения лежит в основе методики анализа случайностей, предложенной Ч. Осгудом. Чаше она используется в том, случае, если в качестве единицы счета выступает целый текст (документ). Например, анализируются газетные статьи на предмет присутствия в их текстах определенных категорий анализа. Пусть это будут политика, экономика и спорт. Вначале определяются условные частоты по каждой категории. Затем ожидаемые и реальные частоты совместного попарного присутствия категорий. Например, оказалось, ЧТО Рполигика 0,4, Рэкономика 0,5 И Репорт = 0,1. Ожидаемые частоты совпадений рассчитываются путем перемножения частных частот: Рпэо = 0,4*0,5 = 0,2; РПСо = 0,4*0,1 = 0,04; Рзсо = 0,5*0,1 = 0,05. Допустим, реальные частоты оказались Рпэр- 0,3; РпСр = 0,07; Рэср - 0,01. Сравнивая реальные совпадения с ожидаемыми, находим, что в парах категорий: политика - экономика и политика - спорт, - реальные совпадения чаще ожидаемых. Это указывает на связь соответствующих категорий. Наконец, широко распространен коэффициент Яниса (с), который предназначен для вычисления соотношения положительных и отрицательных (относительно анализируемой смысловой единицы) оценок[5] . В случае, когда число положительных оценок превышает
число отрицательных, коэффициент Яниса подсчитывается по формуле: f2~f-n с =-------- г • t где f— число положительных оценок; п — число отрицательных оценок: г — объем контекста анализируемой категории; t — общий объем анализируемого текста. В случае, когда число положительных оценок меньше, чем отрицательных, коэффициент Яниса находится по формуле f ? п — п2 с =-------- г ? t При интерпретации полученных значений коэффициента принимают во внимание знак и числовой модуль. Чем больше последний, тем сильнее выражена соответствующая негативная или позитивная окраска текста. Посредством контент-анализа при наличии соответствующей документальной базы конфликтолог может решать следующие задачи[6]: Вышесказанное определяет значение методов анализа документов в конфликтологии и необходимость овладения ими.
Задания для подготовки к семинарскому занятию: I. Общие задания Если метод анализа доку ментов не подходит для проверки вашей гипотезы, то помогите с выполнением заданий данного пункта кому-либо из ваших однокурсников. 3. Как бы Вы оценили полезность метода контент-анализа для решения задач конфликтологического исследования в свете выполненного Вами предыду щего задания? Поясните Ваш ответ. II. Индивидуальные задания Подготовьте сообщения на темы: Дополнительная литература по теме: