СПРОС НА ЭЛЕКТРОННЫЕ ЖУРНАЛЫ В УНИВЕРСИТЕТСКОЙ БИБЛИОТЕКЕ: РАБОТАЕТ ЛИ ПРАВИЛО ПАРЕТО?
В.В. Писляков1
В работе рассмотрено эмпирическое правило Парето, описывающее отклонение от равномерности, наблюдаемое в различных процессах. Правило применено к процессу использования электронных журналов в университетской библиотеке. Проанализирована статистика обращений к зарубежным периодическим изданиям из баз данных EBSCO, JSTOR, ProQuest и ScienceDirect за 2004 г., а также обобщенная статистика по всем четырем ресурсам. Построены графики распределения спроса, установлено, что правило Парето хорошо выполняется для процесса использования электронной периодики из онлайновых баз данных.
1. Введение, формулировка правила Парето и краткий обзор литературы.
Сбор и анализ статистики использования библиотечных фондов — одна из первоочередных задач для библиотек, ее корректное выполнение оказывает непосредственное влияние на комплектование, позволяет повысить качество фонда и увеличить экономическую эффективность работы библиотеки. Это касается, разумеется, не только «традиционных» печатных фондов, но и фондов «нового поколения», электронных библиотечных ресурсов.
В данной работе речь пойдет об анализе использования зарубежной электронной периодики в университетской библиотеке (библиотека Государственного университета – Высшей школы экономики, ГУ-ВШЭ). Анализ затронет в первую очередь распределение востребованных пользователями источников по наименованиям. Будет решен вопрос, насколько полно используются издания внутри каждого ресурса, а также в их совокупности. «Ощутимым» результатом такого исследования станет проверка известного правила Парето («80–20») в информационно-библиотечном процессе, согласно которому должно оказаться, что 80% обращений к материалам обычно приходится всего лишь на 20% фонда библиотеки.
В 1897 г. итальянский экономист и социолог Вильфредо Парето путем эмпирического наблюдения установил, что 80% земель в Италии принадлежат 20% населения (соответственно, остальные 80% людей довольствуются 1/5 частью итальянской земли) [1]. Подобно тому как распределение Гаусса описывает целый спектр разнообразных процессов, принцип Парето оказался применим ко многим явлениям совершенно различной природы. Для примера можно привести следующие «инкарнации» данного правила:
-
20% клиентов приносят компании 80% дохода
-
за 20% рабочего времени делается 80% работы
-
20% подписчиков журнала «Научная и техническая информация» формируют 80% читательского спроса на его материалы
В самом общем случае принцип Парето формулируется так: 20% причин отвечают за 80% следствий2.
Повторим, что данное правило — эмпирическое, оно является попыткой приблизительно описать сложные неравномерные процессы и должно проверяться в каждом конкретном случае. Это не закон, а, скорее, «закономерность» и, кроме того, сама пропорция может оказаться иной — не 80–20, а, например, 90–10 или 70–30. Правило Парето указывает именно на существенное отклонение от пропорции 50–50 в различных системах, а не на конкретную величину отклонения.
Впервые правило в применении к библиотекам было рассмотрено в 1969 г. Р. Трусвэллом [3], который пришел к выводу, что принцип Парето хорошо выполняется для статистики выдачи литературы: примерно 80% требований читателей относилось к 20% библиотечного фонда.
В дальнейшем подобные исследования проводились неоднократно. Так, например, в отношении печатных периодических изданий в статье [4] авторы из Северной Каролины (США) приходят к выводу, что 80% спроса пришлось всего на 15% наименований журналов (правда, стоимость подписки на них при этом составила 38% от всего бюджета на периодику), причем точно такую же пропорцию 80–15 наблюдала в Канаде сотрудница библиотеки Трентского университета М. Щильяно [5]. В последнее время появились аналогичные работы по статистике использования электронных изданий. В масштабном исследовании деятельности консорциума OhioLINK (всего за период наблюдения было открыто более полутора миллиона электронных статей) оказалось, что спрос распределен более равномерно и 80% загруженных статей относятся к 40% наименований периодики [6]. Сходные результаты получены в проекте PEAK, во время которого предоставлялся доступ к 1100 электронным журналам издательства Elsevier для консорциума из 12 крупных и средних библиотек: 80% открытых файлов содержали статьи из 37% представленных наименований. В то же время для одного из участников проекта, Университета Индианы, пропорция оказалась почти «классической»: на 23% наименований периодических изданий пришлось 80% спроса пользователей университета [7]. Наконец, в недавних работах [8, 9] на основе аналогичного изучения статистического распределения использования наименований журналов и применения элементов теории нечетких множеств развивается метод выделения «ядра» — основного блока периодики, востребованного той или иной академической организацией.
Целью настоящей работы является проведение исследования распределения спроса на электронную периодику по журнальным наименованиям и проверка правила Парето для случая использования электронных журналов в отечественной университетской библиотеке среднего масштаба.
2. Условия исследования.
Библиотека Государственного университета – Высшей школы экономики (ГУ-ВШЭ) создана в 1994 г. и является небольшой по меркам московских университетских библиотек: в настоящий момент печатный фонд составляет ок. 70 тыс. наименований и ок. 350 тыс. экземпляров. Три года назад началось развитие электронной подписки на базы данных зарубежной периодики, в период с апреля по ноябрь 2001 г. была осуществлена подписка на ресурсы компаний JSTOR, ProQuest и EBSCO, которые до сих пор являются ядром электронного фонда библиотеки. С 2004 г. также была оформлена подписка на электронные журналы издательства Elsevier (платформа ScienceDirect), которые активно использовались в течение всего года и даже превысили по востребованности одну из хорошо освоенных баз данных (EBSCO). Именно эти четыре ресурса используются наиболее активно в ГУ-ВШЭ и поэтому включены в настоящее исследование. Следует отметить, что, хотя все 4 компании предоставляют доступ к электронным изданиям, их ресурсы отличаются по своим задачам, структуре контента, объему доступной информации, равно как по другим параметрам. Так, база данных JSTOR является «архивным» проектом, не содержит текущих номеров журналов (за последние несколько лет) и включает в себя несколько сот изданий. В то же время EBSCO и ProQuest, напротив, делают особый акцент на текущей периодике, а счет журналов в этих ресурсах идет на тысячи. ScienceDirect, в отличие от остальных баз данных, предоставляет доступ к журналам только одного издательства Elsevier и его дочерних структур.
Для удобства клиентов каждый из перечисленных вендоров (компаний, производящих и продающих электронный ресурс) позволяет подписаться не на весь имеющийся у него информационный массив, а на некоторый набор узко дисциплинарных или же политематических баз данных, образующих подмножество ресурса. В связи с этим необходимо указать те составляющие каждого ресурса, которые включены в анализ. В 2004 г. ГУ-ВШЭ имел доступ к четырем «коллекциям журналов» электронной библиотеки JSTOR: «Arts & Sciences I», «Arts & Sciences II», «Business», «Language & Literature» (всего 416 наименований). Ресурс ProQuest в течение 2004 г. был представлен базами данных «ABI/INFORM Global», «Academic Research Library», «ProQuest Education Journals», «Social Sciences PlusText», «ProQuest Psychology Journals» и «ProQuest Computing», что в сумме составило ок. 3600 полнотекстовых периодических изданий. Полнотекстовые ресурсы компании EBSCO, находящиеся в подписке ГУ-ВШЭ, включали в себя базы данных «Academic Search Premier», «Business Source Premier», «MasterFILE Premier», «Newspaper Source», «Regional Business News» и «Health Source», в сумме ок. 11000 полнотекстовых источников. Наконец, подписка на ScienceDirect охватывала коллекции «Business, Management and Accounting», «Economics, Econometrics and Finance» и «Social Sciences» (всего 310 наименований периодики).
Естественно, что между контентом различных ресурсов существуют значительные пересечения, структура которых была частично исследована в [10]. Поэтому в общей сложности в данных электронных ресурсах полнотекстовый доступ для библиотеки ГУ-ВШЭ открыт, за вычетом дубликатов, к около 13400 изданиям. В ГУ-ВШЭ неоднократно проводились тренинги по использованию всех перечисленных ресурсов, активность обращений к ним достаточно высока: в течение периода наблюдения (2004 г.) в совокупности было отправлено более 57000 поисковых запросов и открыто более 42000 полнотекстовых статей. Это позволяет проводить обобщения и обеспечивает статистическую значимость результатов исследования.
3. Методика.
В настоящее время почти каждая электронная библиотека предоставляет развернутую статистику активности пользователей, оформленную в виде веб-страниц или файлов данных, готовых для импорта в Excel или СУБД. Наряду с прочими статистическими отчетами может быть получена таблица распределения спроса по наименованиям использованных периодических изданий. Этому отчету и будет уделено особое внимание в настоящем исследовании.
В трех из четырех рассматриваемых электронных ресурсов (за исключением JSTOR) содержатся не только полнотекстовые журналы, но также и издания, доступ к которым предоставлен читателям ГУ-ВШЭ лишь на уровне библиографических данных статей или их аннотаций. Тем не менее в настоящей работе нас будут интересовать только обращения к полным текстам, т. к. именно такое использование ресурсов можно считать «полноценным», эта статистика легче поддается интерпретации и более свободна от «случайных» заходов пользователей.
Для единообразного представления результатов анализа необходимо выбрать показатель использования, подсчитываемый статистическими модулями всех четырех ресурсов. Такой характеристикой является число открытых полнотекстовых статей. Этот показатель не только присутствует в сведениях, предоставляемых каждой электронной библиотекой, но и является наиболее значимым и поддающимся корректной интерпретации. В частности, именно на него предписывают опираться эксперты «Project COUNTER», выработавшие рекомендации для производителей баз данных по представлению статистики использования их ресурсов [11].
Журналы идентифицировались по ISSN, при отсутствии ISSN идентификация проводилась по наименованию. Издания с различными ISSN и одинаковым заглавием считались разными. Не проводилось объединение данных по одному и тому же журналу, если он в течение своей истории менял ISSN или наименование.
В качестве временного промежутка, на котором собиралась статистика обращений к базам данных, выбран весь 2004 г., с января по декабрь включительно.
Существенную оговорку следует сделать относительно обработки статистики использования баз данных EBSCO и JSTOR. Во время периода наблюдения на одном из серверов, расположенных в ГУ-ВШЭ, был без предупреждения запущен специальный робот «link checker» — программа, которая проверяла работу ссылок, размещенных на страницах данного веб-сервера. Ряд этих ссылок вели на ресурсы EBSCO и JSTOR, в связи с чем робот неоднократно за день обращался к данным ресурсам, чтобы проверить, что ссылки работают. Таким образом, активность робота во много раз превысила обращения к ресурсам читателей и необходимо было провести дополнительную работу по вычленению заходов обычных пользователей. Было установлено, что роботом затронуты 28 журналов в JSTOR и 4 журнала в EBSCO, робот повлиял на статистику за август (частично), сентябрь, октябрь (частично), декабрь (частично). Был проведен детальный анализ показателей по этим журналам за указанные месяцы и, исходя из предположения, что в период действия робота доля каждого затронутого им журнала в суммарной статистике была такой же, как и в течение всего остального года, были оценены показатели «чистого» спроса на журнал, без учета влияния link checker’а. Отметим, что суммарный вклад журналов из JSTOR, затронутых роботом, по восстановленным данным составляет за 4 указанных месяца менее 9,5% от всей годовой статистики ресурса. В случае журналов EBSCO этот показатель еще меньше — 0,8%.
4. Результаты.
В таб. 1 собраны абсолютные, а также процентные значения числа журналов в каждой базе данных, из которых была открыта хотя бы одна статья. В столбце «число полнотекстовых изданий» приводятся лишь приблизительные цифры для EBSCO и ProQuest: специфика данных ресурсов, т. н. «агрегаторов», не позволяет установить с точностью до единиц число доступных журналов. Последняя строка отражает всю подписку как единый массив, показывая число уникальных изданий и убирая дублеты.
|
число полнотекстовых изданий
|
изданий, к полным текстам которых были обращения
|
доля востребованных изданий
|
EBSCO
|
11000
|
1105
|
10%
|
ProQuest
|
3600
|
1452
|
40%
|
JSTOR
|
416
|
306
|
74%
|
ScienceDirect
|
310
|
236
|
76%
|
всего
|
13400
|
2592
|
19%
|
Таб. 1
Как видно из таб. 1, далеко не все издания из электронных библиотек используются. При этом для «агрегаторов» (EBSCO и ProQuest) характерен меньший процент востребованных журналов. Кроме того, наблюдается яркая обратная зависимость процента востребованных изданий от суммарного их количества в ресурсе, коэффициент корреляции составляет 0,97. Это закономерно: все ресурсы обеспечивают «пакетную» подписку, когда журналы не выбираются заказчиком один за другим, а берутся в сформированных вендором коллекциях. Таким образом, вместе с остро необходимыми подписчику изданиями в электронный фонд практически неизбежно поступает и «информационный шум» — источники, не представляющие для читателей интереса. И чем больше размер таких коллекций, чем больше размер информационного массива, предоставляемого вендором, тем большая будет в нем доля не отвечающих запросам пользователей и поэтому не востребованных ими изданий. Для сравнения, в недавно появившемся исследовании [12] по данным 2001 г. сообщается об использовании за полугодие учеными Лос-Аламосской национальной лаборатории лишь 1892-х электронных журналов из 20000 доступных (9,5%).
Теперь для каждого ресурса упорядочим журналы, к которым были обращения, в порядке убывания спроса: от наиболее востребованных к наименее. «Ведущие пятерки», наиболее популярные издания из каждой электронной библиотеки, и суммарное количество открытых полнотекстовых статей приведены в таб. 2.
журнал из EBSCO
|
открыто статей
|
|
журнал из ProQuest
|
открыто статей
|
Euroweek
|
909
|
|
Economist
|
418
|
Harvard Business Review
|
644
|
|
Journal of Marketing
|
253
|
Euromoney
|
120
|
|
Wall Street Journal
|
230
|
Journal Of Marketing
|
113
|
|
Journal of Economic Issues
|
186
|
EContent
|
101
|
|
M2 Presswire
|
155
|
...
|
...
|
|
...
|
...
|
всего
|
6374
|
|
всего
|
10333
|
журнал из JSTOR
|
открыто статей
|
|
журнал из ScienceDirect
|
открыто статей
|
American Economic Review
|
1223
|
|
Journal of Health Economics
|
601
|
American Journal of Sociology
|
1087
|
|
Journal of Public Economics
|
512
|
Journal of Finance
|
884
|
|
Journal of Financial Economics
|
348
|
Journal of Political Economy
|
763
|
|
Management Accounting Research
|
345
|
Economic Journal
|
678
|
|
European Economic Review
|
282
|
...
|
...
|
|
...
|
...
|
всего
|
17534
|
|
всего
|
7719
|
Таб. 2
Далее мы подсчитываем для каждого ресурса количество открытых статей в двух наиболее используемых журналах, в трех наиболее используемых журналах и т. д., получая в итоге зависимость суммарного числа открытых статей от количества журналов, взятых из N верхних строк таблицы востребованности изданий. Этот кумулятивный показатель позволит нам приступить к проверке правила Парето для спроса на электронные издания. Отразим полученную зависимость на четырех графиках (рис. 1).
Рис. 1
Следующим шагом нормируем графики по обеим осям, выбрав в качестве 100% по оси абсцисс число журналов из соответствующего ресурса, к которым было хотя бы одно обращение пользователей, а 100% по оси ординат — суммарное количество статей, востребованных из базы данных. Результат изображен на рис. 2.
Рис. 2
Мы получили т. н. кривые Лоренца [13], которые в инфометрии также принято именовать кривыми Леймкулера [14]. Они позволяют наглядно оценить степень «неравномерности» спроса на различные наименования журналов для каждой базы данных. Чем больше площадь под кривой Лоренца, тем больше такая неравномерность — на этом основано введение специального коэффициента Джини [15], позволяющего количественно оценить подобную «концентрацию» спроса. Из графиков видно, например, что, несмотря на максимальную концентрацию спроса у EBSCO на старте кривой (т. е. для наиболее активно используемых журналов), в дальнейшем востребованность различных наименований становится более равномерной и в целом наибольшее «неравенство спроса» демонстрирует не EBSCO, а JSTOR — именно под этим графиком площадь наибольшая. Напротив, наиболее равномерный спрос на различные издания имеем в случае базы данных ProQuest.
При помощи построенных графиков можно наглядным образом проверить правило Парето. Те точки, в которых кривые пересекают отметку по оси y в 80%, показывают пропорцию Парето для соответствующей базы данных. Видно, что для JSTOR правило Парето выполняется практически точно, а для трех остальных ресурсов концентрация спроса меньше и, соответственно, пропорция Парето более «мягкая», около 80–30 (80% востребованных статей опубликованы примерно в 30% журналов). Точные цифры приведены в таб. 3.
Рис. 3
Наконец, объединим данные по всем четырем ресурсам (просуммировав показатели для тех журналов, которые представлены более чем в одной базе данных) и построим аналогичный график для совокупной электронной подписки (рис. 3). 80% востребованных статей приходится на 14,7% наименований — пропорция даже более сильная, чем для каждого ресурса в отдельности. Для того чтобы получить «наглядное» отношение Парето, сумма членов которого будет равна 100, построим отрезок с координатами (0; 100), (100; 0) и найдем точку его пересечения с графиком. Из рисунка (а также из точных численных данных) следует, что в данном случае имеет место соотношение «83–17»: 83% открытых статей находятся в 17% использованных хотя бы один раз журналов.
Итоговые показатели сведены в таб. 3. Из представленных данных можно сделать вывод, что принцип Парето выполняется не самым лучшим образом для баз данных ProQuest и EBSCO. В случае ScienceDirect пропорция уже ближе к классическому «80–20», а для JSTOR она даже более «сильная». Если же рассмотреть всю электронную подписку как единый информационный массив, то пропорция Парето демонстрирует здесь наибольшую неравновесность и концентрацию спроса на более популярных журналах: 80% открытых статей из всех четырех баз данных опубликованы в 14,7% журналов из числа тех, которые имеются в подписке и хотя бы один раз были востребованы пользователями. Обратим внимание, что если бы мы учитывали и те журналы, которые не были востребованы ни разу, пропорция в каждом случае еще более ужесточилась бы.
|
востребовано информации
|
из числа изданий
|
EBSCO
|
80%
|
28%
|
ProQuest
|
80%
|
31%
|
JSTOR
|
80%
|
18%
|
ScienceDirect
|
80%
|
25%
|
все ресурсы
|
80%
|
14,7%
|
Таб. 3
5. Заключение.
В настоящем исследовании было проверено правило Парето в применении к процессу обращения к современным источникам информации — электронным онлайновым информационным базам данных. Было установлено, что принцип Парето выполняется удовлетворительно, а в ряде случаев даже сильнее, чем классическое соотношение 80–20 (80% информации почерпнуто из 20% источников). При этом наиболее «контрастная» пропорция наблюдается при соединении всех ресурсов, рассматриваемых как единый информационный массив: в этом случае отношение может быть записано в виде 83–17 (83% загруженных статей находятся в 17% журналов, востребованных хотя бы единожды), в отличие от классического 80–20.
Какие отсюда следуют выводы для работы библиотеки? В первую очередь, значит ли это, что комплектаторам целесообразно отказаться от значительного массива выписываемых электронных изданий, не вошедших в верхние 20%, — тех, чья востребованность, как видно, незначительна по сравнению с остальными? Является ли уровень таких изданий однозначно низким? Вполне очевидно, что в случае университетской библиотеки это не так: в число 20% лидеров как правило попадают издания, отвечающие запросам более широкой аудитории, в то время как журналы узкоспециализированные могут иметь небольшую общую популярность, однако представлять ключевой интерес для сотрудника или преподавателя, работающего в соответствующей отрасли. Кроме того, следует иметь в виду, что при подписке на базы данных обычно невозможно выбирать журнал за журналом: договор чаще всего заключается на доступ к целой «коллекции» изданий, сформированной самим вендором. Это неизбежно приводит к приобретению «информационного шума», пользующегося пониженным спросом. Наконец, стоит заметить, что если из совокупной статистики (2592 издания) убрать все журналы, кроме первых 381, отвечающих за 80% спроса, то в оставшемся множестве вновь будет наблюдаться концентрация спроса, хотя и в меньшей степени: 80% от спроса на все эти издания (т.е. 64% от суммарного) придется на 141 журнал, что составляет 37% от выделенных 381 изданий. Это одно из проявлений принципиальной «устойчивости», свойственной большинству инфометрических законов, о которой говорит А. Букстейн [16].
Тем не менее в ситуации ограниченного бюджета библиотеки, когда так или иначе приходится выбирать между различными ресурсами и, вероятно, отказываться от каких-то из них, анализ востребованности баз данных в свете правила Парето может служить ценным ориентиром при принятии решений о составе подписки и стать одним из инструментов, используемых при формировании политики комплектования фонда библиотеки онлайновыми информационными источниками.
В качестве развития настоящего исследования можно предложить применить принцип Парето с иной стороны: провести аналогичный анализ для консорциума библиотек (например, библиотечного консорциума НЭИКОН) или для распределения статистики по отдельным читателям. В этом случае будет интересовать не распределение спроса по наименованиям, а его распределение по организациям-подписчикам или по индивидуальным пользователям. Какой процент организаций-участников консорциума отвечает за 80% от суммарного числа обращений к электронным ресурсам со стороны всего консорциума? Какая доля читателей университета формирует 80% от общего спроса на материалы из онлайновых баз данных? Можно предположить, что правило Парето найдет свое место и при ответе на данные вопросы. Подобные исследования могли бы лучше прояснить, как устроен спрос на электронную периодику, насколько эффективно используются электронные журналы читателями и какие действия по дальнейшему повышению этой эффективности требуются от библиотеки.
ЛИТЕРАТУРА
-
Pareto V. Cours d’Économie Politique.— Vol. 2.— Lausanne: 1 Université de Lausanne, 1897.
-
Juran J. M. The Non-Pareto Principle; Mea Culpa // Quality Progress. 1975. Vol. 8. P. 8.
-
Trueswell R. L. Some Behavorial Patterns of Library Users: The 80/20 Rule // Wilson Library Bulletin. Vol. 43 (January 1969). P. 458–461.
-
Pongracz S., Ellern G. D., Newsome N. Collection Development and a Long-Term Periodical Use Study: Methodology and Implications // Serials Review. Vol. 28, Iss. 1 (Spring 2002). P. 38–44.
-
Scigliano M. Serial Use in a Small Academic Library: Determining Cost-Effectiveness // Serials Review. Vol. 26, Iss. 1 (April 2000). P. 43–52.
-
Diedrichs C. P. E-journals: the OhioLINK experience // Library Collections, Acquisitions, and Technical Services. Vol. 25, Iss. 2 (Summer 2001). P. 191–210.
-
Weislogel J. Elsevier Science Digital Libraries Symposium II: a conference report // Library Collections, Acquisitions, and Technical Services. Vol. 23, Iss. 4 (Winter 1999). P. 459–467.
-
Egghe L., Rousseau R. A Proposal to Define a Core of a Scientific Subject: A Definition Using Concentration and Fuzzy Sets // Scientometrics. Vol. 54, No. 1 (2002). P. 51–62.
-
Burrell Q. L. Defining a Core: Theoretical Observations on the Egghe-Rousseau Proposal // Scientometrics. Vol. 57, No. 1 (2003). P. 75–92.
-
Писляков В. В. Анализ контента ведущих электронных ресурсов актуальной зарубежной периодики: Препринт WP/2002/02. М.: ГУ ВШЭ, 2002. 32 с.
-
Counter Code of Practice, Release 1: December 2002 // http://www.projectcounter.org/code_practice.html#start, секция 4.
-
Bollen J., Van de Sompel H., Smith J. A., Luce R. Toward alternative metrics of journal impact: A comparison of download and citation data // Information Processing & Management. Vol. 41, Iss. 6 (December 2005). P. 1419–1440.
-
Lorenz M. O. Methods of measuring the concentration of wealth // Publications of the American Statistical Association. 1905. Vol. 9. P. 209–219.
-
Leimkuhler F. F. The Bradford Distribution // Journal of Documentation. 1967. Vol. 23. P. 197–207.
-
Gini C. Variabilità e mutabilità // Memori di Metodologia Statistica. Vol. 1. Rome, 1912. P. 211–382.
-
Bookstein A. Informetric Distributions, Part II: Resilience to Ambiguity // Journal of the American Society for Information Science. Vol. 51, No. 5 (1990). P. 376–386.
Достарыңызбен бөлісу: |