Prof. dr hab. Andrzej Kajetan Wróblewski
Wydział Fizyki UW

Bibliometryczna trylogia

Tytuł wykładu wyraża fakt, że omawiam trzy istotne, ale luźno z sobą powiązane zagadnienia bibliometryczne.

Po pierwsze, przedstawiam konsekwencje stosowanej w bazach danych zasady whole counting, to znaczy zaliczania danej publikacji i jej cytowań z taką samą (jednostkową) wagą wszystkim współautorom tej publikacji i wszystkim krajom, z których pochodzą.

Po drugie, rozważam tzw. cytowalność (impact) dla poszczególnych krajów. Ten wskaźnik, będący średnią liczbą cytowań jednej publikacji z danego kraju, jest często podawany w poczytnych periodykach (np. "Nature"). Okazuje się, że wskaźnik ten odzwierciedla przede wszystkim strukturę nauki w danym kraju.

Po trzecie, na podstawie bazy NCR Poland 1980-1999 przedstawiam analizę cytowań publikacji z fizyki w czasopismach o różnej wartości wskaźnika wpływu IF (impact factor) i przedstawiam na tej podstawie wnioski na temat oceniania i klasyfikowania badaczy.

1. Bazy danych ISI

Najstarszą i najlepiej znaną bazą danych bibliometrycznych jest Science Citation Index (SCI), którego utworzenie zaproponował Eugene Garfield w 1955r. [1]. Pierwsze wydanie SCI ukazało się w 1963r. i było dość skromne, obejmowało bowiem tylko około 102 tys. artykułów, które zostały opublikowane w 1961r. w 613 wybranych czasopismach. Garfield założył w Filadelfii Instytut Informacji Naukowej (Institute of Scientific Information, w skrócie ISI), którego zadaniem jest do dziś opracowywanie coraz bardziej rozbudowanych indeksów cytowań.

SCI do niedawna zawierał tylko nazwisko pierwszego autora publikacji. Są tam podane wszystkie cytowania znalezione w danym roku w czasopismach objętych rejestrem, niezależnie od daty publikacji. Można więc znaleźć w SCI nadal cytowania (wprawdzie nieliczne) Isaaca Newtona z XVII wieku, albo Alberta Einsteina z początku XX wieku. Oczywiście SCI jest mało przydatny do oceny i porównania instytutów naukowych czy uczelni oraz zupełnie bezużyteczny do porównania dorobku całych państw. Dlatego też ISI przygotowuje także specjalne bazy danych.

W 1992r. ISI ogłosił po raz pierwszą bazę National Science Indicators (NSI) i od tego czasu corocznie są wydawane jej kolejne, wzbogacone wersje. Najnowsze wydanie bazy NSI z 2001r. obejmuje publikacje i cytowania za okres 1981- 2000. Baza NSI jest obecnie oparta na danych z ponad 8500 najważniejszych czasopism tworzących tzw. listę filadelfijską. Ta lista obejmuje ok. 5500 czasopism z nauk matematyczno-przyrodniczych i technicznych. 1800 z nauk społecznych i 1200 z nauk humanistycznych i sztuki.

Tabela 1
Dane dotyczące cytowań na podstawie bazy NSI 2001
Dziedzina (wg klasyfikacji ISI)
i przykładowe poddziedziny
Średnia liczba cytowań
jednej pracy (1981-200)
Biologia molekularna i genetyka 31,32
(w tym: biologia komórki) 36,91
Immunologia 24,32
Neurologia 21,18
Biologia i biochemia 20,57
(w tym: biochemia i biofizyka 25,73
fizjologia 21,16
biologia ogólna) 11,59
Mikrobiologia 17,47
Astrofizyka 16,09
Nauki medyczne 12,16
(w tym: onkologia 20,17
reumatologia 12,49
pediatria 8,31
laryngologia 5,75
ortopedia) 4,44
Farmakologia 11,97
Psychologia i psychiatria 10,83
Nauki o ziemi 10,53
Chemia 9,60
(w tym: chemia fizyczna 10,92
inżynieria chemiczna) 5,67
Fizyka 9,50
Ekologia 8,94
Nauki i roślinach i zwierzętach 7,50
Ekonomia i zarządzanie 6,57
Prawo 5,82
Nauki rolnicze 5,62
(w tym: nauki o żywieniu 6,16
agronomia) 3,42
Materiałoznawstwo 5,34
Matematyka 5,00
Nauki społeczne 4,81
(w tym: socjologia i antropologia 5,70
politologia 2,70
bibilotekoznawstwo) 2,33
Informatyka 4,48
Nauki techniczne 4,37
(w tym: elektronika 4,40
inżynieria lotnicza) 2,67
Edukacja 3,39
Archeologia 2,94
Humanistyka- ogólne 2,02
Lingwistyka 1,28
Filozofia 1,21
Historia 1,18
Studia klasyczne 0,91
Religioznawstwo i teologia 0,90
Sztuki wykonawsze 0,69
Literaturoznawstwo 0,43
Architektura i sztuka 0,27

Baza NSI 1981-2000 obejmuje prawie 12 mln publikacji i około 130 mln cytowań. Te publikacje i cytowania są przyporządkowane ponad 170 krajom i regionom geograficznym (np. Ameryka Łacińska, Unia Europejska) na podstawie narodowości autorów, a dokładniej - na podstawie podanej w publikacji afiliacji. Tak więc na przykład publikacja powstała w instytucji amerykańskiej, której współautorem jest polski uczony, przebywający tam choćby czasowo ("on leave"), jest w całości zaliczana do dorobku Stanów Zjednoczonych. Gdyby natomiast ten współautor występował w publikacji z podaniem swej polskiej afiliacji, ta ta publikacja byłaby zaliczona z jednakową, jednostkową wagą do dorobku zarówna Stanów Zjednoczonych, jak Polski (to jest właśnie działanie zasady whole counting).

W NSI nie ma nazwisk autorów ani nazw instytucji, z których pochodzą. Istnieją dwie wersje bazy National Science Indicators, tzw. NSI Standard i NSI Deluxe. Publikacje i cytowania w bazie NSI Standard obejmują 24 dziedziny: nauki biologiczno-medyczne, matematyczno-fizyczne, przyrodnicze, techniczne oraz ekonomię, prawo, edukację, psychologię i nauki społeczne; jedna z kategorii to tzw. badania multidyscyplinarne, do której autorzy bazy zaliczają publikacje z pogranicza dyscyplin. Wersja NSI Deluxe obejmuje dodatkowo 10 dziedzin nauk humanistycznych, społecznych i sztuki, a ponadto dla 16 dziedzin objętych przez NSI Standard podano w niej dokładniejszy podział na dyscypliny, tak że łącznie mamy tu podział publikacji i cytowań na 105 pół badawczych, odpowiadających konwencji "Current Contents".

Dziedziny i pola badawcze w NSI zostały zdefiniowane jako zbiór publikacji ogłoszonych w określonym zestawie czasopism rejestrowanych w jednej z siedmiu edycji "Current Contents" oraz w indeksach cytowań. Niektóre pola stworzone na potrzeby NSI nie mają swojego odpowiednika w innych klasyfikacjach nauk. Przydział publikacji do odpowiednich kategorii następował zatem głównie na podstawie przyporządkowania im czasopism, w których znajdują się publikacje i cytowania. W nielicznych przypadkach czasopismo przyporządkowywano dwóm (lub nawet trzem) kategoriom, a klasyfikację publikowanych artykułów wykonywano indywidualnie. Prace ogłaszane w czasopismach wielodyscyplinowych (jak "Nature", "Science" itp.) były przydzielane indywidualnie do odpowiednich kategorii.

Trzeba koniecznie wiedzieć, że zasada tworzenia bazy NSI jest inna niż dla Science Citation Index, na którym jest oparta. W SCI rejestrowane są wszystkie cytowania zamieszczone w obecnie publikowanych pracach (w czasopismach objętych rejestrem SCI). Natomiast w NSI rejestruje się tylko cytowania do prac zarejestrowanych w tej bazie, a więc opublikowanych w latach 1981-2000. Tak więc np. obecne cytowania prac (w tym polskich) opublikowanych przed 1981 rokiem nie wchodzą do tej bazy. Baza NSI jest skonstruowana tak, jakby świat powstał dopiero 20 lat temu.

Ponadto bardzo istotne jest, że baza NSI podaje tylko cytowania prac opublikowanych w danym roku. Tak więc, pytając o liczbę cytowań odnoszących się do 1990 roku, odnajdziemy wszystkie cytowania znalezione w okresie 1990-2000 prac opublikowanych w 1990 roku. Ponieważ baza NSI obejmuje ogromną liczbę prac i cytowań, więc wyciągane z niej wnioski są znaczące statystycznie i bardzo istotne. Przykładowo, z bazy NDI można się dowiedzieć o znacznych różnicach w cytowaniach prac w poszczególnych dziedzinach. Dane uzyskane z NSI 2001 są zamieszczone w tabeli 1. Dane te musi znać każdy, kto chciałby wyciągać jakieś wnioski bibliometryczne dla różnych dziedzin nauki. Nie można tego przecież robić bez wprowadzania bardzo istotnych poprawek normalizacyjnych, skoro, na przykład, średnia liczba cytowań jednej pracy z biologii komórki jest ponad 130 razy większa niż pracy z architektury i sztuki.

2. Konsekwencje reguły whole counting

Rozważmy hipotetyczny świat, w którym są tylko dwa kraje - oznaczymy je jako 1 i 2. Wyobraźmy sobie, że "światowa" baza danych zawiera 400 publikacji, w tym 100 publikacji autorów z kraju 1, 100 publikacji autorów z kraju 2 oraz 200 publikacji wspólnych autorów z obu krajów. Można teraz zadać dwa różne pytania: a) Jaki jest procentowy udział państw 1 i 2 w "produkcji naukowe", b) Jaki jest procent publikacji z udziałem autorów z państwa 1 i państwa 2.

Odpowiedź na pytanie a brzmi: procentowy udział autorów z obu krajów jest jednakowy i wynosi po 50%. Odpowiedź na pytanie b jest inna. Autorzy z kraju opublikowali 100+200=300 prac, czyli 3/4 produkcji "światowej". To samo odnosi się do autorów z kraju 2. Zatem nie znormalizowane wkłady obu krajów dodają się do 150% "produkcji światowej" i procent prac z autorami z danego kraju jest większy od procentowego wkładu tego kraju do produkcji światowej.

Problem jest elementarnie prosty, a jednak często bywa nie zrozumiany i nawet w poważnych wydawnictwach źródłowych można spotkać błędy [2]. Na przykład w raporcie GUS "Nauka i technika w 1999 roku", tablica 8.1 obejmuje tylko 35 państw, a jednak, jak łatwo sprawdzić, zsumowanie liczb w kolumnie zatytułowanej "Udział światowej puli publikacji w %" daje 115,18% - co autorzy raportu pozostawiają bez wyjaśnienia. Okazuje się, że różnica odpowiedzi na dwa powyższe pytania dostarcza informacji na temat intensywności współpracy międzynarodowej.

Wprowadźmy wielkość SUMA P = Zsumowanie liczby publikacji z autorami z poszczególnych krajów. Współczynnikiem intensywności współpracy międzynarodowej IWM nazwiemy iloraz SUMA p/Całkowita liczba publikacji.

W omawianym hipotetycznym świecie wartość IWM wynosi 600/400 = 1.5 i rzeczywiście dobrze wyraża to, że 50% prac powstało we współpracy autorów z krajów 1 i2. Jeśli mamy więcej niż dwa kraje, to wprowadzony współczynnik intensywności współpracy międzynarodowej nie ma tak prostej interpretacji, ale nadal może być stosowany do charakteryzowania współpracy.

Załóżmy dalej, że 100 publikacji z kraju 1 uzyskało łącznie 200 cytowań, 100 publikacji z kraju 2 uzyskało łącznie 200 cytowań, natomiast 200 publikacji wspólnych uzyskało łącznie 600 cytowań. Tak więc kraj 1 zebrał 800 cytowań, kraj 2 także 800 cytowań, ale całkowita liczba cytowań wynosiła tylko 1000.

Wprowadźmy wielkość SUMA C, która będzie wynikiem zsumowania wszystkich cytowań przypisanych poszczególnym krajom i wprowadźmy współczynnik efektywności współpracy międzynarodowej EWM jako iloraz wielkości SUMA C przez całkowitą liczbę cytowań. Gdyby publikacje wspólne były cytowane tak samo często jak publikacje autorów z jednego kraju, to mielibyśmy oczywiście IWM = EWM. Różnice między IWM i EWM świadczą o jakości współpracy międzynarodowej. Wprowadźmy zatem wielkość JWM (Jakość Współpracy Międzynarodowej) zdefiniowaną jako iloraz IWM i EWM. Ten nowy współczynnik charakteryzuje różnicę średniej liczby cytowań publikacji wykonanych we współpracy międzynarodowej i publikacji autorów tylko z jednego państwa. Tak prostą interpretację współczynnik ten ma tylko dla akademickiego przykładu "świata" złożonego tylko z dwóch państw, ale także dla realnego świata większa wartość JWM oznacza większy wkład i pożytek ze współpracy międzynarodowej.

Rozważania te zilustrujemy wynikami uzyskanymi z analizy danych w NSI 2000. Rysunek 1 przedstawia wyniki dotyczące procentowego udziału Polski w światowej bazie publikacji oraz udziału prac z polskimi autorami.

Wyniki dotyczące współpracy międzynarodowej są przedstawione odpowiednio w rysunkach 2, 3, i 4. Jak widać, rola współpracy międzynarodowej w nauce stale wzrasta. Wyniki te dotyczą całej bazy, a więc są uśrednieniem po wszystkich dziedzinach. Można jednak całą powyższą procedurę stosować tylko do określonej dziedziny. Okazuje się wówczas, że istnieją bardzo wyraźne różnice między dyscyplinami. Z braku miejsca na szczegółową dyskusję ograniczę się tylko do stwierdzenia, że współpraca międzynarodowa odgrywa największą rolę w astronomii, a najmniejszą w dziedzinie prawa.

Wniosek z przedstawionych rozważań może być tylko jeden: należ zawsze starannie sprawdzać normalizację danych, a w każdym razie - w celu uniknięcia nieporozumień - dokładnie opisać procedurę analizy danych.

3. Czego miarą jest cytowalność (impact) dla poszczególnych krajów?

Cytowalnością (ang. impact) nazywa się średnią liczbę cytowań jednej publikacji z danego państwa, tzn. stosunek całkowitej liczby cytowań do całkowitej liczby publikacji z danego państwa. Wskaźnika tego, który będę oznaczał symbolem I, nie należy mylić z tzw. impact factor wprowadzonym dla oceny czasopism, o którym będzie mowa w ostatniej części tego artykułu. Obok cytowalności I można także wprowadzić cytowalność Ik dla poszczególnych dziedzin.

Rozważmy ponownie hipotetyczny świat, w którym są tylko dwa kraje 1 i 2 oraz dwie dziedziny nauki, które oznaczymy literami A i B. Oba kraje mają po 1000 publikacji w "światowej" bazie danych, ale różne liczby cytowań, co przedstawia tabela 2.

Tabela 2
Publikacje i cytowania w hipotetycznym świecie
Dziedzina Prace Cytowania I
Kraj 1 A
B
A+B
300
700
1000
3000
2800
5800
10
4
5,8
Kraj 2 A
B
A+B
700
300
1000
5600
600
6200
8
2
6,2

Jeśli wartość cytowalności I dla krajów traktowalibyśmy jako parametr, który może być miarą jakości ich nauki, to doszlibyśmy do wniosku, że kraj 2 ma naukę lepszą od kraju 1. Z drugiej jednak strony, jeśli rozważać wartości cytowalności osobno w dziedzinie A i dziedzinie B, to jest oczywiste, że w obu dziedzinach kraj 1 ma większe wartości Ik niż kraj 2. Widać więc tu jakąś sprzeczność.

Od dawna podejrzewałem, że wartość cytowalności I obliczana sumarycznie dla wszystkich dziedzin nauki w danym kraju, nie jest właściwym parametrem dla oceny jakości nauki. Udało mi się niedawno znaleźć prosty wzór, który pozwala wniknąć w naturę tego wskaźnika. Wyprowadzenie przedstawiam na rys 5. Okazuje się, że cytowalność I dla danego kraju jest sumą przyczynków od cytowalności poszczególnych dziedzin. Przyczynek każdej dziedziny to iloczyn cytowalności Ik dla tej dziedziny oraz ułamka wyrażającego udział tej dziedziny w ogólnej liczbie publikacji z danego kraju.

Jako przykładu analizy struktury cytowalności przedstawiam dane za okres 1996 - 2000 dla Polski (rys. 6) i czterech państw: Węgier, Stanów Zjednoczonych, Szwajcarii i Rosji. Cytowalność polskich publikacji jest dość niska (I = 2.28) w porównaniu z czołówką światową. Największą cytowalność (I = 6,20) ze wszystkich państw ma Szwajcaria (rys. 7). W czołówce są także Stany Zjednoczone (rys. 8) z wartością I = 5.69. Jak widać z wykresu (rys. 6) większą część cytowalności Polski dają dwie dziedziny: chemia i fizyka, natomiast niewielki jest przyszynek nauk biologicznych i medycznych. Tymczasem to właśnie nauki biomedyczne dają największy wkład do cytowalności Szwajcarii i Stanów Zjednoczonych. Węgry (rys. 9) mają cytowalność większą niż Polska (I = 2.77) właśnie ze względu na znacząco większy przyczynek nauk biomedycznych. Podobnie bardzo niska cytowalność Rosji (I = 1.60, rys. 10) wynika z minimalnego wkładu nauk biomedycznych. Sumaryczne zestawienie struktury cytowalności jest podane w tabeli 3.

Tabela 3
Wkład różnych grup nauk do cytowalności publikacji z Polski, Węgier, Rosji, Stanów Zjednoczonych i Szwajcarii w okresie 1996 - 2000
Dziedziny Polska Węgry Rosja Stany
Zjednoczone
Szwajcaria

Nauki ścisłe*

Nauki biomedyczne**

Pozostałe

Cytowalność I

1,38

0,69

0,21

2,28

1,23

1,24

0,30

2,77

1,08

0,29

0,23

1,60

1,16

3,76

0,77

5,69

1,83

3,82

0,55

6,20

* Nauki ścisłe: matematyka, informatyka, fizyka, astronomia, chemia i farmakologia.
** Nauki biomedyczne: medycyna kliniczna, immunologia, neurologia, biochemia i biofizyka, biologia molekularna i genetyka, mikrobiologia, nauka o roślinach i zwierzętach.

Z liczb przytoczonych z tabeli 3 widać, że duże różnice cytowalności publikacji z Polski i innych krajów biorą się przede wszystkim z nikłego wkładu naszych nauk biomedycznych. Natomiast jeśli chodzi o nauki ścisłe i pozostałe, to ich wkład do cytowalności publikacji z Polski jest liczbowo bardzo zbliżony do tego, co mamy w innych krajach, łącznie ze ścisłą czołówką światową.

Wniosek z powyższej analizy jest jasny. Okazuje się, że wartości cytowalności (impact) dla różnych krajów świadczą w największym stopniu o strukturze nauki, głównie o względnej sile dyscyplin biomedycznych w porównaniu z innymi, a w mniejszym stopniu są miarą jakości badań naukowych w tych krajach. Nie mamy więc co marzyć o znaczącym polepszeniu pozycji Polski w światowym rankingu cytowalności, jeżeli bardzo wyraźnie nie wzmocnimy w naszym kraju nauk biomedycznych.

4. Jaki sens ma ocenianie i klasyfikowanie badaczy na podstawie wartości Impact Factor czasopism, w których publikują swoje prace?

Jak wiadomo, wskaźnik o nazwie Impact Factor (IF) czasopisma jest zdefiniowany jako iloraz IF=Nc(T)/Np(T-1,T-2), gdzie Nc - liczba cytowań w roku T do prac opublikowanych w tym czasopiśmie w latach T-1 oraz T-2, Np- liczba prac opublikowanych w tym czasopiśmie w latach T-1 i T-2.

Ta definicja jest ułomna [3,4], ponieważ, po pierwsze, Nc zawiera cytowania artykułów oraz listów do redakcji, podczas gdy Np zawiera tylko artykuły. Po drugie, wartości IF dla czasopism wykazują ogromne różnice, choćby ze względu na bardzo różną średnią liczbę cytowań jednej pracy w różnych dziedzinach oraz różny "obrót" (turnover) w różnych dziedzinach. Mimo to, w pewnych dziedzinach, np. w naukach biomedycznych, wartości IF czasopism są wykorzystywane do oceny jakości pracy indywidualnych badaczy. W skrajnych znanych mi przypadkach próbuje się nawet szeregować badaczy według wartości IF czasopism, w których są publikowane ich prace (przy czym nie jest brana pod uwagę liczba cytowań tych prac).

Postępowanie to wydaje się nieuzasadnione, ponieważ w tym podejściu publikację mającą paręset cytowań w czasopiśmie o niskiej wartości IF, ceni się mniej od pracy w ogóle nie cytowanej, ale opublikowanej w czasopiśmie o wysokim IF!!! Wydaje mi się, że wiara w stosowalność IF jako wskaźnika jakości dokonań badaczy bierze się z nieuzasadnionego przekonania, iż rozkład liczby cytowań w danym czasopiśmie jest bardzo wąski i jednoznacznie związany z wartością IF. Gdyby tak istotnie było, to parametr IF byłby idealnym narzędziem bibliometrycznym. W rzeczywistości jednak, jak wykażę poniżej, rozkład liczby cytowań jest inny: niezależnie od wartości IF w każdym czasopiśmie mamy wykładniczo spadające "tło" oraz "ogon" prac cytowanych znacznie więcej razy (rys. 11).

Wiadomo, że w ogólności rozkład liczby cytowań jest bardzo skośny, tzn. że większość cytowań w danej dziedzinie odnosi się do bardzo niewielkiej części publikacji (prawo Badforda). Świeże dane na ten temat zostały niedawno ogłoszone przez ISI. Przytaczam je w wersji oryginalnej na rys. 12. Badany przez ISI parametr o nazwie "Koncentracja" to procent publikacji, do których jest 50% cytowań w danej dziedzinie.

Analizę rozkładu cytowań w poszczególnych czasopismach przeprowadziłem na podstawie danych w bazie NCR Poland (1981-1999). Zbadałem cytowania prac polskich autorów w 20 czasopismach fizycznych o różnych wartościach IF (1994). Rozkład liczby cytowań był brany tylko dla próbki prac opublikowanych w latach 1981-1996, a więc mających co najmniej trzy lata (1997-1999) na zebranie cytowań.

Na rysunkach 13-18 przedstawione są przykładowe wyniki. Jak widać, w każdym czasopiśmie mamy wykładniczo spadające "tło" prac cytowanych niewiele razy oraz "ogon" prac cytowanych znacznie więcej razy. Wspomniane "tło" jest dobrze opisywane funkcją wykładniczą (w skali logarytmicznej funkcja ta jest opisywana linią prostą). Tak więc, niezależnie od wartości IF, maksimum rozkładu liczby cytowań występuje przy zerze! Nawet w czasopismach o stosunkowo dużym IF znaczący procent publikowanych artykułów nie zostaje nigdy zacytowanych. Zwracano na to uwagę już dawniej, jeżeli chodzi o nauki biomedyczne [4, 5]. Stwierdzono, że np. w bardzo znanym czasopiśmie "Cell", którego IF w 1994 r. wyniósł aż 39,2, bez cytowania pozostaje 9% artykułów, a odpowiednia liczba wynosi aż 16% dla "Proc. Natl. Acad. Sci. USA" (IF = 10,2) [5]. Dalsze wyniki analizy cytowań artykułów z 20 czasopism fizycznych przedstawione są na rysunkach 19-21. Jak się można było spodziewać, nie ma korelacji między IF czasopisma a procentem prac, do których odnosi się 50% cytowań. Jest to jeszcze jedna ilustracja znanego prawa Bradforda, tym razem w odniesieniu do poszczególnych czasopism (rys. 19). Jest też bardzo niewielka korelacja między IF a średnią wartością liczby cytowań dla wykładniczego "tła" artykułów 9rys. 20). Obserwuje się natomiast znaczącą korelację między IF a procentem prac słabo cytowanych (rys. 21), ale procent ten pozostaje znaczny nawet dla największych badanych wartości IF. Zgadza się to z podanymi wyżej wynikami dla czasopism biomedycznych.

Na znacznie liczniejszej próbce czasopism fizycznych, w których polscy autorzy publikowali swe prace, zbadałem korelację wartości IF czasopisma z maksymalną liczbą cytowań w tym czasopiśmie (rys. 22) oraz ze średnią liczbą cytowań dziesięciu najliczniej w nim cytowanych prac (rys. 23). Okazuje się, że korelacja, choć istnieje, jest dość słaba, a współczynniki korelacji r wynoszą odpowiednio tylko 0,57 i 0,59.

Ze względu na znaczne różnice cytowań w różnych dziedzinach (patrz tabela 1) wartości IF czasopism w tych dziedzinach są także bardzo różne. To jest fakt w zasadzie na tyle dobrze znany, że nie podejmuje się prób klasyfikowania badaczy z różnych dziedzin na podstawie wartości IF. Ale trzeba pamiętać, że nawet w obrębie tej samej dziedziny poszczególne dyscypliny różnią się znacząco pod względem średniej liczby cytowań jednej publikacji oraz obrotu (turnover) informacji. Ma to wpływ na IF czasopism charakterystycznych dla tych dyscyplin. Bardzo znaczne różnice między specjalnościami w obrębie nauk chemicznych są przedstawione na rys. 25. Tak więc trudno prowadzić porównanie (na podstawie wartości IF) chemików pracujących w chemii analitycznej i inżynierii chemicznej.

5. Wnioski

Można postawić hipotezę, że do postępu nauki przyczyniają się głównie (czy wyłącznie?) te stosunkowo nieliczne prace z "ogona" rozkładu. Wykładnicze "tło", skupiające większość publikowanych na świecie prac, jest w pewnym sensie złem koniecznym.

Wobec dużego procentu, jaki we wszystkich czasopismach stanowi "tło" prac mało lub wcale cytowanych, a więc zapewne niewiele wnoszących do nauki, sam fakt opublikowania pracy w czasopiśmie o dużej wartości IF nie powinien stanowić podstawy do wyróżniania jej autora. W zasadzie powinno się liczyć tylko prace, których liczba cytowań znacząco przekracza wykładnicze "tło". Granica może być umowna i zależna od dziedziny. Tak np., klasyfikacja stosowana w bazie SPIRES obejmującej publikacje z fizyki cząstek elementarnych u wielkich energii (Uniwersytet Stanforda) zawiera sześć kategorii prac, zależnie od ich liczby cytowań.

Głośne publikacje (Renowned papers) >= 500 cytowań
Sławne publikacje (Famous papers) 100-499 cytowań
Dobrze znane publikacje (Well-known papers) 50-99 cytowań
Znane publikacje (Known papers) 10-49 cytowań
Mało znane publikacje (Less known papers) 1-9 cytowań
Nieznane publikacje (Unknown papers) 0 cytowań

Tak więc, w fizyce cząstek elementarnych i wielkich energii należałoby zwracać uwagę wyłącznie na liczbę prac, których liczba cytowań przekracza odpowiednio 10, 50, 100 cytowań. Podobne granice liczby cytowań można ustalić w poszczególnych dziedzinach. Inną metodą mogłoby być zliczanie tylko tych prac, których liczba cytowań jest jakąś wielokrotnością średniej w danej dziedzinie (patrz tabela 1).

Przestańmy zatem pytać o całkowitą liczbę cytowań prac danego badacza. Zamiast tego należy podawać wyłącznie liczbę jego prac "wybitnych", które były cytowane więcej razy niż wynosi umowna granica w danej dziedzinie czy specjalności. W świetle przedstawionych wyników wydaje się natomiast mało uzasadnione klasyfikowanie badaczy tylko na podstawie wartości IF czasopism, w których publikują oni swe prace.

Na zakończenie jeszcze jedna uwaga. Podstawowa zasada bibliometrii mówi, że im większa jest próbka, tym bardziej wiarygodne są wyniki jej analizy. O ile więc stosunkowo bezpieczne jest wyciąganie wniosków na temat rankingu poszczególnych państw (baza NSI) czy instytucji (baza NCR), o tyle próby porównywania poszczególnych badaczy na podstawie wskaźników bibliometrycznych muszą być dokonywane rzetelnie i wyjątkowo ostrożnie, łatwo bowiem można wyrządzić komuś niezasłużoną krzywdę [6].

Przed nieuzasadnionym posługiwaniem się wartościami IF ostrzega nawet sam twórca tego parametru, Eugene Garfield, który niedawno napisał: "Dane o IF czasopism zostały przeszczepione do pewnych studiów wydziałów uniwersyteckich czy nawet poszczególnych osób. Czasem IF czasopisma zostaje użyty jako substytut dla oceny niedawno opublikowanego artykułu. Przeciętny artykuł jest cytowany dopiero po paru latach, natomiast niewielki procent prac będzie cytowanych licznie i od razu. Posługiwanie się wartością IF czasopisma zamiast impaktem danego artykułu sprowadza się do oceny prestiżu czasopism. Chociaż praktycznie, jest to niebezpieczne... IF nie powinien być używany jako substytut, poza wyjątkowymi sytuacjami" [7].

Bibliografia

1. Garfield E.: Citation Indexes for Science, "Science" 1955, t. 121, s. 108.

2. Wróblewski A.K.: Efektywność współpracy międzynarodowej w nauce, "Nauka" 200, nr 2, s. 71-77.

3. Moed H.F., Van Leeuwen Th.N.: Impact Factors Can Mislead, "Nature" 1996, t. 381, s.186.

4. Seglen Per O. (Oslo): Why the Impact Factor of Journals Should not be Used for Evaluating Research, "British Medical Journal" 1997, t. 314, s. 497.

5. Mannoury M.T.: Les publications et les recrutement au CNRS. La Lettre BIO des sciences de la vie du CNRS, 1996, s. 14-15.

6. Wróblewski A.K.: Jak nie należy korzystać z Science Citation Index, "Nauka Polska", 1994, t. 111 (XXVIII), s. 125-139.

7. Garfield E.: How Can Impact Factors Can be Ipmroved, "British Medical Journal", 1996, nr 313, s. 411-413.

Bibliometrical Trilogy
by A.K. Wróblewski

The paper - as indicated by the title - deals with three important but loosely connected bibliometrical problems. First, these are the consequences of the whole counting principle used in data bases meanung that a paper counts with equal weight for each co-author and each country of co-authors' origin. Second, I analyse the impact for various countries. This indicator, defined as the acerage number of citations for a single paper from a country, is often presented in popular periodicals (e.g. Nature). It appears that the indicator mainly reflects the structure of science in a given country. Thurd, on a basis of the data base NCR Poland 1980-1999, I present an analysis od citations of papaers in physics in journals with different value of impact factor and formulate some conclusions regarding researchers' evaluation and classification.

Trylogia_r1

Rys. 1. Wkład Polski do nauki światowej.

Trylogia_r2

Rys. 2. Intensywność współpracy międzynarodowej na podstawie bazy NSI 2000.

Trylogia_r3

Rys. 3. Efektywność współpracy międzynarodowej na podstawie bazy NSI 2000.

Trylogia_r4

Rys. 4. Jakość współpracy międzynarodowej na podstawie bazy NSI 2000.

Cytowalność I dla danego kraju jest zdefiniowana jako stosunek całkowitej liczby cytowań do całkowitej liczby publikacji, co można zapisać wzorem

Trylogia_row1

gdzie C- liczba cytowań, P - liczba publikacji.
Można teraz wprowadzić wartości cytowalności dla poszczególnych dziedzin

Trylogia_row2

Wkład danej dziedziny do łącznej liczby publikacji z danego kraju oznaczymy przez ΔPk.

Trylogia_row3

Możemy jednak przekształcić wzór wyjściowy, mnożąc i dzieląc każdy jego składnik przez liczbę publikacji w danej dziedzinie. Łatwo widać, że prowadzi to do prostszego wyrażenia, że wkład danej dziedziny do cytowalności I równa się iloczynowi cytowalności Ik dla tej dziedziny i wkładu procentowego publikacji ΔPk tej dziedziny do łącznego dorobku całego kraju:

Trylogia_row4

Możemy więc ostatecznie napisać I=I1ΔP1+I2ΔP2+...+InΔPn, lub w postaci Trylogia_row5, gdzie ΔIk oznacza przyczynek k- tej dziedziny do cytowalności I.

Rys. 5. Wyprowadzenie wzoru na cytowalność I.


Trylogia_r5

Rys. 6. Wkład do cytowalności różnych dziedzin nauki w Polsce.

Trylogia_r6

Rys. 7. Wkład do cytowalności różnych dziedzin nauki w Szwajcarii.

Trylogia_r7

Rys. 8. Wkład do cytowalności różnych dziedzin nauki w Stanach Zjednoczonych.

Trylogia_r8

Rys. 9. Wkład od cytowalności różnych dziedzin nauki na Węgrzech.

Trylogia_r9

Rys. 10. Wkład do cytowalności różnych dziedzin nauki w Rosji.

Trylogia_r10

Rys. 11. Rozkład liczby cytowań artykułów w czasopismach o małym i dużym IF.

Trylogia_r11

Rys. 12. Koncentracja, tzn. procent artykułów, do których odnosi się 50% cytowań w danej dziedzinie oraz procent prac niecytowanych (według "Science Watch", January/February 1999)

Trylogia_r12

Rys. 13. Rozkład liczby cytowań prac publikowanych w "Physics Stat. Sol." A. Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r13

Rys. 14. Rozkład liczby cytowań prac publikowanych w "Physics Letters" A. Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r14

Rys. 15. Rozkład liczby cytowań w "Journal of Applied Physics". Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r15

Rys. 16. Rozkład liczby cytowań w "Physical Review". A. Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r16

Rys. 17. Rozkład cytowań w "hysics Letters".B. Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r17

Rys. 18. Rozkład liczby cytowań w "Physical Review Letters". Linia prosta przedstawia dopasowanie krzywej wykładniczej.

Trylogia_r18

Rys. 19. Zależność procentu artykułów dających połowę wszystkich cytowań od IF czasopisma.

Trylogia_r19

Rys. 20. Zależność średniej liczby cytowań prac z wykładniczej części rozkładu (cytowanych mniej niż 20 razy) od IF czasopisma.

Trylogia_r20

Rys. 21. Procent prac mało cytowanych w zależności od IF czasopisma.

Trylogia_r21

Rys. 22. Zależność maksymalnej liczby cytować znalezionej w danym czasopiśmie od IF tego czasopisma.

Trylogia_r22

Rys. 23. Zależność średniej liczby cytowań dziesięciu najczęściej cytowanych prac w danym czasopiśmie od wartości jego IF.

Trylogia_r23

Rys. 24. Procent prac cytowanych w różnych dziedzinach (według bazy NSI 2000).

Trylogia_r24

Rys. 25. Procent prac cytowanych w różnych dyscyplinach chemicznych (na podstawie bazy NSI 2000).

Cały artykuł można pobrać tu ikon_pobierz