Dnr 1.4.1-2015-444 SwePub – en nationell tjänst för analys och bibliometri ________________________________________________________________________ Lägesrapport Projekt vidareutveckling av SwePub Kungliga biblioteket Maj 2015 Innehållsförteckning 1. Inledning ................................................................................................. 3 1.1. Bakgrund .............................................................................................. 3 1.2. Syfte ................................................................................................. 4 2. Metadatahantering i SwePub ............................................................... 5 2.1. Systemmodell....................................................................................... 6 2.3. Datakvalitet .......................................................................................... 7 2.4. Täckningsgrad ...................................................................................... 9 2.5. Auktoritetsregister över publiceringskanaler ..................................... 10 3. Kvalitetssäkring av lokala publikationsdatabaser ........................... 11 3.1. Tre kravnivåer för data i lokala publikationsdatabaser ...................... 11 4. Nationell data i SwePub i relation till lokala publikationsdatabaser - exemplet open access .......................................................... 16 4.1. Registrering av OA ........................................................................... 16 4.2. SwePub som datakälla för OA-analyser ........................................... 17 4.3. Andelen OA i SwePub ....................................................................... 17 4.4. Uppföljning av OA ............................................................................ 18 4.5. Behov av kvalitetshöjande insatser .................................................... 18 5. Vilka bibliometriska analyser stödjer SwePub ................................. 19 5.1. Forskningsaktivitet............................................................................. 19 5.2 Publiceringsmönster............................................................................ 20 5.3. Samarbetsanalyser ............................................................................. 20 5.4. Genomslag ......................................................................................... 20 5.5. Återrapportering av open access ........................................................ 21 5.6. Införande av en publiceringsindikator .............................................. 21 6. Vidareutvecklingen av SwePub .......................................................... 21 6.1. Projektleveranser 2015 ...................................................................... 21 6.2. Framtida utvecklingsinsatser ............................................................. 22 7. Sammanfattning ................................................................................... 23 7.1. Datakvalitet, täckningsgrad & auktoritetsregister över publiceringskanaler ............................................................... 23 7.2. Bibliometriska analyser ..................................................................... 24 7.3. Möjligheter med SwePub för analys och bibliometri ........................ 25 7.4 Utmaningar för berörda aktörer .......................................................... 25 8. Appendix ............................................................................................... 27 8.1. Vidareutveckling av formatspecifikationen SwePub MODS ............ 27 8.2. Andelen open access i SwePub......................................................... 28 8.3. KB:s roll och ansvarsområden inom FOKUS-modellen ................... 32 2 (34) 1. Inledning Projekt vidareutveckling av SwePub genomförs som en följd av ett uppdrag som Kungl. biblioteket mottog från regeringen 2013. Enligt uppdraget ska SwePub vidareutvecklas för att möjliggöra och kvalitetssäkra bibliometriska analyser. Projektet genomförs i samarbete med Vetenskapsrådet (VR) och lärosätena via Sveriges universitets- och högskoleförbund (SUHF) och avslutas i juni 2015. En andra fas fortsätter till hösten 2015. SwePub etablerades som en nationell aggregerad databas 2009 och samlar in och tillgängliggör metadata om forskningspublikationer från publikationsdatabaserna vid svenska lärosäten.1 SwePub för analys och bibliometri har utvecklats som en separat databas skild från den tidigare söktjänsten och är ett system för datauttag för bibliometriska analyser.2 Projektet gör i denna rapport en andra avstämning av det nya systemet och lyfter fram dess relevans för SUHF och dess medlemmars behov av underlag för bibliometriska analyser och kvalitetssäkring. 3 1.1. Bakgrund SUHF publicerade 2009 en rekommendation som uttrycker att dess medlemmar “bör ha eller vara anslutna till en publikationsdatabas som löpande registrerar lärosätenas publikationer och som följer de nationella formatrekommendationerna och som därför kan leverera till SwePub.”4 Rekommendationen har följts av flera utredningar och rapporter som undersöker datakvaliteten både hos lokala publikationsdatabaser och hos SwePub. Förutom rekommendationen initierade SUHF samma år en utredning som undersökte hur kvaliteten i lärosätenas publikationsdatabaser skulle kunna höjas, vilken följdes av rapporten Kvalitet och publikationsdatabaser.5 Resultatet låg till grund för den rekommendation som SUHF utfärdade till sina medlemmar 2010 om att anpassa sina publikationsdatabaser så att underlagen är tillförlitliga och kan användas för bibliometriska analyser och ekonomisk resursfördelning.6 Med anledning av rapporten påbörjades även en vidareutveckling av formatspecifikationen för SwePub MODS genom bildandet av en nationell samordningsgrupp vars 1 SwePub söktjänst fortsätter som tidigare och kommer på sikt att integreras i LIBRIS XL tillsammans med de tjänster som utvecklas inom den arkitekturen. http://www.kb.se/libris/OmLIBRIS/aktuella-projekt/ 2 SwePub för analys och bibliometri: http://info.swepub.kb.se 3 Projektet gjorde en första avstämning hösten 2014 i lägesrapporten SwePub Analys och underlag till bibliometriska analyser - två exempel, Kungl. biblioteket, Stockholm, 2014 http://bit.ly/1F8xP7A 4 Rekommendation om tillgång till publikationsdatabas (REK 2009:03), SUHF, Stockholm, 2009 http://bit.ly/1cHPrww 5 Carlsson, Håkan et al., Kvalitet och publikationsdatabaser, SUHF, Stockholm, 2010 http://bit.ly/1GYDoSV 6 Rekommendationer med anledning av rapporten Kvalitet och publikationsdatabaser, SUHF, Stockholm, 2010 http://bit.ly/1JBs4PA 3 (34) slutrapport kom 2012.7 Förra året publicerade VR sitt förslag till en ny utvärderingsmodell, FOKUS, som innebär nya krav på data som ska ligga till grund för utvärdering.8 Datakvaliteten i SwePub har även behandlats i rapporter som KB tagit initiativ till. Förutsättningarna för att använda SwePub för bibliometrisk analys undersöktes inom ramen för programmet OpenAccess.se 2013 då lokala publikationsdatabaser granskades utifrån aspekterna kvalitet, enhetlighet och täckning.9 En rapport som publicerades förra året använde SwePub som primärkälla för att kartlägga och mäta svensk open access-publicering eftersom den har större täckning av svensk forskning inom alla ämnesområden än Web of Science (WoS) och Scopus.10 Med utgångspunkt i FOKUS-modellen gjorde projektet en mätning i december 2014 av datakvaliteten i SwePub som resulterade i rapporten SwePub Analys och underlag till bibliometriska analyser.11 1.2. Syfte Syftet med lägesrapporten är att beskriva: ● datakvaliteten och täckningsgraden i SwePub ● vilka bibliometriska analyser som systemet stödjer utifrån de krav som ställs på kvalitetssäkring av data för bibliometriska analyser Inledningsvis beskrivs metadatahanteringen i SwePub samt uppbyggnaden av ett svenskt auktoritetsregister över publiceringskanaler. Detta följs av ett avsnitt som beskriver lärosätenas publikationsdatabaser och SwePub:s roll och funktion i den kontexten. Vidare beskrivs nationell data i SwePub i relation till lokala publikationsdatabaser genom exemplet OA för att visa på att datakvaliteten och de analyser som kan göras på nationell nivå är direkt avhängig datakvaliteten och täckningsgraden i de lokala publikationsdatabaserna. Därefter beskrivs vilka bibliometriska analyser som är möjliga att göra. Avslutningsvis sammanfattas möjligheter med SwePub och utmaningar för projektets aktörer. 7 Andersson, Stefan et al., Slutrapport: SUHF Arbetsgrupp för vidareutveckling av formatspecifikationen för SwePub MODS på nationell nivå, SUHF, Stockholm, 2012 http://bit.ly/1cHPRDb 8 Forskningskvalitetsutvärdering i Sverige - FOKUS. Redovisning av ett regeringsuppdrag rörande modell för resursfördelning till universitet och högskolor innefattande sakkunniggranskning av forskningens kvalitet och relevans, Vetenskapsrådet, Stockholm, 2014 http://bit.ly/1EvJNmQ 9 Norman, Ulf & Scheutz, David, Kvalitet, enhetlighet och täckning: granskning av lokala publikationsdatabaser, KTH, Stockholm, 2013 http://bit.ly/1Hcqjeb 10 Fathli, M., Lundén, T., Sjögårde, P., Open access publicering vid svenska lärosäten - en kartläggning av året 2011, s. 13, 28. http://bit.ly/1L4vPxe 11 SwePub Analys och underlag till bibliometriska analyser - två exempel http://bit.ly/1F8xP7A 4 (34) 2. Metadatahantering i SwePub SwePub spelar en central roll för aggregering och kvalitetssäkring av metadata om forskningspublikationer från svenska lärosäten som ligger till grund för bibliometriska analyser och medelstilldelning.12 Aggregeringen sker via det nationella överföringsformatet SwePub MODS och skördas av KB för central lagring och bearbetning. Data konverteras från det nationella överföringsformatet till länkad data13 och lagras i ett nytt datalager som utgör grunden för SwePub för analys och bibliometri.14 Datalagret är tillgängligt både via API för länkad data och via ett publikt gränssnitt.15 Dubbletthanteringen är en väsentlig del av metadatahanteringen och bygger på en databearbetning baserad på ett flertal algoritmer. Utöver den maskinella hanteringen krävs även en manuell bearbetning av potentiella dubbletter av lärosätena. För den manuella hanteringen har projektet utvecklat ett särskilt verktyg för detta som nås via det publika gränssnittet.16 12 Ingående publikationsdatabaser: Pure (Luleå tekniska universitet och Lunds universitet), Converis (Handelshögskolan och Sveriges lantbruksuniversitet), Scigloo (Chalmers och Göteborgs universitet), Dspace (Malmö högskola), egenutvecklad (Karolinska institutet) samt DiVA (övriga lärosäten). 13 För information om länkad data se: http://en.wikipedia.org/wiki/Resource_Description_Framework 14 Data lagras i en s.k. triple store. För en definition se: http://en.wikipedia.org/wiki/Triplestore 15 SwePub för analys och bibliometri: http://info.swepub.kb.se 16 För information om dubbletthanteringen i SwePub och verktyget för detta: http://info.swepub.kb.se/leverans-av-data/dubbletthantering/ 5 (34) 2.1. Systemmodell Originaldatalagret består av bibliografisk metadata om forskningspublikationer som de är registrerade av lärosätena. Originaldata data normaliseras, berikas och optimeras till viss del för att skapa strukturen för länkade dataelement och innehåller både lokala och nationella dubbletter. Utöver originaldata finns berikad data som skapas genom att all bibliografisk metadata sammanförs med varandra för att skapa mer fullständigt data om en och samma publikation, t.ex. genom tillförande av identifikatorer. De ursprungliga bibliografiska posterna länkas ihop för att generera information om nya begrepp som är av intresse för bibliometrisk analys som “creative work”, “creative work instance”, “affilliation”, ”fraktioner” m.fl. Begrepp som är vanligt förekommande element i datamodeller för bibliometriska analyser. 17 Processen innebär att systemet först analyserar data utifrån reglerna för datakvalitet och markerar de publikationsposter som inte följer reglerna med olika feltyper.18 Endast poster som är tillräckligt fullständiga går igenom dubblettkontrollen i systemet, vilket säkerställer att beskrivningen av ett “creative work” och dess metadata gäller för en och samma publikation och att uppgifter om upphov, affiliering och publiceringskanal är kvalitetssäkrade. Bibliografiska poster omvandlas sedan till bibliometriska andelar och aspekter utan att spårbarheten försvinner. Ovanstående bild visualiserar den bibliometriska modellen där begreppet “creative work” länkas till “creative work instance” som i detta exempel består av två inrapporterade publikationsposter från två olika organisationer. Från “creative work” finns även länkar till upphovspersoner “creatorship” med uträknade fraktioner (0,25) och deras affiliering “affiliation” till respektive organisation 17 Mallig, Nicolai, A relational database for bibliometric analysis, 2010 (Fraunhofer ISI discussion papers Innovation systems and policy analysis, 2010:22) http://bit.ly/1JBtUQp 18 För information om feltyper i SwePub se: http://info.swepub.kb.se/leverans-av-data/stod-for-bearbetning-av-data/ 6 (34) (organisationskoderna gu och oru). Slutligen finns det en länk till “creator count” med uppgift om det totala antalet upphovspersoner (4). 2.2. Kvalitetssäkringsprocessen I SwePub görs inga kontroller om leverans av data sker. SwePub fungerar däremot som ett filter i kvalitetssäkringsprocessen för att höja och säkerställa datakvaliteten i den samlade mängden. Processen börjar på lärosätena med registrering och validering av metadata och fortsätter i SwePub med inbyggda kontroller av bibliografisk metadata, identifiering av feltyper och dubblettkandidater. Dessa kontroller resulterar i underlag som lärosätena själva kan generera för att genomföra olika åtgärder i syfte att förbättra datakvaliteten. Slutligen behöver lärosätena åtgärda fel och dubbletter och ansvara för att publikationsdatabaserna håller hög kvalitet och god täckning. 2.3. Datakvalitet Det finns ett antal regler i SwePub som identifierar brister i datakvalitet, s.k. feltyper.19 Reglerna kan utesluta publikationsposter från dubblettkontroll eller påverka uttagen av data som endast ska innehålla unika publikationsposter. Beroende på hur mycket feltypen påverkar dubblettkontrollen har de delats in i kategorier: 19 För mer information om feltyper i SwePub för analys och bibliometri se: http://info.swepub.kb.se/leverans-av-data/stod-for-bearbetning-av-data/ 7 (34) 1. Brist i datakvalitet av lägre dignitet där publikationsposten kommer med i dubbletthanteringen (t.ex. saknas ämnesklassifikation) 2. Brist i datakvalitet som påverkar vissa typer av bibliometriska analyser men där publikationsposten kommer med i dubbletthanteringen (t.ex. olika namnvarianter) 3. Brist i datakvalitet av hög bibliografisk karaktär vilket utesluter publikationsposten från dubbletthanteringen (t.ex. saknade eller felaktiga identifikatorer) De mest förekommande feltyperna under kategori 3 är: a. Lokalt personid eller ORCID saknas b. Lokal upphovsperson saknas c. Uppgift om totalt antal upphovspersoner saknas d. ISSN saknas e. Konferensbidrag saknar titel för värdpublikation SwePub innehåller cirka en miljon poster. Omkring 50 % av databasen består av data med feltyper inom kategori 1 och 2 och saknar bland annat ämnesklassning. Poster med dessa feltyper kommer med i dubbletthanteringen eftersom de inte påverkar systemets möjligheter att skapa “creative works” men påverkar många analystyper där man vill använda aspekten ämne. Följande kategorier ingår också i dubbletthanteringen: helt felfria poster (23 %) och poster utan fel enligt kategori 3 (25 %). Det finns totalt ca 5-10 % dubblettkandidater i hela databasen. Den kvalitetssäkrade delen av databasen som består av poster som uppfyller samtliga krav enligt kategorierna 1-3 samt har genomgått dubblettkontrollen uppgår till ca 25 %.20 Andelen kvalitetssäkrad data beskriver ett läge då lärosätena ännu inte kommit igång med tillämpningen av praxis som den beskrivs i NR och inte heller har börjat leverera data enligt det uppdaterade nationella överföringsformatet SwePub MODS.21 Det har också gått för kort tid sedan den förra avstämningen av datakvaliteten för att det skulle kunna ha skett några större förändringar.22 20 Av 980 000 poster i SwePub är 170 000 poster som inte ingår i det inrapporterade lärosätets produktion (dvs. har inte någon affiliering till det inrapporterande lärosätet) eller har status opublicerad. 21 Drake, Tuija et al., Nationella riktlinjer för dataleveranser till SwePub för forskningsoutput och analys, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ och Kronman, Ulf, SwePub MODS metadata format specification - version 2.5, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 22 SwePub Analys och underlag till bibliometriska analyser - två exempel http://bit.ly/1F8xP7A 8 (34) 2.4. Täckningsgrad Ett sätt att mäta täckningsgraden i SwePub är att se hur stor andel av de svenska lärosätena som är anslutna. Av 34 lärosäten är samtliga utom två anslutna till SwePub.23 Hur stor del av det enskilda lärosätets produktion som återfinns i SwePub varierar dock.24 Varje lärosäte har lämnat uppgift om bästa täckningsgrad men projektet har inte undersökt vidare om lärosätena uppfyller SUHF:s kravnivå angående god täckning av lärosätets forskningspublicering. Enligt en rapport initierad av KB så sammanfaller bäst täckning i databasen ofta med införandet av en publiceringspolicy som föreskriver att forskarna ska registrera sina publikationer i lokala publikationsdatabaser samt med användandet av underlag från publikationsdatabaserna för årsredovisningar, medelsfördelning och forskningsutvärdering.25 Ett annat sätt är att mäta täckningsgraden är att undersöka hur stor andel WoS som återfinns i SwePub eftersom WoS är en av de huvudsakliga källor som används vid bibliometriska analyser. En mätning gjord av VR undersökte både hur stor andel av WoS som återfinns i SwePub och det omvända.26 Mätningen begränsades till publikationer utgivna mellan 2010-2014. När det gäller SwePub täcker databasen 85 % av publikationerna med minst en svensk adress i VR:s databas. Bland de saknade publikationerna kommer en del från svenska organisationer som inte deltar i SwePub men som publicerar vetenskapliga artiklar. Andelen kommer att öka när lärosätena börjar registrera sjukhuspublikationer enligt Nationella riktlinjer för dataleverans till SwePub.27 När det gäller det omvända så täcker VR:s databas 59 % av publikationerna i SwePub (71 % om konferensbidrag inte inkluderas). Att andelen är lägre beroende på att SwePub innehåller publiceringskanaler som inte finns i VR:S databas. I databasen saknas dels forskning som kommuniceras på svenska, dels forskning för vissa vetenskapsområden där en stor del av den vetenskapliga publiceringen sker i form av böcker och inte tidskrifter. Därför blir också ett urval av tidskrifter inte representativt för områdena som helhet. 23 Kungl. konsthögskolan och Stockholms konsthögskola är ännu inte anslutna till SwePub (den förra är på väg att anslutas till DiVA och den senare saknar publikationsdatabas). 24 Deltagande organisationer och täckningsgrad finns beskrivna i SwePub för analys och bibliometri. Företag och andra ej offentligt finansierade organisationer deltar inte. http://info.swepub.kb.se/om-swepub-2/beskrivning-av-innehall/ 25 Norman & Scheutz, s. 51 f. http://bit.ly/1Hcqjeb 26 Aldberg, Henrik, Datakvalitet i SwePub, PM, Stockholm, Vetenskapsrådet, 2015-04-16. Mätningen baseras på Vetenskapsrådets publikationsdatabas, som ungefärligen motsvarar WoS, samt SwePub. 27 Universitetssjukhusens publikationer och fraktioner tillräknas det affilierade lärosätet. Se avsnittet “Affilieringar” i NR. http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 9 (34) 2.5. Auktoritetsregister över publiceringskanaler Ett auktoritetsregister över publiceringskanaler skulle skapa förutsättningar för mer enhetliga lokala och nationella analyser men saknas idag.28 I det nuvarande distribuerade systemet med lokala publikationsdatabaser registreras publikationsposterna vid respektive lärosäten som sakkunniggranskad, övrig vetenskaplig och populärvetenskaplig. Denna märkning skulle kunna ersättas av ett nationellt auktoriserat register över publiceringskanaler. Projektet har utvecklat en prototyp till auktoritetsregister över publiceringskanaler som baseras på en aggregering av de norska, finska och danska auktoritetsregistren. Till detta sammanslagna register har därefter de tidskrifter som finns i SwePub men som saknas i de nordiska registren lagts till efter en matchning mot LIBRIS-poster med hjälp av ISSN-identifikatorn.29 Fortfarande återstår dock ca 15 % av de publiceringskanaler som används i SwePub som inte har varit möjliga att mappa vare sig till det nordiska kanalregistret eller till LIBRIS. Tillsvidare innehåller denna prototyp enbart tidskrifter men på sikt bör även förlag läggas till. Prototypen kan nås via ett öppet API.30 Tanken bakom registret är att markera de publiceringskanaler som är auktoriserade, dvs. är sakkunniggranskade, men även övriga vetenskapligt granskade publiceringskanaler kan komma att finnas med. Däremot är det inte tänkt att det svenska auktoritetsregistret ska nivåindelas som man har gjort i de nordiska länderna. Uppgiften har ändå tagits med från de övriga registren eftersom den kan underlätta vid bedömningar och jämförelser. Vad gäller ämnesklassificering finns det önskemål från lärosätenas sida att publiceringskanalerna ska vara klassificerade för att ge stöd vid lokal registrering och klassificering av forskningspublikationer. Tidskrifter i WoS är ämnesklassificerade och det finns en mappning mot OECD Field och Science and Technology (FOS) Classification31 som i sin tur motsvarar de svenska forskningsämnena utarbetad av SCB/UKÄ.32 För ämnesområden som WoS inte täcker lika bra skulle man kunna utnyttja ämnesklassifikationen i det nordiska registret och i LIBRIS för att göra en mappning till svenska forskningsämnen. Ämnesklassificeringen skulle dock enbart gälla för tidskrifter och serier, inte för förlag. 28 Haapalainen, Marja, Auktoritetsregister över publiceringskanaler och organisationer, PM, Kungl. biblioteket, Stockholm, 2015-03-24 http://bit.ly/1H9jUgW 29 LIBRIS: http://libris.kb.se 30 Länk till information om prototypen: http://info.swepub.kb.se/om-swepub-2/auktoritetsregister-over-publiceringskanaler/ 31 Mappningen mellan OECD Classification och Web of Science Subject Headings: http://incites.isiknowledge.com/common/help/h_field_category_oecd_wos.html 32 Pettersson, Ingrid & Söder, Isabelle (red.), Standard för svensk indelning av forskningsämnen 2011 : uppdaterad 18 december 2012, Högskoleverket, Stockholm, 2012 http://bit.ly/1F8xodv 10 (34) Utöver själva auktoritetsregistret behövs också, liksom i övriga nordiska länder, en tjänst för att kunna ta emot förslag på nya publiceringskanaler. Processen för verifiering och bedömning av inkomna förslag är arbetskrävande. Kanalerna behöver märkas så att det framgår att de är under bedömning så att lärosätena kan arbeta vidare med registreringen av sina forskningspublikationer oavsett publiceringskanalens status i bedömningsprocessen. En framtida utveckling av ett auktoritetsregister över publiceringskanaler omfattar följande: ● ● ● ● ● ● ● ● publikt gränssnitt för registrering av förslag på nya kanaler administrativt gränssnitt för verifiering och bearbetning öppna API:er för integrering med andra system verifieringsfunktion av open access-status via DOAJ33 och SHERPA/RoMEO34 utveckling av arbetsprocessen kring ämnesklasificering, urval och bedömning där märkning av kanalernas status i processen framgår, t.ex. förslag, antagen, ej antagen, under utredning, open access mm utbyggnad med förlag förvaltningsplanering teknisk lösning för ett planerat gemensamt nordiskt auktoritetsregister 3. Kvalitetssäkring av lokala publikationsdatabaser Eftersom SwePub är en aggregerad databas är kvalitetsnivån på data beroende av hur god datakvaliteten är i lokala publikationsdatabaser. SUHF-rapporten Kvalitet och publikationsdatabaser definierar tre kravnivåer på data för att underlag från publikationsdatabaser ska fungera i bibliometriska analyser. Kravnivåerna och beskrivningarna i följande tabell bygger på rapporten och tar upp SwePub:s roll och funktion i förhållande till respektive kravnivå.35 3.1. Tre kravnivåer för data i lokala publikationsdatabaser Kravnivå 1. Underlag från publikationsdatabaserna ska kunna användas för bibliometriska analyser vid svenska lärosäten. Publikationsdatabasen ska SwePub:s roll/funktion 33 Anmärkning DOAJ – Directory of Open Access Journals: http://doaj.org/ SHERPA/RoMEO - Publisher copyright policies & self-archiving: http://www.sherpa.ac.uk/romeo/ 35 Carlsson, Håkan et al., Kvalitet och publikationsdatabaser, SUHF, Stockholm, 2010 http://bit.ly/1GYDoSV 34 11 (34) innehålla: a. Lärosätets egen forskningspublicering med god täckning. Tillhandahålla infrastruktur för datainsamling, tillgängliggörande och återanvändning av data. SwePub bygger på frivilligt deltagande. Det sker inga kontroller om leverans av data sker eller om kvalitetshöjande åtgärder utförs. Det finns således inga garantier för en fullständig täckning av lärosätenas produktion eller garantier för kvalitetshöjning av data lokalt. b. Data som är uppställda på ett sådant sätt att det går att jämföra olika lärosätens publicering. Tillhandahålla Nationella riktlinjer för dataleverans till SwePub (NR)36 och SwePub MODS formatspecifikation.37 NR och formatspecifikation är anpassade för bibliometri som ställer nya krav på praxis, registrering och dataleverans. Omarbetade och nya outputs. 38 c. Möjligheten att lätt avgöra vilka publikationer i externa databaser (t.ex. Web of Science) som motsvaras av databasens publikationsregistreringar. Tillhandahålla NR och SwePub MODS formatspecifikation. Nya krav på registrering av identifikatorer för publikationer i NR och formatspecifikationen: t.ex. ISI-ID. 39 d. Klara kopplingar mellan publikationsregistreringarna s författare och specifika forskare och organisationer vid lärosätet. Tillhandahålla NR och SwePub MODS formatspecifikation. Se ovan. e. Uppgift om publikationens ämne/vetenskapsområde. Tillhandahålla NR och SwePub MODS formatspecifikation. Krav på ämnesklassificering enligt “Standard för svensk indelning av forskningsämnen.”40 36 Drake, Tuija et al., Nationella riktlinjer för dataleveranser till SwePub för forskningsoutput och analys, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 37 Kronman, Ulf, SwePub MODS metadata format specification - version 2.5, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 38 Outputs i enlighet med Nationella riktlinjer för dataleverans till SwePub, v. 1.2.: http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 39 Kronman, Ulf, Thomson Reuters publikations-id:n i SwePub-systemet, PM, Kungl. biblioteket, Stockholm, 2014-10-28 40 Pettersson, Ingrid & Söder, Isabelle (red.), Standard för svensk indelning av forskningsämnen 2011, Högskoleverket, Stockholm, 2012 http://bit.ly/1F8xodv 12 (34) f. Data om tidskrift (ISSN) och förlag med hög kvalitet. Tillhandahålla NR och SwePub MODS formatspecifikation. Auktoritetsregister över publiceringskanaler under utredning av KB och VR.41 g. Bibliografiska uppgifter som i övrigt är fullständiga, korrekta och validerade. Valideringskontroll i systemet utifrån fastställda feltyper.42 Tillhandahålla underlag till lärosäten för kvalitetshöjande åtgärder. Kräver kontinuerlig, manuell databearbetning av lärosätet med stöd av underlag från SwePub. Endast data som uppfyller krav enligt NR och SwePub MODS formatspecifikation tas med vid uttag av kvalitetssäkrad data. h. En publikationsmängd utan dubblettposter. Automatisk identifiering av lokala och nationella dubbletter i systemet. Se ovan. Tillhandahålla verktyg för dubbletthantering. 43 Kravnivå 2. Underlag från publikationsdatabaserna ska kunna användas för resursfördelning vid svenska lärosäten. Samtliga krav enligt a-h samt: i. Slutanvändarna/forskarna och lärosätenas ledningar ska kunna överblicka hur deras produktion visas upp och bedöms. Tillhandahålla en publik tjänst för utsökningar: SwePub för analys och bibliometri. j. Publikationsunderlaget bör explicit ha validerats av forskarna och/eller av institutionens prefekt Valideringskontroll i systemet utifrån fastställda feltyper.44 Det görs inga bedömningar i SwePub, enbart att metadata uppfyller de framtagna kriterier som gäller för kvalitetssäkrad data. Tillhandahålla frivillig märkning av ickevaliderade poster. Poster märkta som ickevaliderade inkluderas inte i dubbletthanteringen och därmed inte i uttag av kvalitetssäkrade data. Tillhandahålla underlag till lärosätena för kvalitetshöjande åtgärder. Data som bedöms som kvalitetssäkrade enligt systemet behöver kontrolleras 41 Haapalainen, Marja, Auktoritetsregister över publiceringskanaler och organisationer, PM, Kungl. biblioteket, Stockholm, 2015-03-24 http://bit.ly/1H9jUgW 42 För information om feltyper: http://info.swepub.kb.se/leverans-av-data/stod-for-bearbetning-av-data/ 43 Dubbletthantering i SwePub: http://info.swepub.kb.se/leverans-av-data/dubbletthantering/ 44 Valideringskontroll i SwePub: http://info.swepub.kb.se/leverans-av-data/stod-for-bearbetning-av-data/ 13 (34) av det mänskliga ögat eftersom t.ex. en affiliering kan vara korrekt enligt systemet men inkorrekt enligt lärosätets register över anställda. Underlag genereras vid behov av lärosätena själva. Kravnivå 3. Data från publikationsdatabaserna ska kunna överföras till nationell nivå k. Data bör aggregeras centralt. Tillhandahålla infrastruktur för datainsamling, tillgängliggörande och återanvändning av data. KB:s roll som systemförvaltare är att samordna vidareutveckling av infrastruktur, kvalitetssäkring, NR och SwePub MODS med SUHF och VR. l. Data bör de-dupliceras centralt. Automatisk identifiering av lokala och nationella dubbletter. Se ovan. Tillhandahålla verktyg för dubbletthantering. m. Ett nationellt överföringsformat som kan överföra de data som krävs för analyser och medelsfördelning enligt ovan. Tillhandahålla och utveckla NR och SwePub MODS formatspecifikation. Se ovan. n. Lärosätena kan leverera publikationsdata enligt detta format. Tillhandahålla infrastruktur för datainsamling, tillgängliggörande och återanvändning av data. Se ovan. Tillhandahålla API:er och publik tjänst för utsökningar. Svenska lärosäten har sedan länge uttryckt ett stort behov av nationella riktlinjer kring praxis för beskrivning av forskningsoutput. KB-rapporten Kvalitet, enhetlighet och täckning beskriver de skillnader som finns vad gäller hur man registrerar publikationer i de lokala publikationsdatabaserna. Rapporten identifierar flera problemområden som kan härledas till att lokal praxis skiljer sig åt vad gäller bl.a. sakkunniggranskning, beskrivning av konferensbidrag, affiliering, upphovspersoners antal och ordning. Registrering av forskningsoutput sker också på olika sätt med varierande kvalitet: av forskarna, av bibliotekspersonal och genom importer från referensdatabaser som WoS och 14 (34) Scopus. Lärosätena har också olika publiceringspolicyer kring vad och hur mycket som ska registreras i de lokala databaserna.45 Projekt vidareutveckling av SwePub har utarbetat NR i syfte att de ska utgöra ett stöd för definition, beskrivning och utformning av metadata om forskningspublikationer inför dataleverans till SwePub.46 I de lokala databaserna kan publikationer registreras utifrån lokala behov, men vid leverans till SwePub för analys och bibliometri ska metadata och dess semantik överensstämma med nationell praxis. Målgruppen för riktlinjerna är både de som registrerar och kvalitetskontrollerar bibliografiska poster i lokala publikationsdatabaser och analytiker/bibliometriker. Riktlinjerna är anpassade efter bibliometriska behov liksom det nationella överföringsformatet SwePub MODS. Stor vikt har lagts vid att möjliggöra fraktionerad statistik. Utöver VR:s behov och krav, utgår de förändringar som är gjorda ifrån slutrapporten från SUHF:s arbetsgrupp för vidareutveckling av formatspecifikationen.47 48 Projektet har också omarbetat befintliga publikationstyper/forskningsoutput och tagit fram förslag på nya outputtyper, t.ex. output för konstnärlig forskning, vilket innebär att alla forskningsområden därmed kan beskrivas och synliggöras på enhetlig grund.49 Riktlinjer, outputs och format har utarbetats i nära dialog med VR. Vidare har projektet utvecklat en prototyp till auktoritetsregister över publiceringskanaler som kan utgöra ett stöd vid registrering och verifiering av metadata om tidskrifter och förlag.50 Projektet har även utarbetat en prototyp till auktoritetsregister över organisationer till stöd för fraktioneringslogiken och vid registrering av metadata.51 45 Norman, Ulf & Scheutz, David, Kvalitet, enhetlighet och täckning: granskning av lokala publikationsdatabaser, KTH, Stockholm, 2013 http://bit.ly/1Hcqjeb 46 Drake, Tuija et al., Nationella riktlinjer för dataleveranser till SwePub för forskningsoutput och analys, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 47 För en sammanställning av förändringarna se Appendix 8.1. 48 Andersson, Stefan et al., Slutrapport : SUHF Arbetsgrupp för vidareutveckling av formatspecifikationen för SwePub MODS på nationell nivå, SUHF, Stockholm, 2012 http://bit.ly/1cHPRDb 49 Outputs i enlighet med Nationella riktlinjer för dataleverans till SwePub, v. 1.2.: http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 50 Se avsnitt 2.5. 51 Haapalainen, Marja, Auktoritetsregister över publiceringskanaler och organisationer, PM, Kungl. biblioteket, Stockholm, 2015-03-24 http://bit.ly/1H9jUgW 15 (34) 4. Nationell data i SwePub i relation till lokala publikationsdatabaser - exemplet open access Uppföljning av open access (OA) utgör ett exempel på en analys som görs på nationell nivå med data från SwePub. Datakvaliteten och de analyser som kan göras på nationell nivå är direkt avhängig datakvaliteten och täckningsgraden i de lokala publikationsdatabaserna. 4.1. Registrering av OA Enligt praxis i NR är det obligatoriskt att registrera en länk till en fritt tillgänglig forskningspublikation i den lokala publikationsdatabasen om länken finns tillgänglig vid granskningstillfället.52 En länk som leder till ett lärosätesarkiv (institutionellt arkiv) ska anges i första hand eftersom den antas vara mer beständig och föredras i VR:s uppföljning av open access-publicering.53 Beroende på lokala rutiner kan upphovspersonen eller SHERPA/RoMEO användas som källa för att verifiera att fulltexten får finnas fritt tillgänglig.54 Registreringen av OA vid lärosätena sker med angivandet av en länk med definitionen “free”. För att indikera grön OA används definitionen “primary” som en kvalitetsindikator. Den används dels för att garantera att länken är automatgenererad och inte skrivs in manuellt och dels för att visa att länken leder till ett lärosätesarkiv. Enligt NR bör den parallellpublicerade versionen så långt det är möjligt vara densamma som den publicerade versionen (efter sakkunniggranskning eller redaktionellt arbete).55 För att indikera gyllene OA, dvs. när en artikel är publicerad i en open access-tidskrift, gör SwePub en automatisk verifiering mot DOAJ för uppmärkning. Länkar till fritt tillgängliga forskningspublikationer på internet registreras endast med definitionen “free” för att markera att lärosätet/myndigheten inte kontrollerar eller ansvarar för innehållet. Vid registrering av länkar där åtkomsten inte är fritt tillgänglig anges länken utan definition.56 Vid fördröjd OA anges embargots slutdatum i formatet YYYY-MM-DD tillsammans med definitionerna “free” och “primary”. 52 Drake, Tuija et al., Nationella riktlinjer för dataleverans till SwePub för forskningsoutputs och analys, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 53 Ibid., se avsnittet: Åtkomst till fulltext. 54 SHERPA/RoMEO - Publisher copyright policies & self-archiving: http://www.sherpa.ac.uk/romeo/ 55 Drake, Tuija et al., Nationella riktlinjer för dataleverans till SwePub för forskningsoutputs och analys, Kungl. biblioteket, Stockholm, 2014, s. 23. http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 56 Kronman, Ulf, SwePub MODS metadata format specification - version 2.5, Kungl. biblioteket, Stockholm, 2014 http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 16 (34) 4.2. SwePub som datakälla för OA-analyser Kartläggningen av svensk OA-publicering som gjordes 2014 i rapporten Open Access-publicering vid svenska lärosäten mätte open access-publiceringen under ett enskilt år, 2011, med SwePub-data som primärkälla.57 Året var valt för att även få med fördröjd OA (embargo). Enligt rapportförfattarna innehåller SwePub fler publikationsposter än WoS och Scopus och täckningen är därmed bättre för svensk forskning och inom alla ämnesområden.58 Även om rapportförfattarna menar att det går att sätta frågetecken kring SwePubs datakvalitet i nuläget anser de att kvaliteten är “tillräcklig för att få en uppfattning om svensk OA-publicering på aggregerad nivå” med reservationen att det inte finns information om vilken version som parallellpublicerats.59 Mätningen av open access begränsades till refereegranskade tidskriftsartiklar och forskningsöversikter. Rapportförfattarna gjorde också en verifiering i Google Scholar och Google av fulltextlänkar av ett slumpvist urval av artiklar som ej var registrerade som OA i SwePub men som kunde återfinnas som OA i ämnesarkiv, på hemsidor eller på förlagens webbplatser.60 Resultatet av studien visade att 10, 4 % var grön OA, 9,6 % gyllene OA och andelen fördröjd OA var 8,7 %. Tre procent av artiklarna överlappade, dvs. var både publicerade i en OA-tidskrift och parallellbpulicerade. Den sammanlagda andelen OA hamnade på 25 %. När rapportförfattarna tog hänsyn till den manuella undersökningen av möjlig OA-publicering hamnade den totala andelen OA på 52,2 procent.61 4.3. Andelen OA i SwePub Vid en mätning i april månad 2015 uppgick samtliga forskningspublikationer i SwePub åren 2010-2014 till 330 000, varav 16,4 % var grön OA och 6,4 % gyllene OA (totalt 22,8 %). När uttaget begränsades till tidskriftsartiklar 20102014 var antalet publikationer 118 000, varav 11,8 % grön OA och 10,6 gyllene OA (totalt 22,2 %).62 Till skillnad från OA-rapporten från 2014 baseras mätningen enbart på fulltextlänkar med definitionen “free” eftersom lärosätena ännu inte kommit igång med att ange “primary” som indikerar att länken leder till ett lärosätesarkiv. Trots att OA-rapporten enbart räknade parallellpublicerade artiklar där länkarna leder till lärosätesarkiv och inte parallellpublicering i allmänhet, 57 Fathli, M., Lundén, T., Sjögårde, P., Open access publicering vid svenska lärosäten - en kartläggning av året 2011. Projektrapport till Kungliga biblioteket, Stockholm, 2014 http://bit.ly/1L4vPxe Undersökningen publicerades 2015 i en tidskriftsartikel: Fathli, M., Lundén, T., Sjögårde, P., ‘The Share of Open Access in Sweden 2011’, ScieCom Info, 2014(10):2 http://bit.ly/1INLRN0 58 Fathli, M., Lundén, T., Sjögårde, P., Open access publicering vid svenska lärosäten - en kartläggning av året 2011, s. 13, 28. http://bit.ly/1L4vPxe 59 Ibid. 60 Ibid., s. 17. 61 Ibid., s. 18 f. 62 Se Appendix 8.2 för samtliga diagram. 17 (34) ligger siffrorna från mätningen av OA i SwePub i april 2015 relativt nära OArapportens siffror även om de inte är jämförbara (11, 8 % mot rapportens 10,4 % för grön OA och 10,6 % mot rapportens 9,6 % för gyllene OA och överlappningen densamma runt 3 %). 4.4. Uppföljning av OA I nuläget går det inte att följa de rekommendationer som framförs i NR och VR:s Förslag till nationella riktlinjer för öppen tillgång till vetenskaplig information,63 vilka säger att endast räkna fritt tillgängliga artiklar som finns i etablerade institutionella arkiv när det gäller grön OA.64 Detta beror på att lärosätena inte har kommit igång med implementeringen av NR och den uppdaterade formatspecifikationen och börjat ange kvalitetsindikatorn "primary" som indikerar att länken automatgenereras och leder till ett lärosätesarkiv. Statistiska uttag i SwePub baseras därför enbart på definitionen "free" vilket får till följd att resultatet även kan innehålla länkar till fulltext som inte är arkiverade i ett institutionellt arkiv. I nuläget finns det inget sätt att särskilja hybridpublikationer som är fritt tillgängliga mot publiceringsavgift (Article Publication Charge) i en prenumerationsbaserad tidskrift och det finns ännu inga embargos registrerade i SwePub. 4.5. Behov av kvalitetshöjande insatser Deltagande i och användande av SwePub innebär att lärosätena kan påverka både täckning och datakvalitet rörande OA. I nuläget är dock data om open access inte kvalitetssäkrade, vilket innebär att: ● definitionen‘primary’ inte kan användas som det är tänkt p.g.a. ofullständigt data ● uppgift om embargo inte har kontrollerats p.g.a. ofullständigt data ● verifiering av gyllene open access inte är heltäckande eftersom DOAJ i dagsläget inte innehåller samtliga beständiga OA-tidskrifter ● hybrider, dvs. publikationer som mot publiceringsavgift görs fritt tillgängliga i en prenumerationsbaserad tidskrift, inte kan särskiljas 63 Förslag till nationella riktlinjer för öppen tillgång till vetenskaplig information, Vetenskapsrådet, Stockholm, 2015 http://bit.ly/1HeVfGJ 64 Även OA-rapporten ger denna rekommendation: att inte räkna fritt tillgängliga artiklar utanför etablerade arkiv. Med etablerade arkiv räknar de institutionella arkiv (lärosätesarkiv/publikationsdatabaser) men även ämnesarkiv som PubMed och arXiv som uppfyller Berlindeklarationens villkor om bland annat beständighet och infrastruktur. Se Fathli, M., Lundén, T., Sjögårde, P., Open access publicering vid svenska lärosäten - en kartläggning av året 2011. Projektrapport till Kungliga biblioteket, Stockholm, 2014, s. 26. http://bit.ly/1L4vPxe 18 (34) ● det finns publikationsposter som både finns i DOAJ och är deponerade i lärosätets arkiv vilket leder till överlappningar och därmed till tolkningsproblem ● det saknas uppgifter om vilken version som parallellpubliceras ● det finns fritt tillgängliga fulltexter som inte registrerats i publikationsposterna med länk och uppgift om “free”/”primary” och därmed inte går att verifiera utan manuell insats Det förekommer också brister i datakvaliteten som gör att posterna inte bedöms som kvalitetssäkrade och därför inte kommer med i analysen, t.ex. felaktiga/saknade ISSN, felaktiga/saknade DOI m.m. Utöver detta tillkommer att inte alla svenska lärosäten har en policy rörande OA som kräver eller rekommenderar OA-publicering vilket påverkar andelen OA i publikationsdatabaserna.65 Det kommer att krävas stora arbetsinsatser av lärosätena för att höja kvaliteten på metadata om fritt tillgängliga publikationer för att efterfölja de krav som både SUHF och VR ställer och som är bearbetade och införda i NR samt i det nationella överföringsformatet SwePub MODS formatspecifikation. Även internationellt finns ett stort behov av förbättrad metadata rörande OA. Nya rekommendationer från NISO har nyligen utfärdats för metadata om OA som gör att man kan hantera bland annat fördröjd OA (embargo) och licensinformation (t.ex. CC-märkning).66 En internationell standard är något som både VR och lärosätena efterfrågar och behöver beaktas i kommande riktlinjer, formatspecifikation och utveckling. 5. Vilka bibliometriska analyser stödjer SwePub SwePub kan till viss del stödja olika typer av analyser i nuläget trots avsaknad av auktoritetsregister över publiceringskanaler och fastän andelen data som håller hög kvalitet ännu inte är så stor.67 5.1. Forskningsaktivitet Forskningsaktivitet, dvs. produktion per organisation, är möjlig att mäta enligt ‘whole count-metoden’68och drygt 70 % av posterna i databasen är också möjliga 65 Svensson, Aina, Open access vid svenska lärosäten : en enkätundersökning, Kungl biblioteket, Stockholm, 2011 http://bit.ly/1IIKzo3 66 Access license and indicators. A recommended practice of the National Information Standards Organization (NISO RP-22-2015), NISO, Baltimore, 2015 http://www.niso.org/publications/rp/rp-22-2015 67 Sjöstedt, Elisabeth, Aldberg, Henrik & Jacobsson, Carl, Riktlinjer för användning av bibliometri vid Vetenskapsrådet, PM, Vetenskapsrådet, Stockholm, 2014-12-15 http://bit.ly/1H9jJSH 19 (34) att fraktionera vilket innebär att man kan räkna det rapporterande lärosätets andelar av en publikation. Det går därmed att analysera produktionsvolym per lärosäte med reservation för att det kan finnas lokala dubbletter som ännu ej är åtgärdade av lärosätet men identifierade i kvalitetssäkringsprocessen i SwePub. Det är möjligt att dela in datauttag i sakkunniggranskat eller övrigt vetenskapligt men ett auktoritetsregister över publiceringskanaler skulle kunna ersätta den manuella bedömningen och innehållsmärkningen som görs av lärosätena idag och skapa ett mer enhetligt underlag. 5.2 Publiceringsmönster Det återstår en hel del kvalitetshöjande åtgärder av lärosätena med att ämnesklassificera poster retroaktivt för att det ska bli möjligt att utföra analyser av publiceringsmönster, vilka baseras på att forskningspublikationer är ämnesklassificerade.69 Totalt saknar 54 % av posterna i SwePub ämnesklassificering enligt nivå 2 i “Standard för svensk indelning av forskningsämnen”. Vid en avgränsning till åren 2012-2014 blir siffran något lägre, 43 %. Istället för att ämnesklassificera publikationsposter kan ett alternativ vara att ämnesklassificera publiceringskanalerna i auktoritetsregistret över publiceringskanaler. 5.3. Samarbetsanalyser Det går att analysera hur stor del av ett lärosätes produktion som utgörs av sampubliceringar, då inrapporterande lärosäte anger affilieringar för egna upphovspersoner enligt NR.70 På nationell nivå går det också att specificera vilka organisationer som ingår och dess andelar, med reservation för att endast 50 % av posterna uppfyller villkoren för att genomgå dubblettkontroll och därefter utgör underlag för beräkning av andelar. 5.4. Genomslag SwePub är mindre tillförlitlig när det gäller att undersöka genomslag för ett lärosätes forskningsoutput genom citeringsanalyser. Endast 37 % av posterna i SwePub som ingår i värdpublikationer som återfinns i WoS är märkta med den identifikator som behövs för denna analystyp. Så snart frågan om WoS-licenser för utnyttjande av ISI-identifikatorn i SwePub är löst kommer andelen att öka. 71 68 Ibid., s. 4. “Whole count” innebär att om en artikel har flera författare så får varje författare tillgodoräkna sig hela artikeln. Samma artikel kan då räknas flera gånger och den sammanräknade produktionen är då överskattad. Detta gäller författare, adresser och ämnen. 69 Ämnesklassificering av forskningspublikationer är ett krav inom FOKUS-modellen. Forskningskvalitetsutvärdering i Sverige – FOKUS, Vetenskapsrådet, Stockholm, 2014 http://bit.ly/1EvJNmQ 70 Se avnsittet om “Affilieringar” i NR och SwePub MODS formatspecifikation: http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ 71 Kronman, Ulf, Thomson Reuters publikations-id:n i SwePub-systemet, PM, Kungl. biblioteket, Stockholm, 2014-10-28 20 (34) 5.5. Återrapportering av open access Det går endast att göra oprecisa uppföljningar av open access-publicering i dagsläget p.g.a. ofullständig data till följd av att lärosätena ännu inte börjat tillämpa NR och SwePub MODS. En vidareutveckling av dessa är också nödvändig för att hantera nya standarder och krav. 5.6. Införande av en publiceringsindikator Ett införande av ett auktoritetsregister över publiceringskanaler skulle påskynda möjligheterna att börja använda underlag från SwePub till bibliometri, istället för att invänta att ämnesklassificering av alla publikationsposter utförs.72 Publiceringskanalerna i auktoritetsregistret behöver vara ämnesklassificerade (som WoS-tidskrifter är) för att stödja bibliometri som utgår från ämne t.ex. vid studier av publiceringsmönster. Publiceringskanalerna behöver även open accessmärkas för att stödja återrapportering. Vidare skulle direktiv angående tillämpning av NR och krav på användning av identifikatorer som ORCID och DOI påskynda en kvalitetshöjning. Med dessa åtgärder skulle en publiceringsindikator som mäter publiceringsaktivitet kunna etableras, vilket innebär att den vetenskapliga bedömningen kan ske av tidskrift eller förlag. 6. Vidareutvecklingen av SwePub 6.1. Projektleveranser 2015 Sedan KB fick uppdraget att vidareutveckla SwePub 2013 har projektet utvecklat ett nytt datalager baserat på data som aggregeras till SwePub. För att stödja den kvalitetssäkring som SUHF och VR:S förespråkar har projektet genomfört en rad åtgärder med syfte att stödja bibliometri och nationella analyser och jämförelser. Projektet har tagit fram: ● nationella riktlinjer för lärosätena kring praxis för beskrivning och validering av forskningsoutput ● omarbetade och nya forskningsoutputs, som även omfattar output för konstnärlig forskning, så att alla forskningsområden kan synliggöras och jämföras på ett enhetligt sätt ● ett uppdaterat nationellt överföringsformat i SwePub MODS formatspecifikation som stödjer bibliometri ● en prototyp till auktoritetsregister över publiceringskanaler ● en prototyp till auktoritetsregister över organisationer ● ett datalager samt API:er 72 Auktoritetsregister över publiceringskanaler är ett behov som uttrycks inom FOKUS-modellen. Forskningskvalitetsutvärdering i Sverige – FOKUS, Vetenskapsrådet, Stockholm, 2014 http://bit.ly/1EvJNmQ 21 (34) ● betatjänsten SwePub för analys och bibliometri: ett publikt gränssnitt för datalagret med en samlad åtkomst till dokumentation, riktlinjer och formatspecifikation, som ska facilitera för målgrupperna att hämta data för bibliometriska analyser samt underlag för att arbeta med databearbetning och kvalitetssäkring av data i lokala publikationsdatabaser. Med dessa kvalitetshöjande åtgärder möter SwePub många av de krav som ställs av SUHF och lärosätena. Även täckningsgraden har blivit högre sedan projektstarten då samtliga lärosäten utom två nu är anslutna till SwePub. SwePub är också en av de datakällor för insamling av metadata om forskningspublikationer som FOKUS-modellen är tänkt att bygga på.73 De kvalitetshöjande åtgärderna som räknas upp ovanför har skett i samarbete med VR, vilket innebär att SwePub är förberett och anpassat för resurstilldelning på nationell nivå utifrån de krav som ställs i FOKUS-modellen. Hur SwePub är tänkt att fungera i FOKUS-modellen är närmare beskrivet i rapporten “SwePub Analys och underlag till bibliometriska analyser”.74 De krav som ställs på KB som ansvarig myndighet för SwePub finns sammanställda i appendix 8.3 för att åskådliggöra KB:s roll och ansvar i en eventuell framtida ny resurstilldelningsmodell. 6.2. Framtida utvecklingsinsatser Utvecklingsinsatser i projektets andra fas under hösten 2015 omfattar följande: ● vidareutveckla betatjänsten SwePub för analys och bibliometri: datalager, API:er, publikt gränssnitt samt integration med KB:s IT-infrastruktur ● vidareutveckla processer och stöd för kvalitetssäkring samt validering av data. ● vidareutveckla NR och SwePub MODS formatspecifikation och anpassa dem efter nya behov som t.ex. uppföljning av OA ● vidareutveckla prototypen till auktoritetsregister över publiceringskanaler i samarbete med VR ● planera för samarbete med VR kring förberedelser och pilotprojekt inför FOKUS Projektet har även tagit fram ett förslag till förvaltningsmodell som beskriver hur en framtida samverkan kan struktureras samt hur ansvarsfördelningen kan se ut 73 De övriga källorna för insamling är SCB, UKÄ och Vetenskapsrådet. Se tabell 5, s. 55-56, i rapporten Forskningskvalitetsutvärdering i Sverige - FOKUS. Redovisning av ett regeringsuppdrag rörande modell för resursfördelning till universitet och högskolor innefattande sakkunniggranskning av forskningens kvalitet och relevans, Vetenskapsrådet, Stockholm, 2014 https://publikationer.vr.se/wp-content/uploads/2014/12/VR1419_new.pdf 74 SwePub Analys och underlag till bibliometriska analyser - två exempel http://bit.ly/1HccHPZ 22 (34) mellan aktörerna. Syftet med förslaget är att säkerställa och bibehålla datakvaliteten genom samverkan kring utvecklingen av NR, SwePub MODS, datakvaliteten, förvaltning och utveckling av SwePub-systemet. Aktörerna i förvaltningsmodellen är: ● KB - ansvarar för samordning av NR och SwePub MODS, systemförvaltning, utveckling av teknisk infrastruktur och kvalitetssäkringsprocesser. ● Lärosätena genom SUHF - ansvarar för att publikationsdatabaserna innehåller lärosätets egen forskningspublicering med god täckning samt tillgängliggör data till SwePub enligt nationella riktlinjer och krav. ● VR - ansvarar och förvaltar systemen inom forskningsinformationens infrastruktur samt rekommendationer och standarder kring nationell utvärdering och resurstilldelning. 7. Sammanfattning SwePub som nationell nod och aggregator möjliggör att dagens decentraliserade system med lokala publikationsdatabaser kan fortlöpa. Deltagande i SwePub bygger dock på frivilliga överenskommelser mellan involverade aktörer vilket påverkar möjligheterna att kvalitetssäkra innehållet och därmed möjligheterna att använda SwePub för bibliometri och analys på nationell nivå. Kvalitetssäkring är en långsiktig process som innebär att lärosätena kontinuerligt behöver bearbeta och förbättra metadata. Ett incitament att komma igång med datakvalitetshöjande åtgärder lokalt kan vara att den kvalitetssäkring som utförs också kan återanvändas i forskningsinformationens infrastruktur (i system som Prisma m.fl.) och i förlängningen stödja forskarnas och lärosätenas processer. Starka incitament skulle vara att KB får ett tydligt uppdrag samt resurser att förvalta SwePub efter projektperioden och att regeringen ställer krav på lärosätena att tillgängliggöra metadata samt efterfölja NR och SwePub MODS. Ytterligare något som ofta tas upp är fördelarna med en centraliserad modell där forskningsoutput registreras direkt i SwePub och exporteras till lokala system liknande LIBRIS-modellen, som tillämpas för registrering av bibliotekens förvärvade tidskrifter och monografier. En sådan modell innebär att dubbletthanteringen minskar, kvaliteten höjs och att det framför allt produceras enhetligt data. 7.1. Datakvalitet, täckningsgrad & auktoritetsregister över publiceringskanaler Förutsättningen för en fullständig täckning av svenska lärosätens forskningsoutput i SwePub är god då nästan samtliga lärosäten är anslutna till SwePub. I dagsläget saknas endast två lärosäten samt universitetssjukhusens publikationer. Tidpunkten för bästa täckningsgrad varierar dock för de olika publikationsdatabaserna beroende på när man infört en publiceringspolicy och om underlag från 23 (34) databaserna används för årsredovisning, forskningsutvärdering och medelsfördelning. Innehållet i SwePub täcker 85 % av innehållet i VR:s databas. En del av de saknade publikationerna kommer från svenska organisationer som publicerar vetenskapliga artiklar men där organisationen inte deltar i SwePub. När det gäller det omvända, så täcker innehållet i VR:s databas 59 % av publikationerna i SwePub. Hur stor andel data som är kvalitetssäkrade i SwePub beror på vilken typ av analys som ska utföras eftersom olika analyser ställer olika krav på data. Hälften av databasen uppfyller lägre kvalitetskrav och saknar t.ex. ämnesklassificering. Andelen som uppfyller de strängaste kraven och därmed stödjer flertalet analyser uppgår till ca en fjärdedel. Detta beskriver ett läge då lärosätena ännu inte kommit igång med integrering och tillämpning av NR fullt ut. De har därmed inte heller börjat tillgängliggöra data enligt det uppdaterade nationella överföringsformatet SwePub MODS. Ett införande av ett auktoritetsregister över publiceringskanaler skulle påskynda möjligheterna att börja använda underlag från SwePub till bibliometri. Vidare skulle direktiv angående tillämpning av NR och krav på användning av identifikatorer som t.ex. ORCID och DOI påskynda en kvalitetshöjning. Med dessa åtgärder skulle en publiceringsindikator kunna etableras som mäter publiceringsmönster där den vetenskapliga bedömningen sker av tidskriften eller förlaget. Återrapportering av open access skulle också underlättas. 7.2. Bibliometriska analyser Med reservation för att täckningsgraden och datakvaliteten i SwePub inte är representativ i nuläget finns det förutsättningar för följande analyser: ● Forskningsaktivitet: möjlig att mäta enligt ‘whole count-metoden’. 70 % av posterna är möjliga att få ut som fraktionerat underlag. Det går därmed att analysera produktionsvolym per lärosäte med reservation för att det kan finnas lokala dubbletter som ännu ej är åtgärdade av lärosätet men identifierade i kvalitetssäkringsprocessen i SwePub. ● Samarbetsanalyser: möjliga att utföra per lärosäte, dvs. beräkna hur stor andel av ett lärosätes produktion som utgörs av sampubliceringar. 50 % av posterna går att använda som underlag för beräkning av andelar på nationell nivå, då det även går att specificera vilka organisationer som ingår och deras andelar. ● publiceringsmönster: 57 % av posterna 2012-2014 har ämnesklassning enligt nivå 2 i “Standard för svensk indelning av forskningsämnen”. 24 (34) ● open access-publicering: endast oprecisa uppskattningar möjliga p.g.a. ofullständig data. Vidareutveckling av NR och SwePub MODS är nödvändig. ● citeringsanalyser: 37 % av posterna i SwePub som ingår i värdpublikationer som återfinns i WoS är märkta med den identifikator som behövs 7.3. Möjligheter med SwePub för analys och bibliometri SwePub har stora möjligheter att vara: ● en nationell nod som samlar och synliggör alla forskningsområden ● en nationell och fristående källa för bibliometri baserat på ett auktoritetsregister för publiceringskanaler som indikator ● ett stöd och verktyg för kvalitetssäkring för lärosätena ● ett stöd för effektivisering av arbets- och dataflöden, integration och återanvändning av forskningsinformation. 7.4 Utmaningar för berörda aktörer Lärosätena behöver: ● efterfölja och tillämpa KB:s NR och SwePub MODS ● uppfylla SUHF:s rekommendationer och krav på publikationsdatabaser, särskilt med avseende på täckningsgrad ● höja datakvaliteten genom en kontinuerlig databearbetning med stöd av underlag från och kvalitetskontroller i SwePub ● ansvara för kvalitetssäkring och validering av sina forskningspublikationer ● uppfylla VR:s kvalitetskrav på data som ska samlas in till nationell utvärdering och uppföljning av open access 25 (34) Kungl. biblioteket behöver: ● bygga upp en förvaltning för samordning och vidareutveckling av SwePub-systemet ● vidareutveckla processer och stöd för kvalitetssäkring och validering av data ● vidareutveckla NR och SwePub MODS och anpassa dem efter framtida behov för att säkerställa datakvaliteten över tid. Kungl. biblioteket och Vetenskapsrådet behöver: ● samverka med SUHF kring lärosätenas åtagande att tillgängliggöra och kvalitetssäkra metadata om forskningspublikationer enligt NR och SwePub MODS ● verka för en fortsatt vidareutveckling för att möjliggöra återanvändning av data i forskningsinformationens infrastruktur ● upprätta och vidareutveckla ett auktoritetsregister över publiceringskanaler ● arbeta för att nya krav på open access kan följas upp ● förbereda datainsamling inför nationell utvärdering 26 (34) 8. Appendix 8.1. Vidareutveckling av formatspecifikationen SwePub MODS Förslag från SUHF:s arbetsgrupp för vidareutveckling av formatspecifikationen för SwePub MODS Gjorda förändringar och hänvisningar till SwePub MODS formatspecifikation/Nationella riktlinjer (NR) Alla poster i SwePub ska kunna kopplas till minst ett svenskt lärosäte på ett kontrollerat sätt via auktoriserade organisationsidentifierare. Se formatspecifikation avsnitt 3. I betaversionen av SwePub för analys och bibliometri finns en koppling till en prototyp för ett auktoritetsregister över organisationer. Alla poster ska kopplas till minst den högsta nivån i ämnesområde enligt Standard för svensk indelning av forskningsämnen 2011. Se formatspecifikation avsnitt 8. Se NR avsnitt ”Ämne”. Ämne anges på minst nivå 2 i minst en och högst 3 olika ämneskategorier enligt Standard för svensk indelning av forskningsämnen 2011. Författare som tillhör det lärosäte som lagt in posten ska kunna identifieras med organisationstillhörighet via auktoriserade organisationsidentifierare. Se formatspecifikation avsnitt 13. I betaversionen av SwePub för analys och bibliometri finns en koppling till prototyp för organisationsregister Uppgift om det totala antalet författare till en publikation ska finnas i samtliga poster. Se formatspecifikation avsnitt 14. Se NR avsnitt ”Antal upphovspersoner.” Posterna ska innehålla ett fält som anger om lärosätet godkänt att posten används för analys. Fältet är tänkt att kunna användas när/om SwePubdata börjar användas för bibliometriska analyser och eventuell medelsfördelning. Frivillig flaggning av ogranskade poster i SwePub införs i nya planerade SwePub MODS formatspecifikation v. 2.6, avsnitt 3. Införs i praxisbeskrivningar i NR v. 1.2. Möjlighet att märka fler publikationstyper med innehållstypen “refereegranskat” för att öka möjligheterna till förfinade analyser. Se NR, avsnitten ”Innehållsmärkning”, ”Outputs” och ”Värdpublikationens titel.” Inga begränsningar kring publikationstyper/output som kan anges som sakkunniggranskade. Nya och omarbetade outputs framtagna. Koppling till auktoritetsregister över publiceringskanaler förberett. 27 (34) 8.2. Andelen open access i SwePub Samtliga forskningspublikationer Grön open access: 16,4 % av totalt ca 330 000 publikationer Gyllene open access: 6,4 % Ej open access: 77,2 % Tidskriftsartiklar Grön open access: 11,8 % av totalt 183 000 tidskriftsartiklar Gyllene open access: 10,6 % Ej open access: 77,6 % 28 (34) Utvecklingen av open access 2010-2014 i SwePub I tabellerna för utvecklingen av open access-publicering över tid 2010-2014 kan vi se grön och gyllene open access i jämförelse med traditionell publicering. Utvecklingen av open access-publicering har ökat långsamt men stadigt under de senaste fem åren. En viktig förklaring till denna utveckling är de krav på öppen tillgång som ställs av forskningsfinansiärer och ledningarna vid de olika lärosätena. Det senaste året har trenden avvikit vilket troligen beror på att alla publikationer från 2014 ännu inte har registrerats. Samtliga forskningspublikationer 29 (34) Tidskriftsartiklar Utvecklingen av open acess 2010-2014 per ämne i SwePub De ämnen som publicerar mest open access återfinns inom medicin och naturvetenskap. Där finns en stark tradition att publicera sina forskningsresultat i form av tidskriftsartiklar och konferensbidrag i fritt tillgängliga publiceringskanaler i motsats till statsvetenskap och humaniora som fortfarande har en stark tradition av publicering i monografier och därför inte återfinns i OAtoppen. Andelen gyllene open access är mindre i OA-toppen över samtliga publikationstyper eftersom doktorsavhandlingar räknas med. Doktorsavhandlingar är ofta fritt tillgängliga via lärosätesarkiv. 30 (34) Samtliga forskningspublikationer per ämne Tidskriftsartiklar per ämne 31 (34) 8.3. KB:s roll och ansvarsområden inom FOKUS-modellen75 BEHOV: FOKUS/VR KB:S ROLL KB:S ANSVAR “Vetenskapsrådet bör ansvara för att ta fram de bibliometriska analyser som ligger till grund för delar av bedömningsunderlaget och att leverera dessa till den utförande organisationen. Dessa analyser föreslås bygga på innehållet i SwePub och den befintliga citeringsdatabasen på Vetenskapsrådet” (s. 60). “KB bör fortsatt förvalta SwePub-databasen och tillgängliggöra dess innehåll för Vetenskapsrådet och den utförande myndigheten. Specifikationerna om metadataformatet bör kontinuerligt ses över i samråd med Vetenskapsrådet och den utförande organisationen för FOKUS” (s. 60). Samordning av datarapportering in till SwePub och ut från SwePub till Vetenskapsrådet. Förvaltning och vidareutveckling av Nationella riktlinjer för dataleverans till SwePub. Förvaltning och vidareutveckling av formatspecifikation SwePub MODS. Drift och utveckling av SwePubsystemet. “Samtliga lärosäten bör ansluta sig till SwePub och till den leverera data om sina forskningsverk. Datarapporteringen ska avse forskningsverk från 2012 och framåt” (s. 60). Administrera anslutning till SwePub. “Vetenskapsrådet bör i samråd med KB ansvara för att ta fram och upprätthålla en lista över s.k. auktoriserade publikationskanaler, dvs. kanaler som anses vara sakkunniggranskade och forskningsmässiga för att kunna inkluderas i FOKUS – det arbetet kan med fördel samordnas med liknande arbete i de övriga nordiska länderna” (s. 60). Ta fram och upprätthålla auktoriserat register över publiceringskanaler. Ansvara för utveckling, drift och underhåll samt vidareutveckling av kanalregister. Samverka med Vetenskapsrådet och övriga nordiska länder kring register för publiceringskanaler. Här ingår även administration som registrering, verifiering och uppdatering av bibliografisk metadata. “Vidare anser Vetenskapsrådet att uppgifter som samlas in om forskare och forskningsproduktion inte enbart ska vara anpassade för FOKUS, utan bör vara av bredare relevans. Arbetet med rapportering av statistik och data ska alltså även komma andra Samordna effektivisering av arbetsflöden, automatiserade dataflöden, integration och återanvändning. Stödja och medverka i integrationsarbeten som t.ex. Prisma. “KB kan initialt behöva extra resurser för att bistå lärosätena i detta arbete” (s. 60). Samordning av datarapportering. Säkerställa att rapporteringen till SwePub blir enhetlig och av hög kvalitet. Tillgängliggöra öppen länkad data som möjliggör sammankoppling av system. 75 Sidhänvisningarna i tabellen går till rapporten: Forskningskvalitetsutvärdering i Sverige FOKUS. Redovisning av ett regeringsuppdrag rörande modell för resursfördelning till universitet och högskolor innefattande sakkunniggranskning av forskningens kvalitet och relevans, Vetenskapsrådet, Stockholm, 2014 http://bit.ly/1EvJNmQ 32 (34) aktörer, forskningsfinansiärer, beslutsfattare och inte minst lärosätena själva till del” (s. 54). “Vetenskapsrådet föreslår därför en mer indirekt datainsamlingsmetod där data hämtas nästan uteslutande från befintliga källor. Det bedöms som ett viktigt steg för att minimera både arbetsbördan och de kostnader som faller på lärosätena för att delta i utvärderingen” (s. 54). Möjliggöra att dagens decentraliserade system med lokala publikationsdatabaser kan fortlöpa men ändå utvecklas så att de möter krav på standardisering, harmonisering och kvalitetssäkring. Förvalta och vidareutveckla SwePub för analys och bibliometri. “Lärosätena ska genom sina lokala publikationsdatabaser också löpande rapportera sina publikationer till SwePub. Lärosätena är ansvariga för att korrekta data inrapporteras till de ansvariga myndigheterna. [...] Lärosätena har möjlighet att kontinuerligt kontrollera uppgifterna hos respektive myndighet. Det ligger även på respektive myndighet att uppmärksamma lärosätena på eventuella oklarheter så att dessa kan korrigeras. De ansvariga myndigheterna levererar sedan data till den ansvariga organisationen för FOKUS. KB ska också leverera SwePub-data till Vetenskapsrådet som tar fram citeringsstatistik för utvärderingen genom myndighetens befintliga databas, vilken baseras på innehållet i Web of Science (Thomson ISI)” (s. 56). Ta fram särskilda rutiner och processer för arbetet inför utvärderingscyklerna. Ansvara för att data kan levereras till Vetenskapsrådet. I samverkan med lärosäten utarbeta processer och stöd för kvalitetssäkring och validering av data. Samordning av lärosäten inför utvärderingar. “KB bör få i uppdrag att, i samråd med Vetenskapsrådet och i dialog med SUHF, utveckla en nationell standard för att kategorisera icketextbaserade forskningsverk i SwePub. Vidare bör KB i samråd med SUHF få i uppdrag att ta fram en nationell standard för hur konstnärliga forskningsverk ska dokumenteras digitalt och arkiveras vid lärosätena” (s. 24). Ta fram en standard för att kategorisera icke-textbaserade forskningsverk i SwePub. Förvalta och utveckla en standard över publikationstyper och output. Se Outputs i enlighet med Nationella riktlinjer för dataleverans till SwePub.76 Ta fram en nationell standard för hur konstnärliga forskningsverk ska dokumenteras digitalt och arkiveras vid lärosätena. Samordning av lärosäten kring forskningsinformationsfrågor. Förvalta och vidareutveckla riktlinjer och standarder. “All data ska rapporteras enligt Standard för svensk indelning av forskningsämnen på 3- eller 5- Ta fram, definiera och tydliggöra nya outputtyper som omfattar alla 76 Se: http://info.swepub.kb.se/leverans-av-data/format-och-praxis/ Ibid. 78 Ibid. 77 33 (34) Nationella riktlinjer för dataleverans till SwePub77 SwePub formatspecifikation78 Förvalta och utveckla en standard över publikationstyper och output. Se Outputs i enlighet siffernivå. [...] Lärosätena kan dock behöva stöd i det arbetet i form av nationella riktlinjer och standarder. I dag klassificeras en del forskning som ”övrigt”, vilket gör det svårt att räkna denna forskning till ett specifikt forskningsområde. Knappt fyra procent av forskarna har till exempel rapporterats som tillhörande ”övriga” forskningsämnen. Vetenskapsrådet anser att användningen av klassificeringen ”övrigt” bör vara mer sparsam än i dag och ses över” (s. 56). forskningsområden. “Förberedelser för pilotstudier med berörda myndigheter start hösten 2015” (s. 78). Medverka i Vetenskapsrådets förberedelser inför kommande pilotstudier hösten 2015. Samverka med lärosätena. “Pilotstudier 2016. Test av datakvalitet i SwePub” (s. 78). Medverka i Vetenskapsrådets pilotstudier och test av datakvalitet under 2016. Samverka med lärosätena. “Vetenskapsrådet har ett uppdrag att ta fram nationella riktlinjer för open access-publicering” (s. 19). Samverka med Vetenskapsrådet kring open access-frågor. Implementera de riktlinjer som är applicerbara i SwePub. I samverkan med lärosäten och Vetenskapsrådet utveckla och ta fram standarder och riktlinjer. med Nationella riktlinjer för dataleverans till SwePub Förvalta och vidareutveckla riktlinjer och standarder. ● Nationella riktlinjer för dataleverans till SwePub ● SwePub formatspecifikation 34 (34)
© Copyright 2024