Diplomatarium Fennicum

Ohjeita


Hakutoiminnot

Tekstihakuja voi ohjata käyttämällä niin sanottuja hakuoperaattoreita. Hakuja voi kohdistaa valinnan mukaan joko regestoihin tai tekstieditioihin.

Diplomatarium Fennicum käyttää hakumoottorinaan kehittynyttä Apache SOLRia, ja yksityiskohtaista tietoa hauista saa SOLRin sivuilta (englanniksi). Seuraavassa tiivistettynä Diplomatarium Fennicumin kannalta olennaisimmat toiminnallisuudet.


Loogiset hakuoperaattorit


Pelkät hakusanat ilman operaattoreita tarkoittavat, että ainakin jonkin syötetyistä sanoista pitää olla tekstissä.

esimerkki: saltviks kyrka. Sellaiset tekstit löytyvät, joissa on sana saltviks TAI kyrka TAI molemmat.


Plus-merkki ennen sanaa tarkoittaa, että tämä sana on pakollinen. Jos tekstissä ei ole tätä sanaa, tietueita ei löydy.

esimerkki: +Saltviks +kyrka. Sellaiset tekstit löytyvät, joissa on molemmat sanat.


Miinus-merkki ennen sanaa tarkoittaa, että vain ne tekstit löytyvät, joissa tätä sanaa ei ole.

esimerkki: Saltviks -kyrka. Sellaiset asiakirjat löytyvät, joissa on sana Saltviks, mutta EI OLE sanaa kyrka.


Lainausmerkit tarkoittavat, että haettavien sanojen täytyy olla merkityssä järjestyksessä.

esimerkki 1: ”Saltviks kyrka”. Sellaiset tekstit löytyvät, joissa on nämä sanat tässä järjestyksessä.

esimerkki 2: ”kyrka saltviks”. Tekstejä ei löydy.


Tähti-merkillä voi korvata merkin tai merkkijonon sanan alusta, lopusta tai keskeltä.

esimerkki: ”t*la” löytää sekä ”tenala” että ”töfsala”.


Sulkujen avulla ryhmitetään sanoja.

esimerkki 1: saltviks -(kyrka kung) = saltviks -kyrka -kung

esimerkki 2: +(saltviks kyrka) +(sverige kung) tarkoittaa, että asiakirjassa pitää olla joko saltviks TAI kyrka, JA lisäksi joko sverige TAI kung.

Sumea haku


Sumea haku löytää myös haettavan sanan kaltaisia sanoja.

esimerkki: ”mangus~” löytää myös ”magnus”

Sumeaa hakua voi tarkentaa yhtä pienemmällä numeroarvolla. Mitä pienempi arvo, sen suurempi varianssi sallitaan. Esimerkki ulvsby~0.9 löytää ”ulvsby”, kun taas ulvsby~0.7 löytää myös ”ulfsby”

Etäisyyshaku


Etäisyyshaussa asetetaan kaksi sanaa lainausmerkkeihin ja määritetään numerolla, montako sanaa niiden välillä voi olla.

Esimerkiksi "Ärkebiskop Uppsala"~2 tarkoittaa, että sanojen ”Ärkebiskop” ja ”Uppsala” välillä voi olla enintään kaksi sanaa (esim. ”Ärkebiskop Johannes av Uppsala”).

Hakutulosten relevanssi


Hakutulokset järjestetään niiden relevanssin mukaan. Yksittäisen sanan tärkeyttä voi korostaa numerolla.

Esimerkiksi ”kung birger^3” tarkoittaa, että hakusana “birger” on kolme kertaa tärkeämpi kuin ”kung”.

Muut hakutoiminnot


Tekstihaun lisäksi haun voi kohdistaa asiakirjan kieleen tai päiväys-, antaja- ja antopaikkatietoihin. Materiaalia voi hakea myös lähdejulkaisun tai arkistoaineistoa säilyttävän instituution perusteella. Hakuoperaattorit kuitenkin toimivat vain regestoihin ja tekstieditioihin kohdistuvissa tekstihauissa.

Ajanjaksohaussa ajanjakson alku- ja loppumääreet voi syöttää päivän, kuukauden tai vuoden tarkkuudella, esimerkiksi hakien aikavälit ”5.6.1415–3.2.1416” tai ”6.1400–8.1400”. Vuosivälin voi syöttää myös ilman päivämääriä, esim. ”1400–1415”. Toisen ehdon voi lisäksi jättää kokonaan tyhjäksi: esimerkiksi haettaessa ”1400–” sisältää hakutulos kaikki asiakirjat alkaen vuodesta 1400, mukaan lukien kyseisen vuoden. Haluttaessa rajoittaa haku vain tiettyihin kuukausiin tai päiviin (esim. kaikki 15.6. päivätyt tai kaikki toukokuussa päivätyt asiakirjat) tulee tämä tehdä rajaamalla hakutulosta ”Haun rajaaminen” -työkalun asianomaisilla kentillä (hakutulosten vasemmalta puolen).

Kaikki tietokannan asiakirjat saa haettua tyhjällä haulla, ts. painamalla ”Haku”-painiketta kaikkien hakukenttien ollessa tyhjiä.


Hakutulokset

Hakutulokset esitetään taulukossa oletusarvoisesti DF-numeron mukaisessa järjestyksessä. Hakua voi muokata vasemman reunan työkaluilla: tarkentavalla sanahaulla (Huom! Päähakukenttien hakuoperaattorit eivät toimi tässä kentässä, ja kenttä hakee toistaiseksi vain regestoista), hakutuloksen sisäisillä päivämäärä- ja kuukausirajoilla, tai valitsemalla vain digitaalisen faksimilen sisältävät tulokset. Hakutulokset ovat tarkasteltavissa neljällä eri välilehdellä: taulukkona, aikajanana, diagrammina ja kartalla.

Taulukossa näytetään oletusarvoisesti kymmenen ensimmäistä riviä hakutuloksesta. Näkyvien rivien määrää voi muuttaa vasemman reunan valikosta. Myös taulussa näkyvät sarakkeet voi valita: vaihtoehtoina ovat päiväys-, paikka-, antaja-, relevanssi- ja regestan alku -sarakkeet. Taulukon voi järjestää nousevaan tai laskevaan järjestykseen kunkin sarakkeen sisällön mukaan. Vasemmanpuoleisin sarake on aina näkyvissä, ja sisältää DF-numeron. Rivin voi avata klikkaamalla plus-merkkiä, jolloin näkyviin tulee asiakirjan regesta sekä kuva asiakirjan digitaalisesta jäljenteestä mikäli sellainen on tietokannassa. Muuten riviä klikkaamalla avautuu tietueen asiakirjanäkymä.

Aikajananäkymässä asiakirjoista näytetään aikajärjestyksessä DF-numero, ajoitus, regestan alku sekä kuva asiakirjan digitaalisesta jäljenteestä mikäli sellainen on tarjolla. Diagramminäkymässä esitetään asiakirjojen ajallinen jakauma. Karttavälilehdellä hakutulosta voi tarkastella kartalla asiakirjojen antopaikan mukaan.


Konkordanssihaku

Asiakirjahaun ohella on mahdollista käyttää sanoihin kohdistuvaa konkordanssihakua. Konkordanssihaussa etsitään tekstihaku-kenttään syötettyjen sanojen esiintymiä, jotka näytetään tuloksissa esiintymiskontekstissaan (haettu sana sekä kymmenen sanaa sitä ennen ja sen jälkeen). Haussa ovat käytössä samat valinnat aineiston rajaamiseen kuin asiakirjoja haettaessa. Konkordanssihakuun pääsee hakusivun oikean yläkulman linkistä.


Entiteettihaku

Entiteettien poiminta

Diplomatarium Fennicum -tietokannassa on tehty editioteksteihin tietokoneavusteista entiteetintunnistusta. Tunnistetut entiteetit jakautuvat henkilönnimiin ja henkilöihin liittyviin määreisiin, sekä paikannimiin ja paikkoihin liittyviin määreisiin.

Entiteettejä on poimittu editioteksteistä sekä koneellisesti että käsin. Tekstistä on poimittu entiteetin kirjoitusmuoto sellaisena kuin se tekstissä on, esim. ”Abow” ja ”Aabo” tarkoittaen sanaa Åbo tai ”gardh” ja ”gaardz” tarkoittaen sanaa gård. Yhteensä näitä eri entiteettien varianttimuotoja on tunnistettu yli 23 000, ja ne esiintyvät tietokannan teksteissä yli 200 000 kertaa.

Poimittuja entiteettien varianttimuotoja on käyty läpi sekä erilaisin algoritmein että manuaalisesti. Varianttimuodot on pyritty yhdistämään standardimuotoon, jolla kaikki varianttimuodot ovat entiteettihaussa haettavissa kerralla. Keskiaikaisten tekstien vaihtelevan ortografian ja tietokannan kielijakauman takia erilaisia varianttimuotoja on paljon; yksittäisellä nimellä voi olla tietokannassa lähes 100 eri kirjoitusasua. Standardisointi on pyritty viemään mahdollisimman pitkälle yleisimmin esiintyvien nimien ja termien kohdalla. Paikannimet on standardisoitu pääosin nykyiseen nimimuotoonsa, milloin paikka on voitu tunnistaa. Erityisesti luonnonpaikkojen kohdalla tämä työ on kuitenkin jäänyt kesken. Samoin yksittäisiä kertoja esiintyvät sanat on usein jätetty standardisoimatta. Tällöin entiteetti esiintyy haussa asiakirjan kirjoitusasussaan.

Entiteettien poiminta on painottunut useimmin esiintyviin entiteetteihin, jotka on helpoin tunnistaa. Tämän takia poiminta ei ole missään nimessä täydellinen: erityisesti harvinaisemmat henkilön- ja paikannimet ovat usein jääneet tunnistamatta ja poimimatta entiteetiksi. Suurin osa poimimatta jääneistä sanoista esiintyy korpuksessa vain kerran tai kaksi, vaikka tällaisia yksittäisiä sanoja on paljon.

DF-tietokannan 1,45 miljoona sanaa koostuvat noin 165 000 uniikista sanasta; näistä vain kerran esiintyviä on 98 000, eli lähes 60%. Kaksi kertaa esiintyviä sanoja on niitäkin yli 23 000, eli 14%. 1 tai 2 kertaa esiintyvät sanat kattavat siis lähes 74% kaikista uniikeista sanoista, mutta toisaalta vain noin kymmenen prosenttia tietokannan kaikista sanoista noin 145 000 esiintymällään. Kaikki vain kerran tai kaksi esiintyvät sanat eivät tietenkään kuulu tunnistettavien entiteettien joukkoon. Siltikin, kerran tai kaksi esiintyvät sanat ovat huomattavan yliedustettuina varsinkin paikannimistössä. Entiteettihaun painottuminen yleisimmin esiintyviin sanoihin tarkoittaa siis sitä, että poimitut sanat auttavat löytämään yleisimmät paikat, mutta harvoin esiintyvien paikkojen lista ei ole täydellinen. Ratkaisu on tehty tietokannan käytettävyyttä ajatellen. Yksittäiset sanat ovat löydettävissä sekä normaaleilla konkordanssi- että sanahauilla, eikä niiden standardisointi tai modernisointi olisi usein kovinkaan suoraviivaista. Yksittäisten sanojen lisäksi tekstistä on tunnistettu myös useampaan erilliseen sanaan jakautuvia entiteettejä.

Tietokannan teksteihin sovellettu koneellinen entiteetintunnistus tunnistaa entiteetit tiettyjen koottujen sanalistojen sekä yksinkertaisten sääntöjen perusteella. Useassa tapauksessa entiteetin määritys on ongelmallista: sama sana voi esiintyä monessa eri yhteydessä eri merkityksisenä. Esimerkiksi tilan nimeä voidaan käyttää sekä sukunimenomaisesti että paikannimenä. Samoin eri kielissä sama sana voi tarkoittaa eri asioita, ja olla tulkittavissa entiteetiksi tai tarkenteeksi vain tietyn kielisissä teksteissä (vrt. latinan ”per” ja ruotsalainen nimi Per). Sekakielisyydestä ja kielitietojen puutteellisuudesta johtuen aineistoa ei kuitenkaan voitu käsitellä kielikohtaisesti eri kriteerein. Tämä tarkoittaa sitä, että osa entiteeteistä on tunnistettu virheellisesti. Virhetunnistusten laskennallinen osuus on kuitenkin varsin pieni. Aineisto haluttiin julkaista keskeneräisessä ja epätäydellisessä muodossaankin hakujen tueksi. Standardisoituina metatietoina asiakirjoista annetaan muutoin vain antopaikka ja antaja, kun taas entiteetintunnistuksella voidaan parhaimmillaan tunnistaa kaikki asiakirjassa mainitut henkilöt ja paikat. Aikaa myöten aineistoa ja entiteetintunnistusta voidaan parantaa ja saada kaikista teksteistä poimittua kaikki merkittävät tunnisteet. Poimitut sanat voitaneen jatkossa myös jalostaa kattavaksi paikka- ja henkilörekisteriksi; tällaisenaan ne toimivat lähinnä asiakirjojen löytämisen apuna.


Entiteettihaku

Entiteettihaku toimii varianttimuotoihin yhdistettyjä standardimuotoja käyttäen. Käyttäjä valitsee haluamansa entiteettityypin (henkilö, henkilön tarkenne, paikka, paikan tarkenne) painamalla asiaankuuluvaa nappia. Tämän jälkeen käyttäjä voi syöttää combobox-tekstikenttään haluamansa entiteetin nimen joko kokonaan itse tai valitsemalla nimen listasta, joka tarkentuu kenttään syötetyn tekstin mukaisesti.

Esimerkiksi valitsemalla haettavaksi henkilöentiteetin ja syöttämällä ”Er”, tarjoaa kenttä vaihtoehtoja Erasmus, Erengisle, Erengislesson, Erik, Eriksdotter jne. Vaihtoehdoista tulee valita joku, tai hakutermin tulee olla kirjoitettu tarkalleen kuten jokin tietokannassa oleva kyseisen tyypin standardimuoto. Hakemalla ”Er” ei siis saa tuloksia, koska ”Er” ei ole tunnistettu entiteetti.

Valitun entiteettihakutermin voi poistaa kentän oikealla puolella sijaitsevalla miinus-näppäimellä (-).

Valittuun entiteettihakutermiin yhdistetyt varianttimuodot saa näkyviin erilliseen pop-up -ikkunaan oikean reunan ”katso varianttimuodot” –-tekstiä painamalla.

Eri entiteettitermejä voi lisätä hakuun rajattomasti. Uusi hakutermi lisätään painamalla halutun entiteetin nappia ruudun yläreunassa.

Haku hakee kaikki asiakirjat, joissa on tunnistettu kaikki haettavat entiteetit.

Hakua ei voi kohdistaa esim. peräkkäisiin sanoihin. Hakemalla ”Erik” ja ”Eriksson”, saa kaikki asiakirjat joissa esiintyvät molemmat nimet, vaikka ne sijaitsisivat erillään toisistaan, esim. osana nimiä ”Erik Magnusson” ja ”Magnus Eriksson”.

Hakukentässä ei voi käyttää tekstihakuoperaattoreita (kuten * tai ~).


Entiteetit asiakirjassa

Entiteetit saa näkymään asiakirjassa värikorostettuina painamalla editiotekstin sisältävän tekstilaatikon sisällä oikeassa alakulmassa näkyviä valintaruutuja ”Korosta Henkilöt / Paikat”. Henkilöt ja henkilötarkenteet korostetaan oranssilla, paikat ja paikan tarkenteet taas vihreällä värillä.

Viemällä kursorin tunnistetun entiteetin ylle avautuu tietolaatikko, jossa näkyy mihin standardimuotoon ko. entiteetti on yhdistetty.


Asiakirjanäkymä

Asiakirjanäkymä koostaa yhteen tiedot kustakin DF-numeroidusta asiakirjasta. DF-numero ei kohdistu yksittäiseen editioon, vaan kokoaa yhteen yhdestä itsenäisestä tiedollisesta entiteetistä – asiakirjasta tai tekstikatkelmasta – saatavilla olevia editioita, lähteitä ja muuta tietoa. Asiakirjasivu yläosassa kuvataan tärkeimmät tiedot tekstistä, ja näiden alta löytyvät tarkat kuvaukset tekstiä koskevista editioista, lähteistä, muista tietokannoista ja tietokantaan sisältyvästä kirjallisuudesta. Tiedot on eroteltu värikoodein omiin ikkunoihinsa, jotka aukeavat klikkaamalla.


Kuvankatselutyökalu

Kuvankatselutyökalu avautuu klikkaamalla asiakirjanäkymässä asiakirjaan liitettyä kuvaa. Kuvankatselutyökalu avaa näkyviin kyseisen kuvan, ja samalla myös kaikki muut asiakirjaan liittyvät kuvat. Kuvat on jaoteltu siten, että arkistolähteiden digitaaliset faksimilet näkyvät kuvankatselutyökalun vasemmassa reunassa, ja skannatut editiot ja muu kirjallisuus oikeassa reunassa. Kuvia voi tarkastella joko yksittäin, tai avata kaksi kuvaa rinnakkain.

Rinnakkain kuvat avautuvat valitsemalla kuvankatselutyökalun oikeasta alakulmasta kohdan ”Vertaa kuvia”. Työkalu kehottaa tällöin valitsemaan toisen avattavan kuvan, ja valinnan jälkeen molemmat kuvat avautuvat. Kuvat voi vaihtaa näkymään rinnakkain tai päällekkäin vasemmasta yläkulmasta kohdasta ”Rinnakkain/Päällekkäin”.

Kuvankatselutyökalu sisältää muutaman yksinkertaisen toiminnon kuvien käsittelyyn. Kuvia voi kiertää, suurentaa ja pienentää (toimii myös hiiren rullalla) tai palauttaa kuvan koon selaimeen sopivaksi. Kuvaa voi siirrellä tarttumalla siihen hiiren kursorilla.

Kuvankatselutyökalu sulkeutuu joko oikean yläkulman valkoisesta ruksista tai klikkaamalla hiirellä kuvankatselutyökalun ulkopuolelle selaimessa.


Viittaaminen Diplomatarium Fennicumiin

Diplomatarium Fennicumiin voi viitata seuraavin tavoin: Yksittäisen asiakirjan asiasisältöön riippumatta sen muodosta voi viitata pelkällä DF-numerolla, esim. ”DF 3526”, Hausenin editioon tästä voi viitata joko viittaamalla suoraan FMU:hun, esim. ”FMU 3526”, tai DF:n kautta ”DF 3526 (Hausen 1924)”. Vastaavasti voi viitata toiseen tulkintaan tekstistä ”DF 3526 (Arwidsson 1852)” tai ”DF 3526 (Rabb 2016)”.

Viitattaessa on siis huomioitava, että DF-numero viittaa vain tietosisältöön – itsenäiseen tiedolliseen kokonaisuuteen – ei yksittäiseen editioon tai lähteeseen.


Kansallisarkisto pyrkii tiedon mahdollisimman avoimeen käytettävyyteen. DF-tietokannan sisällön tekijänoikeudet määritellään Creative Commons -lisensseillä seuraavasti:

Metatiedot:

  • Lisenssi CC 0
  • Tietokannan metatiedot ovat vapaasti käytettävissä ellei niiden yhteydessä ole toisin määritelty.

Digitaaliset kuvat:

  • Kansallisarkiston omat kuvat
    • Lisenssi CC BY 4.0
    • Kuvat Kansallisarkiston omista asiakirjoista ovat vapaasti käytettävissä, kunhan niiden lähde mainitaan.
  • Muiden instituutioiden kuvat
    • Tietokanta sisältää kuvia myös muilta instituutioilta. Näiden tekijänoikeudet ilmoitetaan kuvien yhteydessä erikseen, ja mahdollisuuksien mukaan niissäkin käytetään CC BY 4.0 -lisenssiä.

Digitoidut painetut lähteet

  • Hanke on digitoinut lähdeteoksia, joiden tekijänoikeudet ovat rauenneet, ja asettanut ne vapaasti ladattaviksi verkkosivustolta.
  • Lisenssi CC 0

Creative Commonsin periaatteiden mukaisesti moraaliset oikeudet tietoihin säilyvät tekijöillä.

Itse verkkopalvelun, sen graafisen ilmeen ja muiden ominaisuuksien tekijänoikeudet pidätetään Kansallisarkistolla.