golden-agents-notarial-coordinates

Dataset met coördinaatgegevens (op een scan) van aktes en de personen en locaties daarin uit het Amsterdamse Notariële archief.

https://github.com/knaw-huc/golden-agents-notarial-coordinates

Science Score: 49.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
    Found 5 DOI reference(s) in README
  • Academic publication links
    Links to: zenodo.org
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (4.3%) to scientific vocabulary
Last synced: 10 months ago · JSON representation

Repository

Dataset met coördinaatgegevens (op een scan) van aktes en de personen en locaties daarin uit het Amsterdamse Notariële archief.

Basic Info
  • Host: GitHub
  • Owner: knaw-huc
  • License: cc-by-4.0
  • Language: Python
  • Default Branch: main
  • Homepage:
  • Size: 534 MB
Statistics
  • Stars: 0
  • Watchers: 14
  • Forks: 1
  • Open Issues: 0
  • Releases: 1
Created almost 4 years ago · Last pushed about 3 years ago
Metadata Files
Readme License Citation

README.md

Golden Agents - Cordinaten Personen/Locaties Notarieel Archief Amsterdam

Introductie en achtergrond

Deze dataset bevat een bewerkte versie van de exports van het VeleHanden-indexeringsproject Alle Amsterdamse Akten (https://alleamsterdamseakten.nl/). De data zijn voorzien van URI's op persoonsnamen en records zoals deze in de huidige index op het notarieel archief die beheerd wordt door het Stadsarchief Amsterdam ook kunnen worden aangetroffen (https://archief.amsterdam/indexen/persons?f=%7B%22searchsregistertypetitle%22:%7B%22v%22:%22Notari%C3%ABle%20archieven%22%7D%7D).

De exports zijn voor het laatst in het najaar van 2022 geactualiseerd. Belangrijke bewerkingen die in deze dataset kunnen worden aangetroffen en die momenteel niet in de reguliere Stadsarchief-index zijn opgenomen, zijn:

  • Cordinaten (xy) op de scan van de begin- en eindmarkeringen die de documenteenheid (de akte) aanduiden zijn opgenomen;
  • Locatienamen en hun locatie op de scan (xywh) .

De huidige index levert deze gegevens (xywh kaders) wel mee voor persoonsnamen, maar voor de volledigheid zijn ook zij in deze repository opgenomen.

Door opname van scannamen en vooral cordinaten zou deze dataset het bijvoorbeeld gemakkelijker moeten maken om documentherkenning en entiteitsextractie mogelijk te maken op scans van akten waarvan ook HTR beschikbaar is (zie https://transkribus.eu/r/amsterdam-city-archives) en https://gitlab.com/readcoop/webdev/public-docs/-/blob/master/read-and-search/API-README.md).

Licentie en hergebruik

License: CC BY 4.0 DOI

Deze dataset is vrij te gebruiken en te hergebruiken onder de Creative Commons Naamsvermelding 4.0 Internationaal (CC BY 4.0) licentie. Dit betekent dat je de dataset mag gebruiken en aanpassen, zolang je de bron vermeldt.

  • van Wissen, Leon, Reinders, Jirsi, & van den Heuvel, Pauline. (2022). Golden Agents - Cordinaten Personen/Locaties Notarieel Archief Amsterdam (v1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.7387918

Data

Gebruikersinformatie is verwijderd door het <users> element uit de bestanden te halen. In dezelfde stap worden de bestanden ge-gzipt: ```bash

!/bin/bash

for f in *.xml do xmlstarlet ed -N mmm="https://maior.memorix.nl/XSI/3.0/" -d '//mmm:MMM/mmm:export/mmm:users' $f | gzip -9 > $f.gz done ```

Formaten

De data zijn beschikbaar in de volgende formaten: * text/csv (CSV) * locations.csv * persons.csv.gz * records.csv * text/turtle (RDF) * PII_20170117.xml.gz_locations.ttl * PII_20170117.xml.gz_records.ttl * PII_20170403.xml.gz_locations.ttl * PII_20170403.xml.gz_records.ttl * PII_20170724.xml.gz_locations.ttl * PII_20170724.xml.gz_records.ttl * PII_20170731.xml.gz_locations.ttl * PII_20170731.xml.gz_records.ttl * PII_20171120.xml.gz_locations.ttl * PII_20171120.xml.gz_records.ttl * PII_20180301.xml.gz_locations.ttl * PII_20180301.xml.gz_records.ttl * PII_20180921.xml.gz_locations.ttl * PII_20180921.xml.gz_records.ttl * PII_20190120.xml.gz_locations.ttl * PII_20190120.xml.gz_records.ttl * PII_20190515.xml.gz_locations.ttl * PII_20190515.xml.gz_records.ttl * PII_20191017.xml.gz_locations.ttl * PII_20191017.xml.gz_records.ttl * PII_20200403.xml.gz_locations.ttl * PII_20200403.xml.gz_records.ttl * PII_20201005.xml.gz_locations.ttl * PII_20201005.xml.gz_records.ttl * PII_20220215.xml.gz_locations.ttl * PII_20220215.xml.gz_records.ttl * PII_20220810.xml.gz_locations.ttl * PII_20220810.xml.gz_records.ttl

Methode

Personen

Voor de volledigheid is er ook een CSV gemaakt met alle persoonsnamen en hun cordinaten (xywh). Deze is te vinden in data/personen.csv.gz en is gemaakt met de volgende SPARQL-query op de Golden Agentsdata:

```SPARQL PREFIX rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema# PREFIX rpp: https://data.goldenagents.org/ontology/rpp/ PREFIX pnv: https://w3id.org/pnv# PREFIX oa: http://www.w3.org/ns/oa#

SELECT DISTINCT ?id ?label ?xywh ?scanname {

# NB: Person names occur only once in this data. 
# If two deeds are on the same scan and have the same name, the person URIs do not necesarrily correspond.
?document a rpp:IndexDocument ;
        rpp:mentionsPerson ?id ;
        rpp:onScan ?scan .

?id a rpp:Person ;
    pnv:hasName ?pn ;
    rdfs:label ?label .

# The PersonName is the body of an Annotation
?annotation a oa:Annotation ;
            oa:hasBody ?pn ;
            oa:hasTarget [ oa:hasSource ?scan ;
                           oa:hasSelector/rdf:value ?xywh ] .

BIND(STRAFTER(STR(?scan), 'scans/') AS ?scanname)

}

```

Locaties

Mappings

De mappingbestanden die gebruikt worden om de personen aan de juiste akte te koppelen n om de Golden Agents scan-URI te vinden, zijn gemaakt met de volgende query's:

Person uuid to deed uri

Zie: mapping/person_uuid2deed_uri.json.gz

```SPARQL PREFIX rpp: https://data.goldenagents.org/ontology/rpp/ SELECT ?person_uuid ?deed WHERE {

?deed a rpp:IndexDocument ;
      rpp:mentionsPerson ?person ;
      rpp:memberOf <https://data.goldenagents.org/datasets/saa/a2a/08953f2f-309c-baf9-e5b1-0cefe3891b37> . # notarile archieven a2a

?person a rpp:Person .

BIND(STRAFTER(STR(?person), '?person=') AS ?person_uuid)

} ```

Scanname to scan uri

Zie: mapping/scanname2scan_uri.json.gz

```sparql PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema# PREFIX rpp: https://data.goldenagents.org/ontology/rpp/ SELECT DISTINCT ?scanname ?scan WHERE {

?deed a rpp:IndexDocument ;
      rpp:onScan ?scan ;
      rpp:memberOf <https://data.goldenagents.org/datasets/saa/a2a/08953f2f-309c-baf9-e5b1-0cefe3891b37> . # notarile archieven a2a

?scan a rpp:Scan ;
      rdfs:label ?scanname .

} ```

Contact

l.vanwissen@uva.nl

Owner

  • Name: KNAW Humanities Cluster
  • Login: knaw-huc
  • Kind: organization
  • Location: Netherlands

Connecting people, research, data and collections. - IISG/Huygens Institute/Meertens Institute

GitHub Events

Total
Last Year