svensktext
Svenska språkresurser: kvinno- och mansnamn, orter, län, kommuner, länder, nationaliteter, yrken, sentimentlexikon, moral, stoppord, myndigheter m.m.
Science Score: 44.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (1.1%) to scientific vocabulary
Keywords
Repository
Svenska språkresurser: kvinno- och mansnamn, orter, län, kommuner, länder, nationaliteter, yrken, sentimentlexikon, moral, stoppord, myndigheter m.m.
Basic Info
- Host: GitHub
- Owner: peterdalle
- Language: Python
- Default Branch: master
- Homepage: https://snd.gu.se/sv/catalogue/study/ext0278
- Size: 48 MB
Statistics
- Stars: 77
- Watchers: 5
- Forks: 7
- Open Issues: 0
- Releases: 0
Topics
Metadata Files
README.md
Svensk text
Svensk text är en samling med data för språkresurser på svenska speciellt anpassat för att snabbt kunna läsas in av vanliga programspråk.
Syftet är att samla svenska resurser som:
- är fria att använda
- finns i flera öppna standardiserade format som CSV och JSON
- har en enkel datastruktur
- kan enkelt maskinläsas
- består av små filer utan onödigt krimskrams
- kan läsas in i bibliotek för R, Python och C#
Alla resurser
Kategori | Resurs | Antal | Beskrivning :--------------- | :------------------------------------ | ------: | :-------------------------------------------- Namn | Tilltalsnamn | 103584 | Tilltalsnamn på män och kvinnor i Sverige Namn | Förnamn | 163213 | Förnamn på män och kvinnor i Sverige Namn | Efternamn | 382492 | Efternamn i Sverige Nationaliteter | Nationaliteter | 197 | Nationaliteter med namn på invånarna i landet, både singular och plural Platser | Svenska orter | 2007 | Namn på svenska orter Platser | Sveriges län | 21 | Sveriges län Platser | Sveriges kommuner | 290 | Sveriges kommuner Platser | Länder och huvudstäder | 202 | Världens länder samt deras huvudstäder Platser | Landskoder | 245 | Landskoder (ISO 3166-1) Platser | Valutor | 245 | Länder och deras valutor och valutakoder (ISO 4217) Platser | Vägar | 278 | Svenska Europavägar, riksvägar och landsvägar Tider | Helgdagar | 23 | Svenska helgdagar Tider | Tidsperioder | 27 | Tidsenheter och tidsintervall Tider | Månader | 12 | Månader januari till december Tider | Veckodagar | 7 | Veckodagar måndag till söndag Ord | Lemma | 675137 | Grundformen av ord (t ex "springa" är grundform av "sprungit" och "sprang") Ord | Stoppord | 438 | Svenska stoppord Ord | Politiska stoppord | 285 | Svenska politiska stoppord Ord | Sentimentlexikon | 2067 | Positiva och negativa svenska ord Ord | Emotioner | 8519 | Känsloladdade ord och deras intensitet, uppdelade på 8 känslor Ord | Moral | 2104 | Moraliska ord enligt Moral Foundations Theory, uppdelade på 5 fundament Ord | Corona/smitta | 594 | Lexikon för ord relaterade till corona/smitta i nyhetsmedier Jobb | Yrken | 13833 | Svenska yrkesbeteckningar inklusive om det är en manlig eller kvinnlig beteckning Organisationer | Medier | 158 | Domäner till svenska massmedier och nyhetsmedier Organisationer | Myndigheter | 354 | Namn på svenska myndigheter Organisationer | EU-institutioner | 17 | Namn på EU:s institutioner och organ Wikipedia | Wikipedia-titlar | 6130751 | Alla titlar på svenska Wikipedia-sidor
Programbibliotek
- svensktext för R
- svensktext för Python (läs mer)
- svensktext för C# (läs mer)
Vill du hjälpa till?
Läs mer om hur du kan bidra med CSV-filer med öppen data.
Vill du använda datan? Gör en kopia.
Gör helst en egen lokal kopia. Både datan och strukturen kan nämligen ändras varefter som den utökas.
Citera
Svensk text finns på Svensk nationell datatjänst och kan citeras på följande sätt:
APA6:
Dahlgren, P. M. (2018). Svensk text. Svensk nationell datatjänst. https://snd.gu.se/sv/catalogue/study/ext0278
BibTeX:
@misc{dahlgren_svensktext_2018,
title = {Svensk text},
url = {https://snd.gu.se/sv/catalogue/study/ext0278},
abstract = {Samling med språkresurser på svenska speciellt anpassat för att snabbt och enkelt kunna läsas in av programspråk som Python, R eller dylikt. Bland språkresurserna finns namn på kvinnor (förnamn), män (förnamn), städer, kommuner, län, huvudstäder, länder, nationaliteter, yrken, myndigheter, massmedier med mera. Syftet är att samla svenska resurser som är fria att använda, finns i flera öppna standardiserade format (exempelvis CSV och JSON), har en enkel datastruktur som enkelt kan maskinläsas, består av små filer utan onödigt krimskrams och har exempelkod (R och Python) för att snabbt kunna användas. Materialet utökas och uppdateras kontinuerligt under öppna licenser.},
language = {Svenska},
urldate = {2018-12-20},
publisher = {Svensk nationell datatjänst},
author = {Dahlgren, Peter M.},
month = dec,
year = {2018},
note = {https://github.com/peterdalle/svensktext}
}
Publikationer som använder datan
- Rivera Ahlin, K. (2023). Fixation and Machine Learning: A new method for measuring fixation in internet users using machine learning and natural language processing. Uppsala: Institutionen för informationsteknologi, Uppsala universitet.
- Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från namn. I: L. Truedson & J. Lundqvist (Red.), Vitt eller brett? - vilka får ta plats i medier och på redaktioner? (s. 79–91). Stockholm: Institutet för mediestudier.
- Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade metoder för insamling och analys av stora mängder text- och mediedata (arbetsrapport nr 88). Göteborg: Institutionen för journalistik, medier och kommunikation (JMG), Göteborgs universitet.
- Chen Trieu, K. & Nguyen, L. (2020). Classifying Short Clinical Notes: An Unsupervised Approach. Göteborg: Institutionen för data och informationsteknik, Chalmers tekniska högskola.
Säg gärna till så lägger jag till din publikation här (eller gör det själv genom en pull request).
Se även
- Språkbankens resurser på Göteborgs universitet
- Öppna data
- Statistiska centralbyrån
- Bebyggelseregistret – BeBR
- Lantmäteriet (öppna geodata)
- Öppna data från SKL
- Valmyndigheten
- Rikstermbanken
- PAP API Lite - öppet REST API med Sveriges postnummer och postorter
- Dataportal - sök och utforska öppna data i Sverige (från Myndigheten för digital förvaltning, DIGG)
Owner
- Name: Peter M. Dahlgren
- Login: peterdalle
- Kind: user
- Location: Sweden
- Website: https://peterdahlgren.com/
- Twitter: peterdalle
- Repositories: 6
- Profile: https://github.com/peterdalle
Work with all things data. I like web, R, stats, open science, C#, .NET, Python, Bash.
Citation (CITATION.cff)
cff-version: 1.2.0
message: "Om du använder denna data, citera gärna på följande vis."
authors:
- family-names: "Dahlgren"
given-names: "Peter M."
orcid: "https://orcid.org/0000-0002-3509-3329"
title: "Svensk Text"
date-released: 2018-12-20
url: "https://github.com/peterdalle/svensktext"
preferred-citation:
type: data
authors:
- family-names: "Dahlgren"
given-names: "Peter M."
orcid: "https://orcid.org/0000-0002-3509-3329"
title: "Svensk Text"
year: 2018
url: "https://snd.gu.se/sv/catalogue/study/ext0278"
database-provider:
name: "Svensk Nationell Datatjänst"
abstract: "Samling med språkresurser på svenska speciellt anpassat för att snabbt och enkelt kunna läsas in av programspråk som Python, R eller dylikt. Bland språkresurserna finns namn på kvinnor (förnamn), män (förnamn), städer, kommuner, län, huvudstäder, länder, nationaliteter, yrken, myndigheter, massmedier med mera. Syftet är att samla svenska resurser som är fria att använda, finns i flera öppna standardiserade format (exempelvis CSV och JSON), har en enkel datastruktur som enkelt kan maskinläsas, består av små filer utan onödigt krimskrams och har exempelkod (R och Python) för att snabbt kunna användas. Materialet utökas och uppdateras kontinuerligt under öppna licenser."
GitHub Events
Total
- Watch event: 3
Last Year
- Watch event: 3
Dependencies
- CsvHelper 25.0.0
- Newtonsoft.Json 13.0.1
- Microsoft.NET.Test.Sdk 16.7.1
- coverlet.collector 1.3.0
- xunit 2.4.1
- xunit.runner.visualstudio 2.4.3