articulos-html-enlazado

TFG - Papers to HTML

https://github.com/oeg-upm/articulos-html-enlazado

Science Score: 49.0%

This score indicates how likely this project is to be science-related based on various indicators:

○
CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
✓
DOI references
Found 3 DOI reference(s) in README
✓
Academic publication links
Links to: zenodo.org
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (3.7%) to scientific vocabulary

Last synced: 11 months ago · JSON representation

Repository

TFG - Papers to HTML

Basic Info

Host: GitHub
Owner: oeg-upm
License: apache-2.0
Language: HTML
Default Branch: master
Size: 251 MB

Statistics

Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Releases: 3

Created over 1 year ago · Last pushed about 1 year ago

Metadata Files

Readme License Citation

Conversin de Artculos en HTML Enlazado

Descripcin

El objetivo de este proyecto es transformar la bibliografa de un investigador en una serie de pginas enlazadas para que sea mas sencillo de consultar y ms accesible para aquellos que necesiten consultarlo.

El repositorio tiene activo GitHub Pages (https://oeg-upm.github.io/Articulos-HTML-Enlazado/)

Y el ejemplo completo se puede ver desplegado en la siguiente url:

https://oeg-upm.github.io/Articulos-HTML-Enlazado/Pruebas/PaginaWebCompleta/paginaWeb.html#publications

Requisitos

Para que este proyecto funcione hay que instalarse lo siguiente:

Entorno Python:

Un entorno de python para ejecutar los scripts y comprobar que funciona.

Las libreras correspondientes:

bibtexparser

Instalar RSEF:

https://github.com/SoftwareUnderstanding/RSEF

Ejecutar pdf2htmlEX:

https://github.com/pdf2htmlEX/pdf2htmlEX

Estructura:

Codigo
|   RESEF.py
|   pdf2html.py
|   unir.py
|   main.py
|   paginaWeb.html
Pruebas
    BibTex
    |   nombrebib.bib 
    carpeta_raiz (SalidaRSEF)
    |   subcarpeta1 (carpetaBIB1)
    |   |   subcarpeta2 (PDFs)
    |   |       nombrepdf1.pdf
    |   subcarpeta1 (carpetaBIB2)
    |   |   subcarpeta2 (PDFs)
    |   |       nombrepdf2.pdf
    |   subcarpeta1 (carpetaBIB3)
    |       subcarpeta2 (PDFs)
    |           nombrepdf3.pdf
    PaginaWeb 
        conjuntoJSON.json
        paginaWeb.html
        html
            nombrehtml1.html
            nombrehtml2.html
            nombrehtml2.html

Entrada y salida del proceso

Entrada: Fichero bib con la informacion de cada documento de investigacion

Salida: Fichero json con la informacion de cada documento de investigacion + la pagina web

Cdigo:

1 Tenemos el fichero bib (obligatorio)

Ejecutamos RSEF con el campo "url" de cada una de las entradas del bib.

Hay que tener en cuenta que para que funcione correctamente esta url deberia ser directa a un pdf.

El script RESEF.py necesita dos argumentos de entrada:

1 Ruta al fichero.bib

2 Carpeta donde se va a guardar la salida de RSEF (en este caso si no existe se crea)

python RSEF.py <archivo.bib> <carpeta_salida>

En los ejemplos vamos a ejecutar los siguientes comandos:

Si lo ejecutamos desde la carpeta Codigo:

python RSEF.py ../Pruebas/BibTex/conjuntoBIB.bib ../Pruebas/SalidaRSEFBasica

python RSEF.py ../Pruebas/BibTex/garijo.bib ../Pruebas/SalidaRSEFCompleta

2 Pasamos el pdf descargado por RSEF a un HTML

Segun la estructura que tenemos arriba el pdf se encuentra en subcarpeta2 que corresponde a la carpeta PDFs que crea RSEF cuando se ejecuta. Convertimos el pdf en html y lo copiamos en la carpeta de html, ahi van a estar todos los html correspondientes para poder verlos despues correctamente en la pagina web con una ruta relativa

El script pdf2html.py necesita dos argumentos de entrada:

1 Ruta de la carpeta raiz

2 Ruta de la carpeta de salida para los html

python pdf2html.py <carpeta_raiz> <carpeta_salida>

En los ejemplos vamos a ejecutar los siguientes comandos:

Si lo ejecutamos desde la carpeta Codigo:

python pdf2html.py ../Pruebas/SalidaRSEFBasica ../Pruebas/PaginaWebBasica/html

python pdf2html.py ../Pruebas/SalidaRSEFCompleta ../Pruebas/PaginaWebCompleta/html

3 Unimos la informacion siguiente en un mismo fichero.json

urlsearchoutput.json correspondiente a cada documento
Entrada correspondiente del bib
Campo "file_html" con una futa relativa al html creado por pdf2html

El script unir.py necesita tres argumentos de entrada:

1 Ruta el bib para coger la informacion de la entrada correspondiente

2 Ruta de la carpeta raiz

3 Ruta de la carpeta de salida donde se va a guardar el fichero json completo

python unir.py <ruta bib> <carpeta_raiz> <carpeta_salida>

En los ejemplos vamos a ejecutar los siguientes comandos:

Si lo ejecutamos desde la carpeta Codigo:

python unir.py ../Pruebas/BibTex/conjuntoBIB.bib ../Pruebas/SalidaRSEFBasica ../Pruebas/PaginaWebBasica

python unir.py ../Pruebas/BibTex/garijo.bib ../Pruebas/SalidaRSEFCompleta ../Pruebas/PaginaWebCompleta

4 Tenemos un main que ejecuta todos los scripts anteriores

El script main.py necesita cuatro argumentos de entrada:

1 Ruta del bib

2 Ruta de la carpeta raiz

3 Ruta de la carpeta de salida para los html

4 Ruta de la carpeta de salida donde se va a guardar el fichero json completo

python main.py <archivo.bib> <carpetaSalidaRSEF> <carpetaSalidaHTMLs> <carpetaSalidaConjuntoJSON+CodigoPaginaWeb>

En los ejemplos vamos a ejecutar los siguientes comandos:

Si lo ejecutamos desde la carpeta Codigo:

python main.py ../Pruebas/BibTex/conjuntoBIB.bib ../Pruebas/SalidaRSEFBasica ../Pruebas/PaginaWebBasica/html ../Pruebas/PaginaWebBasica

python main.py ../Pruebas/BibTex/garijo.bib ../Pruebas/SalidaRSEFCompleta ../Pruebas/PaginaWebCompleta/html ../Pruebas/PaginaWebCompleta

Pgina web: https://oeg-upm.github.io/Articulos-HTML-Enlazado/Pruebas/PaginaWebBasica/paginaWeb.html#publications

Pgina web: https://oeg-upm.github.io/Articulos-HTML-Enlazado/Pruebas/PaginaWebCompleta/paginaWeb.html

Owner

Name: Ontology Engineering Group (UPM)
Login: oeg-upm
Kind: organization
Email: oeg-dev@delicias.dia.fi.upm.es
Location: Boadilla del Monte, Madrid, Spain

Website: https://oeg.fi.upm.es/
Repositories: 294
Profile: https://github.com/oeg-upm

GitHub Events

Total

Release event: 1
Push event: 4
Create event: 1

Last Year

Release event: 1
Push event: 4
Create event: 1

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

articulos-html-enlazado

Science Score: 49.0%

Repository

Basic Info

Statistics

Metadata Files

README.md

Conversin de Artculos en HTML Enlazado

Descripcin

Requisitos

Estructura:

Entrada y salida del proceso

Cdigo:

1 Tenemos el fichero bib (obligatorio)

2 Pasamos el pdf descargado por RSEF a un HTML

3 Unimos la informacion siguiente en un mismo fichero.json

4 Tenemos un main que ejecuta todos los scripts anteriores

Owner

GitHub Events

Total

Last Year