Science Score: 67.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
✓DOI references
Found 1 DOI reference(s) in README -
✓Academic publication links
Links to: arxiv.org, zenodo.org -
○Committers with academic emails
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (3.6%) to scientific vocabulary
Keywords
Repository
¿Cómo “se equivocan” los modelos LLM?
Basic Info
- Host: GitHub
- Owner: datos-Fundar
- License: other
- Language: Jupyter Notebook
- Default Branch: main
- Homepage: https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/
- Size: 9.13 MB
Statistics
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
- Releases: 1
Topics
Metadata Files
README.md
Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar. Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.
Aplicamos un enfoque similar para explorar cómo los LMs reflejan y se alinean con las opiniones de diversos grupos demográficos en el contexto argentino. A partir de preguntas adaptadas de encuestas de Latinobarómetro, abordamos temas relevantes para el panorama sociopolítico argentino y analizamos el alineamiento de las respuestas de los LMs con diferentes segmentos de la población. Nuestro objetivo fue revelar posibles sesgos y discrepancias, proporcionando una comprensión matizada de cómo estos modelos interpretan opiniones en el contexto específico de Argentina.
El propósito de este repositorio es permitir a cualquier persona replicar el trabajo realizado.
[!NOTE] Desde el día en que se realizó este trabajo hasta la fecha, las interfaces, las APIs, y los modelos pudieron haber cambiado. Por ende, los resultados pueden variar o ser filtrados de una manera que no está considerada en este estudio.
Organización del proyecto:
En datasets se encuentran los datos de Latinobarómetro utilizados para promptear a los modelos y evaluar las respuestas.
En outputs se encuentran los resultados de los distintos scripts y notebooks. (A destacar, los gráficos generados y las respuestas consolidadas de cada modelo).
El análisis está repartido entre las Jupyter Notebooks y los scripts.
En particular:
- bard.ipynb, chatgpt.ipynb, y cohere.ipynb contienen las notebooks donde se promptean a los correspondientes modelos con las preguntas seleccionadas.
- Las notebooks distances_ contienen el cálculo de las distancias de opinión correspondientes a cada modelo.
- En scripts/ se realizan los modelos de regresión lineal ajustados a través de OLS para el análisis multivariado. Cada script analiza un subset diferente de datos.
- En etc/ hay Jupyter Notebooks que contienen un analisis exploratorio de los datasets.
Este documento es parte de la serie Inteligencia Artificial
Owner
- Name: Datos Fundar
- Login: datos-Fundar
- Kind: organization
- Email: datos@fund.ar
- Location: Argentina
- Website: https://www.fund.ar/area/analisis-de-datos/
- Twitter: Fundesarg
- Repositories: 2
- Profile: https://github.com/datos-Fundar
Área de Datos de FUNDAR
Citation (CITATION.cff)
cff-version: 1.2.0
message: "Si usás este repositorio, por favor citalo usando estos datos."
license: CC-BY-NC-SA-4.0
type: software
date-released: "2024-04-09"
title: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
abstract: >-
Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar.
Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar
Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.
repository-code: "https://github.com/datos-Fundar/sesgos_LLM"
url: "https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/"
identifiers:
- description: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
type: doi
value: 10.5281/zenodo.11186045
authors:
- given-names: "Juan Manuel"
family-names: "Ortiz de Zárate"
affiliation: "Fundar"
- given-names: "Juan Manuel"
family-names: "Dias"
affiliation: "Fundar"
- given-names: "Alejandro"
family-names: "Avenburg"
affiliation: "Fundar"
- given-names: "Joan Imanol"
family-names: "Gonzalez Quiroga"
affiliation: "Fundar"
GitHub Events
Total
- Watch event: 1
- Push event: 2
Last Year
- Watch event: 1
- Push event: 2
Committers
Last synced: over 1 year ago
Top Committers
| Name | Commits | |
|---|---|---|
| Joan Gonzalez | j****a@d****r | 22 |
| Juan Pablo Ruiz Nicolini | j****i@g****m | 6 |
| Juan Manuel | 4****i | 3 |
Committer Domains (Top 20 + Academic)
Issues and Pull Requests
Last synced: about 1 year ago
All Time
- Total issues: 0
- Total pull requests: 1
- Average time to close issues: N/A
- Average time to close pull requests: less than a minute
- Total issue authors: 0
- Total pull request authors: 1
- Average comments per issue: 0
- Average comments per pull request: 0.0
- Merged pull requests: 1
- Bot issues: 0
- Bot pull requests: 0
Past Year
- Issues: 0
- Pull requests: 1
- Average time to close issues: N/A
- Average time to close pull requests: less than a minute
- Issue authors: 0
- Pull request authors: 1
- Average comments per issue: 0
- Average comments per pull request: 0.0
- Merged pull requests: 1
- Bot issues: 0
- Bot pull requests: 0
Top Authors
Issue Authors
Pull Request Authors
- joangq (1)
