sesgos_llm

¿Cómo “se equivocan” los modelos LLM?

https://github.com/datos-fundar/sesgos_llm

Science Score: 67.0%

This score indicates how likely this project is to be science-related based on various indicators:

✓
CITATION.cff file
Found CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
✓
DOI references
Found 1 DOI reference(s) in README
✓
Academic publication links
Links to: arxiv.org, zenodo.org
○
Committers with academic emails
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (3.6%) to scientific vocabulary

Keywords

bard bard-api codigo cohere datos gpt llm sesgo

Last synced: 10 months ago · JSON representation ·

Repository

¿Cómo “se equivocan” los modelos LLM?

Basic Info

Host: GitHub
Owner: datos-Fundar
License: other
Language: Jupyter Notebook
Default Branch: main
Homepage: https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/
Size: 9.13 MB

Statistics

Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Releases: 1

Topics

bard bard-api codigo cohere datos gpt llm sesgo

Created over 2 years ago · Last pushed over 1 year ago

Metadata Files

Readme Citation

Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar. Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.

Aplicamos un enfoque similar para explorar cómo los LMs reflejan y se alinean con las opiniones de diversos grupos demográficos en el contexto argentino. A partir de preguntas adaptadas de encuestas de Latinobarómetro, abordamos temas relevantes para el panorama sociopolítico argentino y analizamos el alineamiento de las respuestas de los LMs con diferentes segmentos de la población. Nuestro objetivo fue revelar posibles sesgos y discrepancias, proporcionando una comprensión matizada de cómo estos modelos interpretan opiniones en el contexto específico de Argentina.

El propósito de este repositorio es permitir a cualquier persona replicar el trabajo realizado.

[!NOTE] Desde el día en que se realizó este trabajo hasta la fecha, las interfaces, las APIs, y los modelos pudieron haber cambiado. Por ende, los resultados pueden variar o ser filtrados de una manera que no está considerada en este estudio.

Organización del proyecto:

En datasets se encuentran los datos de Latinobarómetro utilizados para promptear a los modelos y evaluar las respuestas.

En outputs se encuentran los resultados de los distintos scripts y notebooks. (A destacar, los gráficos generados y las respuestas consolidadas de cada modelo).

El análisis está repartido entre las Jupyter Notebooks y los scripts. En particular: - bard.ipynb, chatgpt.ipynb, y cohere.ipynb contienen las notebooks donde se promptean a los correspondientes modelos con las preguntas seleccionadas. - Las notebooks distances_ contienen el cálculo de las distancias de opinión correspondientes a cada modelo. - En scripts/ se realizan los modelos de regresión lineal ajustados a través de OLS para el análisis multivariado. Cada script analiza un subset diferente de datos. - En etc/ hay Jupyter Notebooks que contienen un analisis exploratorio de los datasets.

Este documento es parte de la serie Inteligencia Artificial

Owner

Name: Datos Fundar
Login: datos-Fundar
Kind: organization
Email: datos@fund.ar
Location: Argentina

Website: https://www.fund.ar/area/analisis-de-datos/
Twitter: Fundesarg
Repositories: 2
Profile: https://github.com/datos-Fundar

Área de Datos de FUNDAR

Citation (CITATION.cff)

cff-version: 1.2.0
message: "Si usás este repositorio, por favor citalo usando estos datos."
license: CC-BY-NC-SA-4.0
type: software
date-released: "2024-04-09"
title: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
abstract: >-
  Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar. 
  Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar 
  Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.
  

repository-code: "https://github.com/datos-Fundar/sesgos_LLM"
url: "https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/"

identifiers:
  - description: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
    type: doi
    value: 10.5281/zenodo.11186045
authors:
  - given-names: "Juan Manuel"
    family-names: "Ortiz de Zárate"
    affiliation: "Fundar"
  - given-names: "Juan Manuel"
    family-names: "Dias"
    affiliation: "Fundar"
  - given-names: "Alejandro"
    family-names: "Avenburg"
    affiliation: "Fundar"
  - given-names: "Joan Imanol"
    family-names: "Gonzalez Quiroga"
    affiliation: "Fundar"

GitHub Events

Total

Watch event: 1
Push event: 2

Last Year

Watch event: 1
Push event: 2

Committers

Last synced: over 1 year ago

All Time

Total Commits: 31
Total Committers: 3
Avg Commits per committer: 10.333
Development Distribution Score (DDS): 0.29

Past Year

Commits: 31
Committers: 3
Avg Commits per committer: 10.333
Development Distribution Score (DDS): 0.29

Top Committers

Name	Email	Commits
Joan Gonzalez	j**a@d**r	22
Juan Pablo Ruiz Nicolini	j**i@g**m	6
Juan Manuel	4****i	3

Committer Domains (Top 20 + Academic)

dc.uba.ar: 1

Issues and Pull Requests

Last synced: over 1 year ago

All Time

Total issues: 0
Total pull requests: 1
Average time to close issues: N/A
Average time to close pull requests: less than a minute
Total issue authors: 0
Total pull request authors: 1
Average comments per issue: 0
Average comments per pull request: 0.0
Merged pull requests: 1
Bot issues: 0
Bot pull requests: 0

Past Year

Issues: 0
Pull requests: 1
Average time to close issues: N/A
Average time to close pull requests: less than a minute
Issue authors: 0
Pull request authors: 1
Average comments per issue: 0
Average comments per pull request: 0.0
Merged pull requests: 1
Bot issues: 0
Bot pull requests: 0

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

sesgos_llm

Science Score: 67.0%

Keywords

Repository

Basic Info

Statistics

Topics

Metadata Files

README.md

Organización del proyecto:

Owner

Citation (CITATION.cff)

GitHub Events

Total

Last Year

Committers

All Time

Past Year

Top Committers

Committer Domains (Top 20 + Academic)

Issues and Pull Requests

All Time

Past Year

Top Authors

Issue Authors

Pull Request Authors

Top Labels

Issue Labels

Pull Request Labels