sesgos_llm

¿Cómo “se equivocan” los modelos LLM?

https://github.com/datos-fundar/sesgos_llm

Science Score: 67.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
    Found 1 DOI reference(s) in README
  • Academic publication links
    Links to: arxiv.org, zenodo.org
  • Committers with academic emails
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (3.6%) to scientific vocabulary

Keywords

bard bard-api codigo cohere datos gpt llm sesgo
Last synced: 6 months ago · JSON representation ·

Repository

¿Cómo “se equivocan” los modelos LLM?

Basic Info
Statistics
  • Stars: 1
  • Watchers: 1
  • Forks: 0
  • Open Issues: 0
  • Releases: 1
Topics
bard bard-api codigo cohere datos gpt llm sesgo
Created about 2 years ago · Last pushed over 1 year ago
Metadata Files
Readme Citation

README.md

Alt text

DOI License: CC BY 4.0

Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar. Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.

Aplicamos un enfoque similar para explorar cómo los LMs reflejan y se alinean con las opiniones de diversos grupos demográficos en el contexto argentino. A partir de preguntas adaptadas de encuestas de Latinobarómetro, abordamos temas relevantes para el panorama sociopolítico argentino y analizamos el alineamiento de las respuestas de los LMs con diferentes segmentos de la población. Nuestro objetivo fue revelar posibles sesgos y discrepancias, proporcionando una comprensión matizada de cómo estos modelos interpretan opiniones en el contexto específico de Argentina.

El propósito de este repositorio es permitir a cualquier persona replicar el trabajo realizado.

[!NOTE] Desde el día en que se realizó este trabajo hasta la fecha, las interfaces, las APIs, y los modelos pudieron haber cambiado. Por ende, los resultados pueden variar o ser filtrados de una manera que no está considerada en este estudio.

Organización del proyecto:

En datasets se encuentran los datos de Latinobarómetro utilizados para promptear a los modelos y evaluar las respuestas.

En outputs se encuentran los resultados de los distintos scripts y notebooks. (A destacar, los gráficos generados y las respuestas consolidadas de cada modelo).

El análisis está repartido entre las Jupyter Notebooks y los scripts. En particular: - bard.ipynb, chatgpt.ipynb, y cohere.ipynb contienen las notebooks donde se promptean a los correspondientes modelos con las preguntas seleccionadas. - Las notebooks distances_ contienen el cálculo de las distancias de opinión correspondientes a cada modelo. - En scripts/ se realizan los modelos de regresión lineal ajustados a través de OLS para el análisis multivariado. Cada script analiza un subset diferente de datos. - En etc/ hay Jupyter Notebooks que contienen un analisis exploratorio de los datasets.


Este documento es parte de la serie Inteligencia Artificial

 
 
 

Owner

  • Name: Datos Fundar
  • Login: datos-Fundar
  • Kind: organization
  • Email: datos@fund.ar
  • Location: Argentina

Área de Datos de FUNDAR

Citation (CITATION.cff)

cff-version: 1.2.0
message: "Si usás este repositorio, por favor citalo usando estos datos."
license: CC-BY-NC-SA-4.0
type: software
date-released: "2024-04-09"
title: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
abstract: >-
  Este repositorio forma parte del documento de trabajo Sesgos algorítmicos y representación social en los modelos de lenguaje generativo (LLM) publicado por el equipo de Datos de Fundar. 
  Este artículo se fundamenta en los hallazgos presentes en este artículo publicado por la Universidad de Stanford que utilizó el conjunto de datos OpinionQA y la metodología para evaluar 
  Modelos de Lenguaje (LMs) mediante encuestas de opinión pública.
  

repository-code: "https://github.com/datos-Fundar/sesgos_LLM"
url: "https://fund.ar/publicacion/sesgos-algoritmicos-y-representacion-social-en-los-modelos-de-lenguaje-generativo/"

identifiers:
  - description: "Sesgos algorítmicos y representación social en los modelos de lenguaje generativo"
    type: doi
    value: 10.5281/zenodo.11186045
authors:
  - given-names: "Juan Manuel"
    family-names: "Ortiz de Zárate"
    affiliation: "Fundar"
  - given-names: "Juan Manuel"
    family-names: "Dias"
    affiliation: "Fundar"
  - given-names: "Alejandro"
    family-names: "Avenburg"
    affiliation: "Fundar"
  - given-names: "Joan Imanol"
    family-names: "Gonzalez Quiroga"
    affiliation: "Fundar"
    

GitHub Events

Total
  • Watch event: 1
  • Push event: 2
Last Year
  • Watch event: 1
  • Push event: 2

Committers

Last synced: over 1 year ago

All Time
  • Total Commits: 31
  • Total Committers: 3
  • Avg Commits per committer: 10.333
  • Development Distribution Score (DDS): 0.29
Past Year
  • Commits: 31
  • Committers: 3
  • Avg Commits per committer: 10.333
  • Development Distribution Score (DDS): 0.29
Top Committers
Name Email Commits
Joan Gonzalez j****a@d****r 22
Juan Pablo Ruiz Nicolini j****i@g****m 6
Juan Manuel 4****i 3
Committer Domains (Top 20 + Academic)

Issues and Pull Requests

Last synced: about 1 year ago

All Time
  • Total issues: 0
  • Total pull requests: 1
  • Average time to close issues: N/A
  • Average time to close pull requests: less than a minute
  • Total issue authors: 0
  • Total pull request authors: 1
  • Average comments per issue: 0
  • Average comments per pull request: 0.0
  • Merged pull requests: 1
  • Bot issues: 0
  • Bot pull requests: 0
Past Year
  • Issues: 0
  • Pull requests: 1
  • Average time to close issues: N/A
  • Average time to close pull requests: less than a minute
  • Issue authors: 0
  • Pull request authors: 1
  • Average comments per issue: 0
  • Average comments per pull request: 0.0
  • Merged pull requests: 1
  • Bot issues: 0
  • Bot pull requests: 0
Top Authors
Issue Authors
Pull Request Authors
  • joangq (1)
Top Labels
Issue Labels
Pull Request Labels