Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (3.7%) to scientific vocabulary
Last synced: 9 months ago · JSON representation

Repository

Basic Info
  • Host: GitHub
  • Owner: pierrepo
  • License: bsd-3-clause
  • Language: Python
  • Default Branch: main
  • Size: 48.8 KB
Statistics
  • Stars: 0
  • Watchers: 1
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Created over 1 year ago · Last pushed over 1 year ago
Metadata Files
Readme License Authors Codemeta

README.md

Préparation d'un article sur Software Heritage pour Bioinfo-fr

Ce dépôt contient les ressources pour préparer un article de blog sur Software Heritage pour le site Bioinfo-fr.

Ressources

Vidéo source : Tuto@Mate#64 Pierre Poulain présente Git et l'archive Software Heritage

L'API Whisper de Groq supporte des fichiers audio au format mp3, mp4, wav... avec une taille maximale de 25 Mo.

Les modèles supportant le français sont whisper-large-v3-turbo et whisper-large-v3. Le dernier est un peu plus lent, mais fait aussi moins d'erreurs.

Groq recommande également de réduire la qualité du fichier à du mono en 16 000 Hz :

bash ffmpeg \ -i <your file> \ -ar 16000 \ -ac 1 \ -map 0:a: \ <output file name>

Préparation du fichier audio

Installer Pixi si besoin.

Télécharger le fichier audio de la vidéo :

bash pixi run yt-dlp -f 140 -o audio_full.m4a https://www.youtube.com/watch?v=GjVrZbU0PB0

Découper la partie intéressante, de 1:32:50 à 1:52:45 :

bash pixi run ffmpeg \ -i audio_full.m4a \ -ss 01:32:50 -to 01:52:45 \ -c:a libmp3lame \ audio.mp3

Passer en mono 16 000 Hz :

bash pixi run ffmpeg \ -i audio.mp3 \ -ar 16000 \ -ac 1 \ -map 0:a: \ audio_clean.mp3

Vérifier que le fichier audio final a une taille inférieure à 25 Mo :

bash $ ls -lh audio* -rw-rw-r-- 1 pierre pierre 3,5M déc. 30 11:34 audio_clean.mp3 -rw-rw-r-- 1 pierre pierre 122M oct. 11 17:03 audio_full.m4a -rw-rw-r-- 1 pierre pierre 19M déc. 30 11:33 audio.mp3

Transcription

Exporter la clé d'API Groq :

bash export GROQ_API_KEY=gsk_...

Lancer la transcription :

bash pixi run python transcript.py > audio_text.txt

Préparation de l'article de blog

Prompt ChatGPT 4o :

Organise le texte suivant sur Software Heritage sous la forme d'un article de blog à destination de bioinformaticiens. L'article doit être structuré et factuel. N'enjolive pas mais donne envie aux lecteurs d'archiver leur code dans Software Heritage : [contenu de audio_text.txt]

Owner

  • Name: Pierre Poulain
  • Login: pierrepo
  • Kind: user
  • Location: Paris, France

CodeMeta (codemeta.json)

{
  "@context": "https://w3id.org/codemeta/3.0",
  "type": "SoftwareSourceCode",
  "applicationCategory": "Bioinformatics",
  "author": [
    {
      "id": "https://orcid.org/0000-0003-4177-3619",
      "type": "Person",
      "affiliation": {
        "type": "Organization",
        "name": "Universit Paris Cit"
      },
      "email": "pierre.poulain@cupnet.net",
      "familyName": "Poulain",
      "givenName": "Pierrre"
    }
  ],
  "codeRepository": "https://github.com/pierrepo/article-SWH-bioinfo-fr",
  "dateCreated": "2025-01-14",
  "description": "Ce dpt contient les ressources pour prparer un article de blog sur [Software Heritage](https://www.softwareheritage.org/) pour le site [Bioinfo-fr](https://bioinfo-fr.net/).",
  "keywords": [
    "Software Heritage",
    "bioinformatics"
  ],
  "license": "https://spdx.org/licenses/BSD-3-Clause",
  "name": "Prparation d'un article sur Software Heritage pour Bioinfo-fr",
  "programmingLanguage": "Python",
  "softwareRequirements": [
    "Python>=3.12",
    "groq",
    "yt-dlp",
    "ffmpeg",
    "ruff"
  ],
  "developmentStatus": "concept",
  "issueTracker": "https://github.com/pierrepo/article-SWH-bioinfo-fr/issues"
}

GitHub Events

Total
  • Push event: 7
  • Create event: 2
Last Year
  • Push event: 7
  • Create event: 2

Dependencies

pyproject.toml pypi
  • groq >=0.13.1,<0.14
  • yt-dlp [default]>=2024.12.23,<2025