article-swh-bioinfo-fr
Science Score: 26.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (3.7%) to scientific vocabulary
Repository
Basic Info
- Host: GitHub
- Owner: pierrepo
- License: bsd-3-clause
- Language: Python
- Default Branch: main
- Size: 48.8 KB
Statistics
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
- Releases: 0
Metadata Files
README.md
Préparation d'un article sur Software Heritage pour Bioinfo-fr
Ce dépôt contient les ressources pour préparer un article de blog sur Software Heritage pour le site Bioinfo-fr.
Ressources
Vidéo source : Tuto@Mate#64 Pierre Poulain présente Git et l'archive Software Heritage
L'API Whisper de Groq supporte des fichiers audio au format mp3, mp4, wav... avec une taille maximale de 25 Mo.
Les modèles supportant le français sont whisper-large-v3-turbo et whisper-large-v3. Le dernier est un peu plus lent, mais fait aussi moins d'erreurs.
Groq recommande également de réduire la qualité du fichier à du mono en 16 000 Hz :
bash
ffmpeg \
-i <your file> \
-ar 16000 \
-ac 1 \
-map 0:a: \
<output file name>
Préparation du fichier audio
Installer Pixi si besoin.
Télécharger le fichier audio de la vidéo :
bash
pixi run yt-dlp -f 140 -o audio_full.m4a https://www.youtube.com/watch?v=GjVrZbU0PB0
Découper la partie intéressante, de 1:32:50 à 1:52:45 :
bash
pixi run ffmpeg \
-i audio_full.m4a \
-ss 01:32:50 -to 01:52:45 \
-c:a libmp3lame \
audio.mp3
Passer en mono 16 000 Hz :
bash
pixi run ffmpeg \
-i audio.mp3 \
-ar 16000 \
-ac 1 \
-map 0:a: \
audio_clean.mp3
Vérifier que le fichier audio final a une taille inférieure à 25 Mo :
bash
$ ls -lh audio*
-rw-rw-r-- 1 pierre pierre 3,5M déc. 30 11:34 audio_clean.mp3
-rw-rw-r-- 1 pierre pierre 122M oct. 11 17:03 audio_full.m4a
-rw-rw-r-- 1 pierre pierre 19M déc. 30 11:33 audio.mp3
Transcription
Exporter la clé d'API Groq :
bash
export GROQ_API_KEY=gsk_...
Lancer la transcription :
bash
pixi run python transcript.py > audio_text.txt
Préparation de l'article de blog
Prompt ChatGPT 4o :
Organise le texte suivant sur Software Heritage sous la forme d'un article de blog à destination de bioinformaticiens. L'article doit être structuré et factuel. N'enjolive pas mais donne envie aux lecteurs d'archiver leur code dans Software Heritage : [contenu de audio_text.txt]
Owner
- Name: Pierre Poulain
- Login: pierrepo
- Kind: user
- Location: Paris, France
- Website: cupnet.net
- Twitter: pierrepo
- Repositories: 22
- Profile: https://github.com/pierrepo
CodeMeta (codemeta.json)
{
"@context": "https://w3id.org/codemeta/3.0",
"type": "SoftwareSourceCode",
"applicationCategory": "Bioinformatics",
"author": [
{
"id": "https://orcid.org/0000-0003-4177-3619",
"type": "Person",
"affiliation": {
"type": "Organization",
"name": "Universit Paris Cit"
},
"email": "pierre.poulain@cupnet.net",
"familyName": "Poulain",
"givenName": "Pierrre"
}
],
"codeRepository": "https://github.com/pierrepo/article-SWH-bioinfo-fr",
"dateCreated": "2025-01-14",
"description": "Ce dpt contient les ressources pour prparer un article de blog sur [Software Heritage](https://www.softwareheritage.org/) pour le site [Bioinfo-fr](https://bioinfo-fr.net/).",
"keywords": [
"Software Heritage",
"bioinformatics"
],
"license": "https://spdx.org/licenses/BSD-3-Clause",
"name": "Prparation d'un article sur Software Heritage pour Bioinfo-fr",
"programmingLanguage": "Python",
"softwareRequirements": [
"Python>=3.12",
"groq",
"yt-dlp",
"ffmpeg",
"ruff"
],
"developmentStatus": "concept",
"issueTracker": "https://github.com/pierrepo/article-SWH-bioinfo-fr/issues"
}
GitHub Events
Total
- Push event: 7
- Create event: 2
Last Year
- Push event: 7
- Create event: 2
Dependencies
- groq >=0.13.1,<0.14
- yt-dlp [default]>=2024.12.23,<2025