Chargement en cours

Comment ça marche?

Cet article présente un aperçu détaillé du fonctionnement d’un système automatisé de création d’articles, conçu pour transformer des flux RSS divers en un contenu de blog cohérent et informatif. Ce système s’articule autour de plusieurs technologies clés : n8n, l’API WordPress, Gemini de Google, et le modèle Gemini 1.5 Flash. L’objectif est de fournir une description factuelle et complète de chaque étape du processus.

Les contraintes

Pour ce projet, j’ai eu l’objectif de prouver qu’on puisse faire des articles facilement concis, précis et ayant le moins de biais cognitifs et de l’information possible, à faible coût, tout en étant sourcés.

Étape 1 : Gestion Dynamique des Sources via une Base de Données Notion

La première phase du workflow consiste à sélectionner les flux RSS qui serviront de sources d’information. Au lieu d’une configuration statique, le système s’appuie sur une base de données Notion pour gérer ces sources de manière dynamique. Cette base de données contient une liste exhaustive des flux RSS à surveiller, chaque entrée comprenant l’URL du flux ainsi que d’autres métadonnées pertinentes. Cette approche offre plus de flexibilité, permettant d’ajouter ou de supprimer facilement des sources sans nécessiter de modifications directes du code de l’automatisation. Un simple ajustement dans la base de données Notion se traduit instantanément par une mise à jour des sources surveillées par n8n. J’ai aussi pu rajouter sur ce systezme une possibilité d’ajouter des articlesque je considere interessant dans cette BDD et ce pour temps de 4 jours ce qui me semble être suffisant pour la fiabiliter de l’info (si changement politique etc…)

Étape 2 : Analyse Sémantique et Génération d’Embeddings avec Gemini

Une fois les flux RSS collectés, le système procède à l’extraction et à l’analyse des informations clés contenues dans chaque article. L’objectif est d’identifier les mots-clés les plus pertinents via un Gemini qui résument le contenu de chaque article de manière concise. Pour aller au-delà d’une simple extraction de mots-clés, le système utilise la technologie des embeddings. Chaque mot-clé identifié est converti en un embedding, c’est-à-dire une représentation vectorielle qui capture le sens et le contexte du mot dans le document. L’API Gemini de Google est employée à cette fin, permettant de transformer chaque mot-clé en un vecteur numérique exploitable pour des comparaisons sémantiques ultérieures.

Étape 3 : Regroupement des Articles par Similarité grâce aux Embeddings

La phase suivante consiste à évaluer la similarité entre les différents articles en se basant sur les embeddings (vectorialisation des mots ou transformation d’un mot en une suite de nombre) de leurs mots-clés. Le principe est de regrouper les articles qui traitent de sujets similaires, même si les formulations et le vocabulaire employés diffèrent. Pour ce faire, le système calcule un score de similarité entre les embeddings des mots-clés de chaque paire d’articles. Plus les embeddings sont proches dans l’espace vectoriel, plus les articles sont considérés comme pertinents et similaires. Un seuil de similarité prédéfini est utilisé pour déterminer si deux articles doivent être regroupés en vue d’une synthèse ultérieure.

Étape 4 : Synthèse et Création d’un Article Combiné avec Gemini 1.5 Flash

Une fois les articles regroupés par similarité, le système passe à la phase de synthèse et de création d’un article combiné. Le modèle de langage Gemini 1.5 Flash est utilisé pour synthétiser les informations contenues dans les articles regroupés et créer un nouvel article original, cohérent et informatif. Ce modèle de langage est capable de reformuler le contenu, d’intégrer les points clés de chaque source, et de générer un article qui reflète une compréhension approfondie du sujet. L’article combiné est soigneusement structuré et inclut des références claires en fin de page à tous les articles originaux, garantissant ainsi la transparence et la traçabilité des informations présentées.

Étape 5 : Publication Automatisée sur la Plateforme WordPress

La dernière étape du workflow consiste à publier l’article combiné sur une plateforme WordPress. Pour automatiser cette tâche, le système utilise l’API WordPress, qui permet d’interagir avec la plateforme de manière programmatique. n8n envoie les données nécessaires à la création et à la publication de l’article, notamment le titre, le contenu, les catégories, les tags, et autres métadonnées pertinentes. En quelques secondes, l’article est publié sur le site WordPress, prêt à être consulté par les lecteurs.

Les Technologies Clés du Système :

  • n8n : Plateforme d’automatisation open source jouant le rôle d’orchestrateur, connectant les différentes étapes du workflow et assurant la fluidité du processus.
  • Gemini embedding text 4 : API utilisée pour la génération d’embeddings sémantiques, permettant de capturer le sens et le contexte des mots-clés.
  • WordPress API : Interface permettant d’automatiser la publication d’articles.
  • Notion : Base de données centralisée pour la gestion dynamique des sources RSS, offrant une flexibilité et une maintenance simplifiée.
  • Gemini 1.5 Flash : Modèle de langage utilisé pour la synthèse et la création d’articles combinés, garantissant la cohérence et la qualité du contenu produit.

Probleme lors de la conception et adaptation

Il y a eu plusieurs problèmes lors de la conception de projet :

  • Garantie de la Sureté de l’Information : Afin d’assurer la fiabilité et la crédibilité du contenu généré, une attention particulière a été portée à la sélection des sources d’information. L’utilisation exclusive de flux RSS provenant de sources réputées et de haute qualité a permis d’éviter l’inclusion d’informations potentiellement erronées ou biaisées provenant de sites moins fiables, tels que BuzzFeed et d’autres agrégateurs de contenu similaires. Cette approche a contribué à garantir la pertinence et l’exactitude des informations présentées dans les articles combinés.
  • Surmontant les Limitations de l’API n8n : La plateforme n8n, bien que puissante pour l’automatisation, ne propose pas d’intégration native avec toutes les API nécessaires à ce projet. En particulier, l’absence d’un nœud dédié à l’API d’embedding de Google a nécessité un travail de développement supplémentaire. Il a été nécessaire de coder manuellement les interactions avec cette API, ainsi que le code pour effectuer les calculs de distance entre les embeddings et les autres opérations liées à cette technologie.
  • Optimisation du Traitement des Articles via Embeddings : Des approches alternatives à l’utilisation d’embeddings, telles que la comparaison directe du contenu des articles, ont été testées initialement. Cependant, ces méthodes se sont avérées moins efficaces en raison du « bruit » introduit par des informations non pertinentes (adjectifs, déterminants, etc.). Ce « bruit » a non seulement réduit la précision de l’analyse, mais a également augmenté le coût de traitement en raison de la quantité d’informations transmises à l’IA. L’utilisation d’embeddings s’est avérée une solution plus performante en se concentrant sur le sens sémantique des mots-clés, ce qui a amélioré la précision et réduit les coûts.
  • Gestion de Volume Important de Données : Le traitement de plusieurs centaines d’articles simultanément a posé des défis en termes de gestion de la mémoire. Le serveur a subi des crashs répétés en raison de la quantité de données stockées en mémoire. Pour atténuer ce problème, une stratégie de stockage et de traitement progressif des données a été mise en œuvre. Les informations sont initialement stockées dans des fichiers texte, puis chargées et traitées par lots afin de réduire la charge sur la mémoire du serveur.

Conclusion : Automatisation et Efficacité dans la Création de Contenu

Ce système illustre comment l’automatisation et l’intelligence artificielle peuvent être combinées pour créer un flux de travail efficace et performant pour la création de contenu. En utilisant n8n, Gemini et l’API WordPress, il est possible de générer des articles de qualité de manière automatisée, libérant ainsi du temps et des ressources pour d’autres activités. L’utilisation d’embeddings sémantiques permet de garantir la pertinence des articles combinés, tandis que la base de données Notion offre une flexibilité précieuse pour la gestion des sources d’information.