Modèle Rerank de Cohere : Transformer le recrutement avec l'IA

Construire un système avancé de présélection de CV et de sélection de candidats avec Cohere

Dans ce tutoriel, je vais vous guider à travers le processus de construction d'un système avancé pour la présélection de CV et la sélection de candidats en utilisant les fonctionnalités de Rerank et Generate de Cohere. À la fin de ce guide, vous disposerez d'un outil entièrement fonctionnel pour vous aider dans le processus de recrutement, soutenu par la puissance de Cohere.

Introduction à la présélection avancée de CV avec Cohere

Bienvenue dans ce voyage passionnant de transformation de la façon dont nous présélectionnons les CV et sélectionnons les candidats ! Je suis Sanchay Thalnerkar, et je serai votre guide tout au long de ce tutoriel complet. Aujourd'hui, nous exploitons les capacités de Cohere, une plateforme qui offre de puissants modèles de traitement du langage naturel.

Que construisons-nous ?

Nous créons un système à la pointe de la technologie qui va au-delà de la simple correspondance de mots-clés pour la présélection de CV. Cet outil comprendra le contexte, l'expérience et les compétences détaillées dans les CV, garantissant que vous sélectionniez les candidats les plus appropriés pour vos offres d'emploi.

Streamlit : Un framework pour créer des applications web en toute simplicité.
Cohere : Une plateforme qui fournit un accès à de puissants modèles linguistiques.
Rerank : Pour classer correctement les CV en fonction de leur pertinence pour la description de poste.
Generate : Pour créer des explications détaillées pour nos sélections.
Pinecone : Un service pour une recherche vectorielle efficace.
Pandas : Une bibliothèque pour la manipulation et l'analyse de données.
OpenAI : Pour des capacités supplémentaires de traitement du langage naturel.

Pourquoi Cohere et pas seulement la recherche vectorielle ?

Bien que la recherche vectorielle soit un outil puissant pour trouver des documents similaires, elle peut parfois être insuffisante lorsqu'il s'agit de comprendre les nuances du langage humain et du contexte. Cohere comble cette lacune en offrant des fonctionnalités avancées :

Rerank : Il fournit une compréhension plus profonde du contexte et de la pertinence, permettant des classements plus précis des CV.
Generate : Cela nous permet de produire des explications détaillées pour nos choix, montrant un niveau de compréhension et de raisonnement similaire à celui d'un recruteur humain.

Introduction à Cohere et Streamlit

Cohere est une plateforme offrant un accès à des modèles de traitement du langage naturel (NLP) de pointe. Elle permet aux développeurs d'exploiter la puissance de grands modèles de langage pour diverses applications, y compris la génération de texte, la classification, et plus encore. Les modèles de Cohere comprennent le contexte et la sémantique des textes, permettant des interactions plus précises et significatives avec les données textuelles.

Dans ce tutoriel, nous nous concentrerons sur deux fonctionnalités spécifiques de Cohere :

Rerank : Cette fonction nous permet de reclasser une liste d'éléments en fonction de leur pertinence pour une requête particulière. Dans notre cas, nous l'utiliserons pour classer les CV en fonction de leur adéquation à une description de poste.
Generate : Cette fonction nous permet de générer du texte basé sur une invite. Nous l'utiliserons pour créer des explications sur pourquoi un CV particulier a été bien classé.

Streamlit est une bibliothèque Python open-source pour créer des applications web avec un minimum d'efforts. Elle est conçue pour des data scientists et des ingénieurs souhaitant transformer des scripts de données en applications web partageables. Avec Streamlit, vous pouvez créer des tableaux de bord et des outils interactifs rapidement, ce qui en fait un choix parfait pour notre outil de présélection de CV.

Étape 1: Configurer l'environnement

Avant de plonger dans la construction de notre outil de présélection de CV et de sélection de candidats, nous devons préparer notre environnement de développement. Suivez ces étapes pour vous assurer que tout est correctement configuré :

Installer Python :

Assurez-vous que Python est installé sur votre système. Si ce n'est pas le cas, vous pouvez le télécharger et l'installer depuis le site officiel de Python.

Créer un environnement virtuel (facultatif) :

Il est bon de créer un environnement virtuel pour gérer les dépendances de manière plus efficace et éviter d'éventuels conflits. Exécutez les commandes suivantes dans votre terminal :

python -m venv myenv
source myenv/bin/activate

Installer les packages requis :

Maintenant, installez les packages Python nécessaires en utilisant pip. Les packages requis pour ce projet incluent streamlit, pandas, cohere, openai, et pinecone. Exécutez la commande suivante pour installer tous les packages requis :

pip install streamlit pandas cohere pinecone openai

Installer des dépendances supplémentaires :

En fonction de votre système et des spécificités de votre projet, vous devrez peut-être installer des dépendances supplémentaires. Consultez la documentation de chaque package pour des conseils.

Maintenant que notre environnement est prêt, nous pouvons commencer à plonger dans le code et à construire notre application !

Étape 2: Acquisition des clés API et configuration du fichier d'environnement

Pour stocker en toute sécurité nos clés API, nous allons créer un fichier d'environnement nommé .env. Ce fichier stockera diverses configurations, y compris les clés API nécessaires pour interagir avec Cohere, Pinecone et OpenAI.

2.1 Clé API Cohere

Visitez le portail des développeurs de Cohere et inscrivez-vous pour un compte.
Une fois inscrit, naviguez jusqu'à la section des clés API.
Créez une nouvelle clé API.
Copiez la clé API en toute sécurité car elle ne sera pas affichée à nouveau.

2.2 Clé API Pinecone :

Allez sur le site de Pinecone et créez un compte ou connectez-vous.
Après vous être connecté, accédez à votre tableau de bord, et créez une nouvelle clé API.
Copiez et stockez la clé API en toute sécurité.

2.3 Clé API OpenAI :

Visitez le site d'OpenAI et inscrivez-vous pour un compte ou connectez-vous.
Accédez à la section des clés API dans les paramètres de votre compte et générez une nouvelle clé API.
Copiez en toute sécurité la clé API générée.

2.4 Création du fichier .env :

Maintenant que vous avez obtenu les clés API, créons un fichier .env à la racine de votre répertoire de projet :

YOUR_PINECONE_API_KEY: Votre clé API Pinecone
YOUR_PINECONE_ENVIRONMENT: Votre environnement Pinecone (par exemple, 'us-west1-gcp')
YOUR_COHERE_API_KEY: Votre clé API Cohere
YOUR_OPENAI_API_KEY: Votre clé API OpenAI

Enregistrez le fichier .env après avoir entré les détails. Important : Gardez vos clés API confidentielles. Ne partagez jamais votre fichier .env ou n'exposez vos clés API dans votre code ou dépôts publics.

Étape 3: Configurer la structure du projet

Maintenant que notre environnement est prêt et que nous avons sécurisé nos clés API, il est temps de configurer la structure du projet. Une structure de répertoire propre et organisée est cruciale pour la maintenabilité et l'évolutivité de votre projet.

3.1 Structure des répertoires

Notre projet sera constitué des fichiers suivants :

main.py : C'est le fichier principal qui exécutera l'application Streamlit.
helpers.py : Ce fichier contient des fonctions d'assistance et la logique principale de notre application.
.env : Ce fichier stocke nos variables d'environnement, y compris les clés API.

3.2 Pourquoi deux fichiers Python ?

Vous vous demandez peut-être pourquoi nous devons séparer notre code en deux fichiers. Voici quelques raisons clés :

Modularité : En gardant la logique principale et les fonctions d'assistance dans un fichier séparé, nous rendons notre code plus modulaire.
Maintenabilité : Des changements peuvent être apportés dans helpers.py sans affecter le code de l'interface utilisateur dans main.py.
Lisibilité : Une séparation claire entre le code de l'interface utilisateur et la logique rend la base de code plus facile à comprendre.
Scalabilité : Une structure modulaire facilite l'ajout de fonctionnalités à mesure que l'application se développe.

Étape 4: Notre fichier helpers.py

Dans ce fichier helpers.py, nous avons une collection de fonctions qui servent diverses fins, y compris l'initialisation des connexions, la génération de données et l'exécution d'opérations liées à la recherche et au classement des documents. Cette approche modulaire rend notre code plus propre, plus facile à comprendre et à maintenir.

4.1 Importation des bibliothèques et initialisation

Ici, nous commençons par importer les bibliothèques nécessaires dont dépendent nos fonctions d'assistance. Nous utilisons Faker pour générer des données factices, ce qui est incroyablement utile pour simuler des données du monde réel sans utiliser d'informations personnelles réelles.

4.2 Initialisation de Pinecone

Cette fonction configure notre connexion à Pinecone, garantissant que notre index Pinecone est prêt à être utilisé pour l'insertion et la requête de données.

4.3 Génération de CV synthétique

Cette fonction génère un CV synthétique avec divers champs remplis avec des données aléatoires, mais plausibles, cruciales pour tester notre application.

4.4 Création d'un jeu de données

Cette fonction génère un jeu de données de CV synthétiques pour simuler un scénario réel où vous avez une collection de CV à traiter.

4.5 Intégration de documents

Cette fonction convertit nos données textuelles en vecteurs numériques, les entrant dans divers modèles d'apprentissage automatique pour traitement.

4.6 Insertion de données dans Pinecone

Cette fonction insère notre jeu de données dans l'index Pinecone, garantissant que notre index est peuplé des données nécessaires pour les requêtes.

4.7 Récupération de documents depuis Pinecone

Dans cette fonction, nous interrogeons l'index Pinecone pour récupérer les documents les plus pertinents pour une requête donnée.

4.8 Comparaison des résultats de recherche et de rerank

Cette fonction compare les résultats d'une recherche vectorielle dans Pinecone avec les résultats après l'application de la réorganisation de Cohere, fournissant des informations précieuses sur les améliorations de classement.

4.9 Évaluation des CV

Cette fonction évalue les CV en fonction d'une requête de poste donnée, en utilisant les modèles linguistiques de Cohere pour automatiser le processus d'évaluation.

Étape 5: Notre main.py

Cette section se concentre sur le flux principal de l'application, les entrées des utilisateurs et la connexion de diverses API pour traiter les requêtes.

Étape 6: Exécution de votre application Streamlit

6.1 Configuration des clés API

Avant que l'application puisse rechercher et réorganiser les CV, saisissez vos clés API respectives dans les champs désignés dans le panneau de gauche.

6.2 Faire une requête

Entrez votre requête de recherche et spécifiez combien de CV vous souhaitez récupérer et réorganiser. Appuyez sur le bouton Recherche pour exécuter votre requête.

6.3 Rencontrer des erreurs

Si vous voyez une erreur "ForbiddenException", cela peut être dû à des clés API non correspondantes ou à un dépassement du nombre autorisé de requêtes. Il vous suffit de réessayer en cliquant à nouveau sur "Recherche".

6.4 Voir les résultats :

Après avoir exécuté une recherche, l'application présente une liste affinée de candidats potentiels. Cette liste démontre à la fois des résultats originaux et réorganisés basés sur leur pertinence pour votre requête.

Comparer et contraster ces listes permet une meilleure prise de décision.

Voir le prototype fonctionnel ! Vous avez réussi à naviguer à travers la configuration et l'exécution de votre application Streamlit. Merci d'avoir suivi ce tutoriel. J'espère que vous l'avez trouvé informatif et utile. Bon codage !