Voici un petit bout de code qui permet d’extraire les liens d’une page HTML en PHP. L’algorithme s’appuie sur un regex dans lequel on indique les empreintes qui délimitent le liens. Reste à boucler sur chacun des liens dans un foreach.
Pour extraire les liens d’une page HTML en utilisant PHP, vous pouvez utiliser la fonction preg_match_all
avec une expression régulière appropriée. Le code suivant illustre comment procéder :
// Le contenu HTML à analyser $htmlContent = '...'; // Remplacez ceci avec le contenu HTML réel // Expression régulière pour détecter les liens $regex = '/<a href="(.*?)"/'; // Recherche des liens dans le contenu HTML preg_match_all($regex, $htmlContent, $matches); // $matches[1] contiendra tous les liens extraits foreach ($matches[1] as $link) { echo "Lien trouvé : $link\n"; }
Description du code :
- Définition du Contenu HTML :
- La variable
$htmlContent
contient le contenu HTML à analyser. Dans un cas d’utilisation réel, cela pourrait être le résultat d’unfile_get_contents
ou d’une autre source de contenu HTML.
- La variable
- Définition de l’Expression Régulière :
- La variable
$regex
contient l’expression régulière pour identifier les liens dans le HTML. Cette expression recherche des balises<a>
avec un attributhref
, capturant l’URL danshref
.
- La variable
- Extraction des Liens :
- La fonction
preg_match_all
est utilisée pour rechercher toutes les correspondances de cette expression régulière dans le contenu HTML. Les résultats sont stockés dans la variable$matches
.
- La fonction
- Parcours des Liens Extraits :
$matches[1]
contient un tableau des URL capturées par la partie(.*?)
de l’expression régulière. Le script parcourt ce tableau avec une boucleforeach
et affiche chaque lien trouvé.
- Affichage des Liens :
- Dans la boucle
foreach
, chaque lien extrait est affiché.
- Dans la boucle
Ce script est un exemple de base pour extraire des liens d’une page HTML. Gardez à l’esprit que l’utilisation d’expressions régulières pour analyser le HTML peut être fragile face à des variations dans la structure du HTML. Pour une analyse plus robuste, il est recommandé d’utiliser des parseurs HTML spécifiques tels que DOMDocument en PHP.