Scraping web n8n — basé sur le diff, webhook-first
Pointez DiffHook vers les pages à scraper, décrivez ce qu'il faut extraire avec un sélecteur CSS, et n8n reçoit le diff HTML à chaque mouvement — déjà mis en cache, déjà dédupliqué, déjà signé.
Le scraper n8n habituel, c'est un déclencheur Schedule + HTTP Request + HTML Extract + un peu de code dans un node Code pour comparer à un datastore. Ça marche, mais ça scrape à chaque tick même si rien n'a bougé, et la logique « est-ce différent de la dernière fois ? » finit par réinventer une petite base de données à l'intérieur de n8n. DiffHook déplace le fetch, le parsing HTML et le diff hors de n8n : le workflow ne s'exécute qu'une fois par vrai changement — rien de plus.
Le hub n8n + DiffHook complet
Toutes les recettes, templates et tarifs n8n au même endroit.
Workflow
Scraper, differ, livrer à n8n en 5 étapes
Cinq réglages, aucun node Code, aucune plomberie de stockage. Tout est déclaratif.
Définir ce qu'il faut scraper
Choisissez l'URL cible et le sélecteur CSS qui isole le bloc qui vous intéresse — une fiche produit, une grille tarifaire, une ligne de changelog. DiffHook rend la page et ne garde que le HTML correspondant.
Choisir ce qui compte comme changement
Diff en texte seul pour ignorer les retouches de style, ou diff HTML complet pour attraper chaque attribut. Activez include_html: true quand vous voulez que n8n voie le markup brut en plus du texte extrait.
Créer le moniteur
Un POST unique sur /v1/monitors avec l'URL, le sélecteur, l'intervalle et une livraison webhook pointant vers votre workflow n8n. Pas de cron, pas de stockage, pas de détection de doublons — DiffHook s'occupe de tout.
Recevoir le diff dans n8n
Le déclencheur Webhook de n8n se lance avec un corps JSON signé contenant previous_html, current_html et le texte extrait. Vérifiez le HMAC dans un node Crypto, puis passez aux étapes suivantes.
Parser, enrichir, router
Utilisez les nodes HTML Extract ou Code de n8n pour extraire des champs structurés du diff, enrichissez avec un node IA si besoin et envoyez le résultat vers Slack, Airtable, Notion ou une base de données.
Exemple d'API
Scraper et differ en une seule requête
Définition de moniteur déclarative — include_html expose le markup brut pour que n8n puisse le parser plus loin dans le pipeline.
POST https://api.diffhook.com/v1/monitors
Authorization: Bearer $DIFFHOOK_API_KEY
Content-Type: application/json
{
"type": "html_css",
"url": "https://competitor.example.com/products",
"css_selector": "main .product-card",
"include_html": true,
"interval_seconds": 900,
"deliveries": [
{
"type": "webhook",
"url": "https://n8n.yourdomain.com/webhook/scrape-products"
}
]
}Workflow importable
Un workflow de scraping n8n prêt à l'emploi
Le template parse le diff, extrait les fiches produit avec HTML Extract, et expédie les lignes structurées vers un Google Sheet. Remplacez simplement le node de destination par le vôtre.
FAQ
Scraping web n8n — questions fréquentes
Pourquoi déporter le scraping de n8n vers DiffHook ?
DiffHook peut-il scraper des pages rendues en JavaScript ?
Comment obtenir des données structurées, pas juste du HTML brut ?
Le scraper respecte-t-il robots.txt et les limites de débit ?
Que se passe-t-il si le site ajoute un CAPTCHA ou bloque le scraper ?
Workflows associés
Aussi parfait avec DiffHook
Webhook n8n
Utilisez la même logique de livraison webhook sans la partie scraping HTML — du pur changement-vers-déclencheur.
n8n + Playwright
Scrapez les SPA rendues côté client avec le moteur Playwright de DiffHook et poussez le HTML post-render dans n8n.
n8n + Puppeteer
Même scraping de SPA, saveur Chromium-Puppeteer — prenez le moteur qui colle le mieux au site cible.
Scraping web Zapier
Même pattern vers des Catch Hooks Zapier — sans Code by Zapier.
Scraping web Make.com
Scrapez et diffez dans un module webhook Make.com — forme de moniteur identique, destination différente.
Remplacer un script de scraping
Vous migrez depuis un scraper Python/Node ? Voyez comment le moniteur géré se compare point par point.
Arrêtez de scraper au cron. Scrapez au changement.
Offre gratuite, checks toutes les 60 secondes, payloads signés HMAC, moteurs Playwright et Puppeteer inclus. Sans carte, sans engagement.