seo.bastardo Forum Corso Online ScrapeBox Rispondi a: ScrapeBox

#1990
decaptcher
decaptcher
Partecipante
  • Messaggi totali: 49

Ciao @valeb,

non so se Scrapebox è lo strumento adeguato attualmente per completare questa attività, ma se hai bisogno e ci racconti in maniera più dettagliata cosa hai in mente magari troviamo un’alternativa. Nel frattempo però condivido una soluzione facile e alcune informazioni che possono essere utili ad altri partecipanti.

SCRAPING DI NUMERI TELEFONICI: IL PROBLEMA

Il dilemma principale dei numeri di telefono è che per estrarli hai bisogno di usare espressioni regolari.

Purtroppo Google non supporta in questo momento ricerche cosi avanzate per diversi motivi (il video è in inglese, il riassunto è “costerebbe troppo farlo in termini di risorse, non rompete”).

Inoltre mi sembra strano che non esista ancora ma non ho trovato nessun plugin per Scrapebox che consenta di specificare una espressione regolare da cercare all’interno delle pagine web scaricate per estrarre informazioni customizzate (non mi sorprenderebbe che sia creato in un futuro prossimo).

Non è un problema dal momento che esistono centinaia di metodi diversi per raggiungere il tuo obiettivo.

Per evitare di entrare nel mondo della programmazione, posso condividere uno strumento che ho provato pochi minuti fa al volo:

Phone and Fax Spider

PHONE AND FAX SPIDER: COME FUNZIONA RIASSUNTO IN 8 PASSI

1)

Dopo averlo installato cominci una nuova estrazione

Phone and Fax Spider: inizio estrazione

2)

Scegli il metodo di scraping. Io ho utilizzato Search Engines, ma ti consiglio di usare Scrapebox per estrarre la lista delle URL e usare il metodo URLs from file

Se scegli Search Engines devi specificare le parole chiave. Se l’opzione selezionata è URLs from file dovresti configurare lo Spidering Depth (livello di profondità di crawling).

Phone and Fax Spider: metodo di scraping

3)

Solo se hai selezionato Search Engines, devi anche scegliere il paese e la lista dei motori di ricerca da usare.

Phone and Fax Spider: lista motori di ricerca

4)

Solo se hai selezionato Search Engines devi flaggare l’opzione Follow External URLs

Phone and Fax Spider: seguire link in uscita

5)

Opzione molto interessante, nel tab Tag puoi aggiungere parole chiave che l’applicazione può utilizzare come segnali per estrarre numeri telefonici. Di default sono configurate solo parole in inglese quindi aggiungerei qualcuna in italiano.

Phone and Fax Spider: tag e parole chiave

6)

Se usi l’opzione Search Engines puoi abassare la quantità di thread eseguiti in parallelo, altrimenti lascia il default di 20.

Phone and Fax Spider: quantità di thread

7)

Molto importante, ricordati di configurare uno dei tuoi proxy privati, soprattutto se usi l’opzione Search Engines.

Phone and Fax Spider: configurazione proxy

8)

A posto, fallo partire e voilà, ecco il risultato finale!

Phone and Fax Spider: risultato finale estrazione

INFORMAZIONI EXTRA

Le espressioni regolari sono il Santo Graal dei programmatori (Ok, sto esagerando :D, ma non a caso xkcd ci ha dedicato un fumetto) ed è una buona idea imparare le basi. Di espressioni regolari per scovare numeri di telefono ne esistono centinaia e si possono trovare a un clic di distanza.

Esiste uno strumento online molto utile (soprattutto per chi usa sistemi di Web Analytics) per provare al volo espressioni regolari: RegExr.

Ogni buon SEO deve conoscere gli operatori avanzati di Google. La lista più completa credo sia questa, ma c’è anche una risorsa in italiano con meno contenuti (alcune informazioni sono vecchie).

Ma non è finita, esiste l’enorme Google Hacking Database, un ripostiglio di frasi di ricerca per trovare le più svariate informazioni (anche sensibili) con Google. Quel sito è il miglior compagno di Scrapebox.

Per i più assetati di informazioni allego una copia dei libri Google Hacks, Google Hackers Guide e Google Hacking for Penetration Testers Vol. 2 (purtroppo gli ho solo in inglese): DOWNLOAD

Divertitevi!