Crawler

Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.

Indice

64 relazioni: A Farewell to Kings Tour, Alexa Internet, Alltheweb, Apache Tika, Archiviazione web, Bot (informatica), BTJunkie, Cloaking, Cuil, DuckDuckGo, Email spam, Epidemia di SARS del 2002-2004, Geoff Whitehorn, Google, Google bombing, Googlebot, Grabber, HTTPS, Indicizzazione (motori di ricerca), Ingegneria sociale, International Internet Preservation Consortium, Internet Archive, Internet Information Services, Keyword stuffing, Lucene, Meta tag, Microformat, Motore di ricerca, Motore di ricerca umano, Nofollow, Nutch, Open Archives Initiative Protocol for Metadata Harvesting, Ordini di grandezza (numeri), Ottimizzazione per i motori di ricerca, Pagina dei risultati del motore di ricerca, Perplexity.ai, Protocollo di esclusione robot, Qwant, ReCAPTCHA, Reindirizzamento di URL, Ricerca in ampiezza, Robot (disambigua), Scrapy, Search.ch, Server web, Sitemap, Spambot, Spamdexing, Spider (disambigua), Storia di Google, ... Espandi índice (14 più) » « Restringersi indice

A Farewell to Kings Tour

A Farewell to Kings Tour è il quinto tour ufficiale della band canadese Rush, nella sua parte terminale prende il nome di Archives Tour.

Vedere Crawler e A Farewell to Kings Tour

Alexa Internet

La Alexa Internet Inc. è stata un'azienda statunitense sussidiaria di Amazon.com che si occupava di statistiche sul traffico di Internet. Alexa era anche un motore di ricerca con un servizio di web directory.

Vedere Crawler e Alexa Internet

Alltheweb

Alltheweb (scritto anche AlltheWeb) è stato un motore di ricerca nato nel 1999 ed attivo tra diverse vicissitudini fino al marzo 2011.

Vedere Crawler e Alltheweb

Apache Tika

Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation. È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file.

Vedere Crawler e Apache Tika

Archiviazione web

Larchiviazione web è il processo di raccolta di porzioni del World Wide Web al fine di preservarle in un archivio a uso di futuri ricercatori, storici e pubblico generico.

Vedere Crawler e Archiviazione web

Bot (informatica)

Il bot (abbreviazione di robot) in terminologia informatica in generale è un programma che accede alla rete attraverso lo stesso tipo di canali utilizzati dagli utenti (per esempio che accede alle pagine Web, invia messaggi in una chat, si muove nei videogiochi, e così via).

Vedere Crawler e Bot (informatica)

BTJunkie

BTJunkie è stato un motore di ricerca avanzato per file torrent. Usava un crawler (simile a Google) per setacciare altri siti torrent in cerca del torrent desiderato per poi immagazzinarlo nel proprio database.

Vedere Crawler e BTJunkie

Cloaking

Il cloaking è una tecnica informatica mediante la quale, grazie a particolari script, è possibile mostrare ai motori di ricerca un contenuto differente da quello che realmente il sito internet propone agli utenti, consentendo così al sito stesso di ottenere migliori posizionamenti all'interno delle SERP.

Vedere Crawler e Cloaking

Cuil

Cuil (pronuncia come cool, dal gaelico per conoscenza e nocciola) è stato un motore di ricerca lanciato il 28 luglio 2008. L'obiettivo dei suoi sviluppatori è stato quello di superare i motori di ricerca esistenti con risultati più completi e pertinenti.

Vedere Crawler e Cuil

DuckDuckGo

DuckDuckGo (abbreviato in DDG) è un motore di ricerca la cui omonima azienda ha sede a Paoli in Pennsylvania negli Stati Uniti che utilizza le informazioni di crowdsourcing provenienti da altri siti, ad esempio Wikipedia, con lo scopo di aumentare i risultati tradizionali e di migliorare la pertinenza della ricerca.

Vedere Crawler e DuckDuckGo

Email spam

Email spam è una categoria di spam che sfrutta le email per l'invio di messaggi indesiderati, cioè messaggi che non sono stati richiesti dal destinatario.

Vedere Crawler e Email spam

Epidemia di SARS del 2002-2004

Lepidemia di SARS del 2002-2004, comunemente indicata come epidemia di SARS, è stata un'epidemia della malattia respiratoria SARS causata dal coronavirus SARS-CoV, probabilmente iniziata nel novembre del 2002 in Cina, e successivamente diffusasi in 26 nazioni del mondo, contagiando più di 8000 persone.

Vedere Crawler e Epidemia di SARS del 2002-2004

Geoff Whitehorn

Nell'agosto 1973, Whitehorn è entrato a far parte della band If, nella loro definitiva line-up, ed ha contribuito ai loro due ultimi album, "Not Just Another Bunch of Pretty Faces" (1974) e "Tea Break Over, Back On Your 'Eads" (1975).

Vedere Crawler e Geoff Whitehorn

Google

Google Search (pronuncia italiana; in inglese) è un motore di ricerca per Internet sviluppato da Google LLC. Oltre a catalogare e indicizzare le risorse del World Wide Web, Google Search si occupa di foto, newsgroup, notizie, mappe (Google Maps), e-mail (Gmail), shopping, traduzioni, video e altri programmi creati da Google.

Vedere Crawler e Google

Google bombing

Il google bombing (ovvero «bombardamento Google») è la tecnica usata per sfruttare una caratteristica dell'algoritmo PageRank usato dal motore di ricerca Google in base alla quale viene attribuita importanza ad una pagina in rapporto a quanti link verso essa si trovano all'interno di altri siti web; in sostanza, più persone parlano di una data pagina attraverso l'inserimento di un suo link entro altri siti, più importante diventa la pagina stessa.

Vedere Crawler e Google bombing

Googlebot

Googlebot è lo spider web (italianizzato in "agente mobile") di Google. Ha la funzione di cercare e indicizzare i nuovi siti e di aggiornare gli esistenti (cambiando titolo o testo).

Vedere Crawler e Googlebot

Grabber

Un grabber è un crawler con funzioni avanzate. Il suo scopo è quello di raccogliere informazioni dai siti web, per renderle disponibili in un archivio od un'interfaccia utente.

Vedere Crawler e Grabber

HTTPS

In telecomunicazioni e informatica lHyperText Transfer Protocol over Secure Socket Layer (HTTPS), (anche noto come HTTP over TLS, HTTP over SSL e HTTP Secure) è un protocollo per la comunicazione sicura attraverso una rete di computer utilizzato su Internet.

Vedere Crawler e HTTPS

Indicizzazione (motori di ricerca)

Per indicizzazione si intende l'inserimento di un sito web o un blog nel database di un motore di ricerca. L'indicizzazione di un sito internet, in altre parole, è il modo in cui il sito viene acquisito e interpretato dai motori di ricerca e quindi compare nelle loro pagine di risposta alle interrogazioni degli utenti web.

Vedere Crawler e Indicizzazione (motori di ricerca)

Ingegneria sociale

Lingegneria sociale (dall'inglese social engineering), nel campo della sicurezza informatica, consiste nell'utilizzo, da parte dei cracker, di metodi che hanno come scopo quello di ottenere informazioni personali tramite l'inganno.

Vedere Crawler e Ingegneria sociale

International Internet Preservation Consortium

LInternational Internet Preservation Consortium (Consorzio Internazionale per la Preservazione di Internet) è un'organizzazione internazionale di biblioteche e altre istituzioni nate per coordinare gli sforzi per preservare i contenuti Internet per il futuro.

Vedere Crawler e International Internet Preservation Consortium

Internet Archive

Internet Archive è una biblioteca digitale non profit che ha lo scopo dichiarato di consentire un "accesso universale alla conoscenza". Essa offre uno spazio digitale permanente per l'accesso a vari tipi di risorse: per esempio, siti web, audio, video e libri.

Vedere Crawler e Internet Archive

Internet Information Services

Microsoft Internet Information Services (spesso abbreviato in IIS) è un complesso di servizi server Internet per sistemi operativi Microsoft Windows.

Vedere Crawler e Internet Information Services

Keyword stuffing

Keyword stuffing (in lingua italiana: ripieno o imbottitura di parole chiave) è un termine relativo all'ambito web e seo che indica l'utilizzo di tecniche considerate poco corrette al fine di aumentare la propria visibilità sui motori di ricerca.

Vedere Crawler e Keyword stuffing

Lucene

Apache Lucene è una API gratuita ed open source per il reperimento di informazioni inizialmente implementata in Java da Doug Cutting. È supportata dall'Apache Software Foundation ed è resa disponibile con l'Apache License.

Vedere Crawler e Lucene

Meta tag

I meta tag, o tag meta, sono metadati utilizzabili nell'HTML per veicolare informazioni aggiuntive correlate alla pagina web che ne fa uso. Sono in genere analizzati e utilizzati per mezzo di sistemi automatici (come i browser o i motori di ricerca), che li possono elaborare per fornire servizi o funzionalità specifiche.

Vedere Crawler e Meta tag

Microformat

Un microformat (a volte abbreviato con μF o uF) è una parte di mark up che consente espressioni semantiche in una pagina web HTML (o XHTML).

Vedere Crawler e Microformat

Motore di ricerca

Nell'ambito delle tecnologie di Internet, un motore di ricerca è un sistema automatico che analizza un insieme di dati (spesso da esso stesso raccolti) e restituisce un indice dei contenuti disponibili.

Vedere Crawler e Motore di ricerca

Motore di ricerca umano

Un motore di ricerca umano è un motore di ricerca che usa la partecipazione umana per filtrare i risultati della ricerca e assistere gli utenti ad avere maggior chiarezza nei risultati della ricerca, ma anche potenzialmente viziati dalla soggettività di singole scelte.

Vedere Crawler e Motore di ricerca umano

Nofollow

Nofollow è un valore assegnabile all'attributo rel dell'elemento HTML a per indicare formalmente ai motori di ricerca che un collegamento ipertestuale non dovrebbe essere seguito e indicizzato.

Vedere Crawler e Nofollow

Nutch

Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto.

Vedere Crawler e Nutch

Open Archives Initiative Protocol for Metadata Harvesting

OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting o Protocollo per il raccoglimento dei metadati dell'Open Archive Initiative) è un protocollo sviluppato dall'Open Archives Initiative come infrastruttura di comunicazione per l'Open access.

Vedere Crawler e Open Archives Initiative Protocol for Metadata Harvesting

Ordini di grandezza (numeri)

Questa lista confronta i vari ordini di grandezza dei numeri positivi includendo i numeri dei gruppi adimensionali e le probabilità.

Vedere Crawler e Ordini di grandezza (numeri)

Ottimizzazione per i motori di ricerca

Con il termine ottimizzazione per i motori di ricerca (in acronimo SEO) si intendono tutte quelle attività volte a migliorare la scansione, l'indicizzazione ed il posizionamento di un'informazione o contenuto presente in un sito web, da parte dei crawler (detti anche bot) dei motori di ricerca (quali ad es.

Vedere Crawler e Ottimizzazione per i motori di ricerca

Pagina dei risultati del motore di ricerca

La pagina dei risultati del motore di ricerca, in sigla SERP, dall'inglese search engine results page, è la schermata dei risultati prodotta dal motore di ricerca in risposta a una richiesta dell'utente.

Vedere Crawler e Pagina dei risultati del motore di ricerca

Perplexity.ai

Perplexity AI è un motore di ricerca basato su chat bot con intelligenza artificiale generativa che risponde alle query utilizzando testo predittivo in linguaggio naturale.

Vedere Crawler e Perplexity.ai

Protocollo di esclusione robot

Il protocollo di esclusione robot (in inglese Robots Exclusion Standard) indica, nel gergo di internet e più in generale del web, le regole indicate dai gestori di un sito web ai crawler che lo visitano, chiedendo di applicare restrizioni di analisi sulle pagine del sito.

Vedere Crawler e Protocollo di esclusione robot

Qwant

Qwant è un motore di ricerca europeo fornito dalla omonima società francese; dichiara di non profilare gli utenti né di usare bolle di filtraggio per presentare i risultati della ricerca.

Vedere Crawler e Qwant

ReCAPTCHA

reCAPTCHA Inc. è un sistema CAPTCHA ideato nel 2007 da un gruppo di ricerca della Carnegie Mellon University e rilevato da Google nel 2009. Originariamente concepito per semplificare la digitalizzazione di testi e manoscritti, esso consente ai web host di distinguere gli accessi ai propri siti web effettuati da parte di esseri umani da quelli effettuati tramite procedure automatizzate.

Vedere Crawler e ReCAPTCHA

Reindirizzamento di URL

Il reindirizzamento di URL (o URL forwarding) nella tecnologia internet è un meccanismo che permette di accedere alla stessa pagina web da più URL differenti.

Vedere Crawler e Reindirizzamento di URL

Ricerca in ampiezza

Nella teoria dei grafi, la ricerca in ampiezza (in acronimo BFS) è un algoritmo di ricerca per grafi che partendo da un vertice (o nodo) detto sorgente permette di cercare il cammino fino ad un altro nodo scelto e connesso al nodo sorgente.

Vedere Crawler e Ricerca in ampiezza

Robot (disambigua)

*Robot – apparecchiatura artificiale in grado di compiere delle azioni.

Vedere Crawler e Robot (disambigua)

Scrapy

Da non confondersi con Scrapie Scrapy è un framework open source per web-crawling scritto in Python. Originariamente creato per web scraping può essere anche utilizzato per estrarre dati usando delle API oppure come un web-crawler general-purpose.

Vedere Crawler e Scrapy

Search.ch

search.ch è un motore di ricerca e un portale web per la Svizzera.

Vedere Crawler e Search.ch

Server web

In informatica un server web è un software e l'hardware sottostante che, in esecuzione su un server, è in grado di gestire le richieste di trasferimento di pagine web di un client, tipicamente un web browser o un web crawler.

Vedere Crawler e Server web

Sitemap

Una sitemap, o site map, o semplicemente mappa, è una pagina Web che elenca gerarchicamente tutte le pagine di un sito web. Nata per facilitare la navigazione dell'utente all'interno del sito, ha poi avuto una notevole importanza nell'attività di scansione della Rete da parte dei crawler dei motori di ricerca.

Vedere Crawler e Sitemap

Spambot

Uno spambot è un programma sviluppato per la raccolta di una serie di indirizzi e-mail da Internet allo scopo di realizzare liste di indirizzi per la trasmissione di messaggi di posta indesiderata, conosciuti anche come spam.

Vedere Crawler e Spambot

Spamdexing

Con il termine spamdexing si definiscono azioni il cui fine è l'acquisizione di visibilità nei motori di ricerca utilizzando metodologie e/o tecniche ritenute illecite o comunque apertamente in contrasto con i termini d'uso dei motori di ricerca"Word Spy - spamdexing" (definition), March 2003, webpage:.

Vedere Crawler e Spamdexing

Spider (disambigua)

La parola inglese spider, che letteralmente significa ragno, è utilizzata direttamente nella lingua italiana per indicare.

Vedere Crawler e Spider (disambigua)

Storia di Google

La società di Google venne ufficialmente lanciata nel 1998 da Larry Page e Sergey Brin per commercializzare Google Search, che divenne il motore di ricerca web più utilizzato.

Vedere Crawler e Storia di Google

Swoogle

Swoogle è un motore di ricerca per documenti sul web semantico, termini e dati contenuti sul web. Swoogle utilizza un sistema composto da svariati crawler per localizzare documenti in Resource Description Framework, e documenti in HTML che contengono parti in RDF.

Vedere Crawler e Swoogle

Tag semantico

Con il termine tag semantico, in informatica, si identificano gli elementi HTML che descrivono espressamente il proprio significato. L'uso dei tag semantici permette agli sviluppatori di marcare documenti web in modo da strutturare le informazioni secondo uno standard comune; agli user agent di riconoscere i tag utilizzati nei documenti; ai motori di ricerca di indicizzare i contenuti di una pagina web con una maggiore chiarezza e organizzazione.

Vedere Crawler e Tag semantico

User agent

In informatica uno user agent è un'applicazione installata sul computer dell'utente che si connette a un processo server. Esempi di user agent sono i browser web, i lettori multimediali e i programmi client (Mail User Agent) come Outlook, Eudora, Thunderbird, Pine ed Elm.

Vedere Crawler e User agent

Vertical search

Vertical search è un tipo di ricerca che il browser compie in rete dedicata ad un unico tema principale. Il percorso di ricerca e la visualizzazione dei risultati presenta una suddivisione in categorie.

Vedere Crawler e Vertical search

Wayback Machine

La Wayback Machine è un archivio digitale del World Wide Web. È stato lanciato nel 2001 dall'Internet Archive, un'organizzazione no profit con sede a San Francisco.

Vedere Crawler e Wayback Machine

Web directory

Una web directory è un elenco di siti web suddivisi in maniera gerarchica. Una web directory dunque non è né un motore di ricerca né un archiviatore di siti attraverso lo strumento dei tag, ma li raccoglie ed organizza per mezzo di categorie e sottocategorie tematiche.

Vedere Crawler e Web directory

Web scraping

Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software.

Vedere Crawler e Web scraping

WebCite

WebCite è un servizio online di archiviazione di pagine web su richiesta, permettendone la citazione. Una volta archiviate, le pagine web possono essere raggiunte indipendentemente dal fatto che il sito originale sia poi stato modificato o rimosso (dead link).

Vedere Crawler e WebCite

Webometrics

La scienza della Webometrics (detta anche cybermetrics), termine coniato da Tomas C. Almind e Peter Ingwersen nel 1997, indica la scienza che si occupa di misurare il World Wide Web per ottenere la conoscenza circa il numero e i tipi di collegamenti ipertestuali, la struttura del World Wide Web grazie all'utilizzo di modelli.

Vedere Crawler e Webometrics

Windows Live Search

Live Search (formalmente Windows Live Search e in precedenza MSN Search) era il nome di un motore di ricerca per il web, sviluppato da Microsoft per battere la concorrenza di altri avversari come Google e Yahoo!, sostituito poi nel giugno 2009 da Bing.

Vedere Crawler e Windows Live Search

Xat.com

xat.com è un social network basato su un network di chat, con oltre 7 milioni di utenti. Ogni utente può creare una chat da condividere con i propri contatti o inserire sul proprio sito web tramite widget iframe così da permettere ai visitatori del sito di interagire con la chat.

Vedere Crawler e Xat.com

YaCy

YaCy è un motore di ricerca distribuito, basato sul principio del peer-to-peer. Questo programma, sviluppato in Java, è software libero essendo rilasciato con una licenza GPL 2.

Vedere Crawler e YaCy

Yahoo! Search

Yahoo! Search è un motore di ricerca per internet di proprietà di Yahoo!. È uno tra i principali servizi di ricerca sul web per volume di query.

Vedere Crawler e Yahoo! Search

Yahoo! Slurp

Yahoo! Slurp è un crawler sviluppato da Yahoo! ed utilizzato dal motore di ricerca Yahoo! Search. Yahoo! Slurp deriva dal codice originario di Slurp, il crawler per l'indicizzazione del web sviluppato da Inktomi, società acquisita da Yahoo! nel 2001.

Vedere Crawler e Yahoo! Slurp

Conosciuto come Web Crawler, Web crawling, Web robot, Web spider.

, Swoogle, Tag semantico, User agent, Vertical search, Wayback Machine, Web directory, Web scraping, WebCite, Webometrics, Windows Live Search, Xat.com, YaCy, Yahoo! Search, Yahoo! Slurp.

Unionpedia è una mappa concettuale o rete semantica organizzata come un'enciclopedia o un dizionario. Esso fornisce una breve definizione di ogni concetto e le sue relazioni.

Si tratta di una mappa mentale in linea gigante che serve come base per gli schemi concettuali, immagini o sintesi sinaptica. E 'gratuito - liberi, liberi di usare e ogni elemento o documento può essere scaricato. E 'uno strumento, risorsa o di riferimento per lo studio, la ricerca, l'istruzione, la formazione o istruzione che gli insegnanti possono utilizzare, insegnanti, professori, educatori, alunni e studenti; o la scuola per il mondo accademico, a scuola, primaria, secondaria, di mezzo, università, laurea tecnica, college, università, laurea, master o dottorati; per documenti, relazioni, documenti, progetti, idee, documentazione, riassunti, sondaggi o tesi. Ecco la definizione, spiegazione, descrizione, o il significato di ogni significativo su cui avete bisogno di informazioni, e una lista o un elenco di concetti correlati come appare un glossario. Disponibile in italiano, inglese, spagnolo, portoghese, giapponese, cinese, francese, tedesco, polacco, olandese, russo, arabo, hindi, svedese, ucraino, ungherese, catalano, ceco, ebraico, danese, finlandese, indonesiano, norvegese, rumeno, turco, vietnamita, coreano, tailandese, greco, bulgaro, croato, slovacca, lituano, filippina, lettone, estone e sloveno. Altre lingue presto.

Le informazioni si basano su articoli di Wikipedia e altri progetti Wikimedia, e sono disponibili sotto la Licenza Creative Commons Attribuzione-Condividi allo stesso modo.

Unionpedia non è supportata o affiliata alla Wikimedia Foundation.

Google Play, Android e il logo di Google Play sono marchi di Google Inc.

Politica sulla riservatezza

In altre lingue

Crawler

Indice