A Deep Web é a internet que não se consegue ver numa busca normal e com os motores de busca/sites regulares, são bilhões de sites não indexados pelos utilizadores. Um mundo totalmente desconhecido e invisível para a maioria das pessoas.
Estima-se que a Deep Web, ou Darknet como é chamada por alguns, seja 90% do total de informação existente em toda a internet e que a web surface os restantes 10% do total que é a web.
Table 1. Baseline Surface Web Size Assumptions
Total No. of Documents | Content Size (GBs) (HTML basis) |
1,000,000,000 | 18,700 |
Milhares de páginas com todo tipo de conteúdo, desde simples blogs que os autores preferem o anonimato (páginas com bom conteúdo diga-se de passagem), a sites com conteúdos extremamente desagradáveis e ilegais.
Alguns dizem que a Deep Web é o "inferno da internet", outros chamam-na "a real internet", a verdade é que existem lá coisas, que só de se ver ,a pessoa já estaria cometendo uma série de crimes.
Há muitos rumores sobre o lado negro da web, pessoas que acessaram a Deep Web sem o devido cuidado e se arrependeram. Toneladas de vírus, e centenas de hackers, crackers, e lammers abitam a internet invisível. Tráfico de drogas, compra e venda de produtos roubados, venda de cartões clonados, fotos altamente proibidas, fóruns de assassinatos, todo o tipo de ensinamentos bons e maus, todo o tipo de segredos das coisas, dados pessoas e todo tipo de informação sobre qualquer pessoa em tempo real, acesso a todo o tipo de informações secretas e confidenciais e mais uma centena de outras coisas que a maior parte das pessoas não vão querer saber.
Terabytes de dados e documentos praticamente intocados pelos olhos dos internautas. Enfim, tudo o que muitas vezes já tentou procurar no google e infelizmente é sensurado e não temos acesso, uma série de coisas que não vemos na web comum. A Deep Web pode ser definida por camadas, sendo que a mais profunda poucos conhecem.
Alguns dizem que a Deep Web é o "inferno da internet", outros chamam-na "a real internet", a verdade é que existem lá coisas, que só de se ver ,a pessoa já estaria cometendo uma série de crimes.
Há muitos rumores sobre o lado negro da web, pessoas que acessaram a Deep Web sem o devido cuidado e se arrependeram. Toneladas de vírus, e centenas de hackers, crackers, e lammers abitam a internet invisível. Tráfico de drogas, compra e venda de produtos roubados, venda de cartões clonados, fotos altamente proibidas, fóruns de assassinatos, todo o tipo de ensinamentos bons e maus, todo o tipo de segredos das coisas, dados pessoas e todo tipo de informação sobre qualquer pessoa em tempo real, acesso a todo o tipo de informações secretas e confidenciais e mais uma centena de outras coisas que a maior parte das pessoas não vão querer saber.
Terabytes de dados e documentos praticamente intocados pelos olhos dos internautas. Enfim, tudo o que muitas vezes já tentou procurar no google e infelizmente é sensurado e não temos acesso, uma série de coisas que não vemos na web comum. A Deep Web pode ser definida por camadas, sendo que a mais profunda poucos conhecem.
Dizem que a Deep Web é constantemente monitorada por órgãos de segurança como os serviços secretos de vários países e a Interpol. O que não se deve duvidar, tendo em conta alguns conteúdos disponíveis.
De certo e obviamente a curiosidade em torno da deep web é enorme quando se tem conhecimento do iceberg por detrás da internet que conhecemos, mas a realidade é que aceder a alguns conteúdos pode ser extremamente perigoso.
De certo e obviamente a curiosidade em torno da deep web é enorme quando se tem conhecimento do iceberg por detrás da internet que conhecemos, mas a realidade é que aceder a alguns conteúdos pode ser extremamente perigoso.
Assista o vídeo para saber tudo e ouvir esclarecimentos de especialistas no assunto...
Um estudo feito pela Universidade da Califórnia no ano de 2001, estimou que toda a Internet apresentada pelos mecanismos de busca corresponde a bem menos de 1% do tamanho real. A conclusão é que a "internet invisível" é entre 400 e 550 vezes maior do que estes mecanismos nos fazem crer.
A falta de indexação de todo este conteúdo nos motores de busca populares ocorre por inúmeras razões:
- Determinação do dono do conteúdo: existem algumas 'metatags' (tipo de instrução HTML) que podem ser usadas no cabeçalho de um site para instruir os mecanismos de busca a não indexar seu conteúdo, tornando-os, desta forma, inacessíveis ao grande público.
- Violação de algum termo de indexação: os mecanismos de busca podem deixar de indexar um site se o mesmo infringir algumas de suas regras. Por exemplo, um sitemap1 mal feito.
- Dificuldade de acesso ao conteúdo dinâmico: A maior parte das informações da Web estão enterradas muito abaixo das páginas geradas de maneira dinâmica. Motores de busca tradicionais criam seus índices rastreando páginas de "superfície". Para serem descobertas, as páginas devem ser estáticas e ligadas a outras páginas. Motores de busca tradicionais não conseguem "ver" ou recuperar este conteúdo já que, tecnicamente, não existem até que sejam criados dinamicamente conforme o resultado de uma pesquisa específica. Ou seja, indexadores de mecanismo tradicionais não podem sondar abaixo da superfície.
- Efeito "publicidade": Com o intuito de "melhorar" a exibição de publicidade, os desenvolvedores dos motores de busca mais populares têm investido pesadamente na personalização dos resultados. Para tanto, são usados diversos artifícios: desde simples cookies de sessão até associação com serviços de e-mail e redes sociais que, literalmente, lêem suas mensagens em busca de palavras que possam ser relacionadas a propaganda personalizada.
A ideia é tentar, a todo custo, identificar seus hábitos de uso para poder exibir a publicidade que melhor se encaixa em seu perfil pessoal.
Para se ter uma ideia de como estão as coisas hoje em dia, duas pessoas distintas que fazem uso assíduo de redes sociais, costumam fazer determinados tipos de pesquisa com frequência, nunca apagam cookies do navegador e, principalmente, permanecem logadas com nome de usuário e senha a estes mecanismos e seus respectivos servidores de e-mail, certamente não receberão o mesmo resultado de pesquisa para um termo qualquer que for digitado. Ou seja, o mecanismo de busca não estará exibindo, como inicialmente você poderia imaginar, todos os resultados para seu termo de busca, mas sim os resultados que ele "entende que sejam os melhores para você"! Isso faz com que boa parte dos resultados para sua pesquisa permaneçam inacessíveis.
- Conteúdo "Proibido": Muitos sites são automaticamente ignorados ou 'desindexados' pelos mecanismos por apresentarem conteúdo ofensivo ou potencialmente perigoso. Nesta categoria, encaixam-se redes criminosas de todos os tipos como sites de terroristas, de nazistas, de pedófilos e de incentivo a violência por discriminação. Sites de hackers, crackers e de compartilhamento de malwares de todos os tipos também encontram-se abaixo da superfície da internet visível. Sites com conteúdo hediondo, como muitos sites nazistas, de sociedades satânicas e de diversos tipos de bizarrices como zoofilia, necrofilia e snuff também fazem parte do conteúdo "inacessível".
Total "Quality" Potential, Deep vs. Surface Web
Search Type | Total Docs (million) | Quality Docs (million) |
Surface Web | ||
Single Site Search | 160 | 7 |
Metasite Search | 840 | 38 |
TOTAL SURFACE POSSIBLE | 1,000 | 45 |
Deep Web | ||
Mega Deep Search | 110,000 | 14,850 |
Single Site Search | 688:1 | 2,063:1 |
Metasite Search | 131:1 | 393:1 |
TOTAL POSSIBLE | 655:1 | 2,094:1 |
Outras fontes interessantes
Deixando um pouco de lado o conteúdo "sombrio", apresentamos algumas fontes interessantes que podem levá-lo além do que o Google é capaz de lhe mostrar. Com estes mecanismos, a "água vai até a cintura" :-)
1. DeepPeep: Serviço idealizado para gerar resultados não captados por motores de busca comuns. Ainda em fase beta, portanto, pode apresentar problemas.
2. MetaCrawler: Exibe, em sua tela de resultados, uma pesquisa conjunta em vários mecanismos de busca tradicionais. A vantagem é que você não fica limitado aos resultados de pesquisa personalizados que mencionamos anteriormente, além, é claro, de receber muito mais informação por termo digitado.
3. Oth.net: Motor de busca especializado em procurar por arquivos em servidores FTP do mundo todo. Tem, literalmente, de tudo.
4. Duck Duck Go: Para quem leva teoria da conspiração a sério e torce o nariz para utilizar serviços de empresas como Google, Yahoo e Microsoft, o Duck Duck Go é uma boa alternativa para ser usado como mecanismo de busca principal.
5. InfoMine: Motor de busca desenvolvido por um grupo de bibliotecas Norte Americanas, dentre elas a da Universidade da California e da Universidade de Detroit. Lá você encontra muita informação interessante, como periódicos eletrônicos, livros, boletins, listas de discussão, catálogos de bibliotecas on-line, artigos, diretórios de cientistas e pesquisadores, etc.
6. The Virtual Library: É considerado um dos mais antigos catálogos da Web. Foi desenvolvido por alunos de Tim Berners-Lee, o próprio criador da Web. A caixa de pesquisa funciona como um motor de busca tradicional. Divirta-se!
7. Complete Planet: Um dos melhores buscadores não-populares. Nele, você encontra uma variedade realmente grande de assuntos que vão desde comidas e bebidas até assuntos militares.
8. Infoplease: Um buscador para enciclopédias, almanaques, atlas e biografias em geral
A Deep Web é realmente um assunto muito vasto. Infelizmente, é necessário bastante conhecimento em outras línguas para poder fazer uso de todo seu potencial e, para mantermos a matéria em um nível mínimo de legalidade, não pudemos abordar alguns tópicos realmente polêmicos e extremamente difundidos nas profundezas da Internet. Mas esperamos que, com as informações passadas aqui, você possa aumentar exponencialmente sua cultura e conhecimento sobre este mundo louco em que vivemos. E tudo está lá, nas profundezas... É só procurar!
Figure 8. 10-yr Growth Trends in Cumulative Original Information Content (log scale)
Fonte:
P@r Odnanref Osodrac
Sem comentários:
Enviar um comentário
Qualquer mensagem inapropriada não será considerada.