{"id":4065,"date":"2015-02-12T10:13:12","date_gmt":"2015-02-12T09:13:12","guid":{"rendered":"http:\/\/coralia-wsd.com\/site\/?p=4065"},"modified":"2015-02-12T10:13:12","modified_gmt":"2015-02-12T09:13:12","slug":"un-moteur-de-recherche-pour-explorer-la-face-cachee-du-web","status":"publish","type":"post","link":"http:\/\/www.coralia-wsd.com\/site\/un-moteur-de-recherche-pour-explorer-la-face-cachee-du-web\/","title":{"rendered":"Un moteur de recherche pour explorer la face cach\u00e9e du Web"},"content":{"rendered":"<div class=\"l-submain\"><div class=\"l-submain-h g-html i-cf\"><p>Un laboratoire de recherche de l&rsquo;arm\u00e9e am\u00e9ricaine a mis au point un programme capable de mener des recherches th\u00e9matiques dans des pages Web non index\u00e9es par les moteurs habituels.<\/p>\n<p>La plupart des internautes ne connaissent rien, ou presque, du Web. Seule une partie infime de ses ressources nous sont accessibles, g\u00e9n\u00e9ralement via des moteurs de recherche. \u00abCertains estiment que Google, Microsoft et Yahoo ne nous donnent acc\u00e8s qu&rsquo;\u00e0 5% du contenu du Web\u00bb, explique Chris White, dans une interview accord\u00e9e \u00e0 la cha\u00eene am\u00e9ricaine CBS. Cette partie inconnue du Web est g\u00e9n\u00e9ralement appel\u00e9e le \u00abDeep Web\u00bb, ou le Web profond. Elle est surtout constitu\u00e9e de pages non index\u00e9es par les moteurs de recherche classique ou prot\u00e9g\u00e9es par un logiciel sp\u00e9cifique, comme Tor. Ces pages secr\u00e8tes sont le terrain de jeu de diff\u00e9rents r\u00e9seaux criminels. Elles sont aussi l&rsquo;outil de travail de Chris White. Cet ing\u00e9nieur du DARPA, un laboratoire de recherche de l&rsquo;arm\u00e9e am\u00e9ricaine, a mis au point un programme capable de d\u00e9voiler ce Web cach\u00e9. Il est baptis\u00e9 Memex, une combination de \u00abm\u00e9moire\u00bb et \u00abindex\u00bb.<br \/>\nAnalyser un tr\u00e8s grand nombre de donn\u00e9es<\/p>\n<p>Le projet permet d&rsquo;effectuer des recherches th\u00e9matiques sur ces pages invisibles. Les moteurs de recherche rep\u00e8rent et classent g\u00e9n\u00e9ralement les pages Web en fonction de leur popularit\u00e9, par exemple le nombre de visites ou le nombre de sites qui y font r\u00e9f\u00e9rence au travers de liens. On y acc\u00e8de ensuite par des mots-cl\u00e9s, qui doivent \u00eatre le plus pr\u00e9cis possible afin de trouver la page souhait\u00e9e.<br \/>\nC&rsquo;est cette logique que souhaite renverser Memex. Le programme fonctionne comme une surcouche au-dessus d&rsquo;un moteur de recherche classique. Lorsqu&rsquo;un utilisateur effectue une recherche et clique sur un lien, il extrait une multitude d&rsquo;autres informations en rapport avec son contenu. Memex ne se contente pas de r\u00e9cup\u00e9rer les informations index\u00e9es par Google ou Bing. Il analyse d&rsquo;autres donn\u00e9es du Web non r\u00e9pertori\u00e9es, comme les pages du r\u00e9seau anonyme Tor. Il sait aussi \u00e9tablir des liens entre les pages selon les bandeaux publicitaires qu&rsquo;elles partagent. Les informations peuvent \u00eatre pr\u00e9sent\u00e9es sous diff\u00e9rents formats, par exemple une carte ou une frise chronologique, plut\u00f4t que gr\u00e2ce \u00e0 une simple liste o\u00f9 les r\u00e9sultats les plus populaires sont pr\u00e9sent\u00e9s en premier. \u00abNous voulons que les r\u00e9sultats de recherche s&rsquo;adaptent aux utilisateurs, et non le contraire\u00bb, r\u00e9sume Chris White.<br \/>\nUn test sur les r\u00e9seaux de prostitution<\/p>\n<p>Memex est pour le moment d\u00e9velopp\u00e9 comme un outil pour le d\u00e9partement am\u00e9ricain de D\u00e9fense. Il a d\u00e9j\u00e0 \u00e9t\u00e9 test\u00e9 lors du Super Bowl, afin de surveiller les r\u00e9seaux de prostitution. Memex \u00e9tait capable de rep\u00e9rer de nombreuses pages cach\u00e9es faisant la promotion de services sexuels, puis de r\u00e9cup\u00e9rer des donn\u00e9es permettant d&rsquo;identifier le lieu de leur publication: g\u00e9olocalisation d&rsquo;un appareil, adresse IP, num\u00e9ro de t\u00e9l\u00e9phone ou une adresse mentionn\u00e9e dans la r\u00e9clame. Elles \u00e9taient ensuite compil\u00e9es, recoup\u00e9es puis associ\u00e9es aux photos de femmes figurant sur ces pages. De cette mani\u00e8re, Memex pouvait rep\u00e9rer les mouvements de diff\u00e9rentes prostitu\u00e9es sur une carte, et faciliter le travail de la police. Ce travail a \u00e9t\u00e9 salu\u00e9 par Barack Obama dans le cadre de son rapport sur le Big Data, publi\u00e9 en janvier. \u00abIl s&rsquo;agit d&rsquo;un bel exemple de la mani\u00e8re dont le Big Data peut aider \u00e0 prot\u00e9ger les personnes vuln\u00e9rables\u00bb, a expliqu\u00e9 le pr\u00e9sident des \u00c9tats-Unis.<br \/>\nL&rsquo;ing\u00e9nieur cite d&rsquo;autres exemples o\u00f9 Memex pourrait aider \u00e0 rep\u00e9rer l&rsquo;avanc\u00e9e g\u00e9ographique de donn\u00e9es, par exemple dans le cas de l&rsquo;\u00e9pid\u00e9mie d&rsquo;Ebola. La DARPA pr\u00e9cise tout de m\u00eame que Memex n&rsquo;a pas l&rsquo;intention de r\u00e9cup\u00e9rer des informations qui n&rsquo;ont pas pour but d&rsquo;\u00eatre publiques (par exemple une page Facebook priv\u00e9e) ou de d\u00e9sanonymiser des services anonymes. \u00abLa plupart des personnes qui utilisent Internet le font pour de bonnes raisons\u00bb, affirme Dan Kaufman, du DARPA. \u00abMais il existe aussi des parasites et nous voulons les emp\u00eacher d&rsquo;utiliser Internet contre nous.\u00bb<br \/>\nLe d\u00e9veloppement de Memex aurait co\u00fbt\u00e9 entre 10 et 20 millions de dollars. S&rsquo;il est pour le moment con\u00e7u pour aider les enqu\u00eates de police, le programme pourrait aussi \u00e0 terme aider les recherches des particuliers. Il est n\u00e9anmoins peu probable que sa logique soit adopt\u00e9e par Google ou Bing. Ces entreprises priv\u00e9es ont surtout int\u00e9r\u00eat \u00e0 r\u00e9pertorier des liens tr\u00e8s fr\u00e9quent\u00e9s, et donc \u00e0 fort potentiel de revenus publicitaires.<\/p>\n<\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Un laboratoire de recherche de l&rsquo;arm\u00e9e am\u00e9ricaine a mis au point un programme capable de mener des recherches th\u00e9matiques dans des pages Web non index\u00e9es par les moteurs habituels. La plupart des internautes ne connaissent rien, ou presque, du Web&#8230;.<\/p>\n","protected":false},"author":4,"featured_media":4066,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[150,149,148],"_links":{"self":[{"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/posts\/4065"}],"collection":[{"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/comments?post=4065"}],"version-history":[{"count":1,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/posts\/4065\/revisions"}],"predecessor-version":[{"id":4067,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/posts\/4065\/revisions\/4067"}],"wp:featuredmedia":[{"embeddable":true,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/media\/4066"}],"wp:attachment":[{"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/media?parent=4065"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/categories?post=4065"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.coralia-wsd.com\/site\/wp-json\/wp\/v2\/tags?post=4065"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}