Digimind précise que la définition première est : tous les documents non indexés ou partiellement indexés par les moteurs de recherche.
Cela recouvre donc :
les pages sécurisées
les documents trop volumineux
les pages orphelines
les pages générées dynamiquement
les formats mal reconnus
Les pages sécurisées comprennent toutes les bases de données professionnelles, les sites nécessitant un login / password, un abonnement, et les profils de réseaux sociaux type Facebook accessibles uniquement lorsque vous disposez d'un compte et / ou que vous êtes coopté.
Elles comprennent aussi les pages pour lesquelles le webmaster utilise le fichier robots.txt ou bien encore les commandes de type "no follow".
Les document trop volumineux sont principalement des documents types bureautiques dont la taille en Mo dépasse un certain volume et Google (et les autres moteurs n'indexent donc que partiellement le contenu afin de ne pas surcharger leur index.)
Les pages orphelines sont des pages vers lesquelles aucune autre page accessible par les moteurs de recherche ne fait de lien.
Les pages générées dynamiquement ne sont pas à proprement parler non indexées par les moteurs de recherche (Google en tête). En effet aujourd'hui, ce qu'on appelle pages dynamiques est généralement indexé par Google. En effet tous les CMS, blogs et autres sont ce qu'on appelle dynamiques, c'est à dire que la page résultante est générée et interprétée à la volée et qu'elle n'est pas un fichier statique. Mais toutefois, certaines pages dynamiques ne sont pas accessibles facilement via les moteurs de recherche. En effet, historiquement, Google n'aime pas particulièrement les URL à rallonge comportant un nombre important de paramètres (ce qui suit un point d'interrogation dans une URL) et par ailleurs, les pages résultant d'un formulaire de requête en POST (formulaires d'interrogation de bases de données par exemple).
De plus, les formats de fichiers ne sont pas encore indexés par les moteurs de recherche qui se partagent le marché du search online...même si ces derniers se font de plus en plus rare...
On peut ensuite rajouter à ce web invisible tous les fichiers que les moteurs de recherche blacklistent pour cause de non respect de leurs règles : duplicate content (plusieurs fois le même contenu ou presque derrière plusieurs URL), de cloaking (renvoyer une version différente de page à un moteur de recherche et à un internaute), ou de spamdexing (multiplication de mots clés cachés de façon à berner les moteurs de recherche).
Le web invisible comporte aussi des barrières plus locales : en effet certains sites ne sont accessibles que si vous vous connectez d'un certain pays. Typiquement Google vous renvoie des résultats différents selon l'endroit d'où vous vous connectez.... Exemple aussi, certains sites gouvernementaux américains ne sont accessibles que si vous vous connectez d'un proxy en sol américain.
Côté multimédia, et bien que cela progresse, les vidéos et images sont accessibles mais souvent par rapport au contenu textuel qui les entourent. On a donc un web invisible partiel sur ce type de documents puisque c'est l'environnement qui en est indexé et non pas le contenu audio et vidéo. A noter, Google risque de réduire le web profond sur la partie images étant donné qu'il va se mettre à océriser les images et pdf ne disposant pas d'une couche texte.
De même les contenus émanant de technologies propriétaires ou exotiques (javascript de liens complexes, contenu AJAX, mais aussi contenu Flash - quoique..)
Enfin, le web invisible ou web profond, pour résumer on ne sait pas tout ce que c'est puisque par définition le contenu est difficilement accessible et que par ailleurs les moteurs de recherche n'ont pas forcément tendance à communiquer sur ce qu'ils n'inexent pas. Je me permets aussi de rester sceptique sur toute évaluation de taille du web visible et invisible... Déjà la taille du web visible n'est pas simple à estimer....alors du web invisible...je ne suis pas Madame Irma.
Tous ceux qui s'intéressent au web 2.0 connaissent Del.icio.us, l'Application avec un grand A de social bookmarking. Et je pense que tous ceux qui l'utilisent régulièrement se sont dits : Del.icio.us, c'est vraiment intéressant, mais alors qu'est-ce que c'est pénible de tagger ses bookmarks et de saisir les descriptions. En tout cas, moi, je me le suis dit... et d'ailleurs j'utilise du coup très peu mon del.icio.us, un peu déprimé devant l'ampleur de la tâche visant à réorganiser tout mon bookmark.
Voilà peut-êter la solution pour tous ceux qui veulent utiliser Del.icio.us et éviter de perdre trop de temps à mettre en ligne ses favoris.
Lazy Sheep est un bookmarklet (petite ligne de code jaavscript que vous pouvez ajouter comme favoris dans votre barre de liens rapide pour exécuter de petites fonctionnalités) qui permet de récupérer automatiquement les tags proposés par d'autres utilisateurs de Del.icio.us pour une URL, ainsi, éventuellement, qu'une description.
A utiliser sans modération donc pour tous les adeptes du Web 2.
Synthesio, qui est une société que je suis avec le plus grand intérêt depuis ses débuts, a annoncé à l'occasion du SEMO 2008, le lancement d'une nouvelle offre dans la tendance "brand monitoring" / veille image : Consumer.
Il faut dire que désormais, Synthesio compte pas moins de 100 000 sources webs à travers 130 pays, toutes qualifiées, indexées et intégrées aux crawls quotidiens de Synthesio, ce qui en fait un des plus beaux échantillons web que je connaisse pour une société française.
Le produit Consumer est donc un outil permettant d'identifier les rumeurs et les tendances et les influenceurs qui se cachent derrière.
Consumer propose des vues reportings orientées décisionnel : très claires et relativement synthétiques.
Un nouveau venu dans le monde du reporting en quasi temps-réel sur des prestations de veille image.
Par ailleurs Synthesio met en avant dans son nouveau site son offre spécialisée en veille sponsoring sportif, SportTrackTM. Lancé en partenariat avec TNS Sport, cet outil permet aux directions communication de jauger la visibilité offert par les différents sponsorings sportifs dans lesquels elles investissent.
Peu de billets en ce moment mais c'est tout simplement que mon activité ne se déroule pas que sur le web...
Alors pour faire un petit tour d'horizon de ce qui se passe In Real Life pour moi.
Tout d'abord sachez qu'est sorti en août 2008 une quatrième édition du Que sais-je? de Daniel Rouach, entre autre professeur à l'ESCP-Eap, "La veille technologique et l'intelligence économique" aux éditions Presses Universitaires de France. Et si j'en parle c'est aussi et surtout parceque j'ai eu le plaisir d'y participer sous la bannière KB Crawl en y signant un court passage sur les logiciels et les plateformes de veille.
Et pour preuve, le support imparfait que j'avais promis de diffuser à Tarik et à Arnaud. Imparfait car bien évidemment le support n'est par définition qu'un support à mon ramage ... la preuve dans une vidéo déformée, au son approximatif et à la qualité douteuse, filmée à l'insu de mon plein gré.
Dernier hobby enfin (sous la torture et la menace de mes collègues et anciens amis), je me suis aussi essayé au septième art dans un étrange remake de Star Wars. (Je préférais diffuser moi même cette vidéo avant que son contrôle ne m'échappe!)
Que de noms ré-sonnent (le glas) dans mes oreilles lorsque l'on en vient à parler d'association faisant la promotion de la discipline ou des métiers de l'intelligence économique.
Mais aujourd'hui par le heureux hasard d'un lecteur RSS cumulé avec une sérendipité débordante, ne voilà-t'il pas que le flux Twitter de Bruno Jacquemin, grand gourou du web 2.0 orléanais et illustre DG de la CCI du Loiret ne me conduit pas vers le portail Netvibes que la dite CCI vient de mettre en ligne et vers cette association jusque là inconnue de moi (et peut être de nombreux autres...), l'Adiesa, Association pour le développement de l’intelligence économique et stratégique appliquée (en région Centre)...
Bref, si vous êtes une entreprise de la région centre, que l'intelligence économique vous intéresse, ou bien que vous êtes consultant dans ce métier, pourquoi ne pas devenir adhérent de l'Adiesa.
En plus l'association vient de lancer un blog hyper riche en contenus. A réserver à ceux qui n'ont pas peur de lire des billets fleuves!
Trêve de plaisanteries, la promotion de l'Intelligence Economique en région est une bonne chose. Parcequ'il n'y a pas qu'à Paris que l'on peut faire de l'Intelligence Economique.
En dehors de mon travail, d'une rentrée agitée et des cours de fac pour lesquels je suis passé de l'autre côté du bureau, une autre des raisons pour lesquelles je publie trop peu de billets en ce moment :
"Titre : Conférence "Gérer son identité numérique"
En navigant sur le web, en participant à des réseaux sociaux amicaux ou professionnels, en contribuant à des blogs ou à des sites communautaires, ou tout simplement en effectuant des achats en ligne, les internautes que nous sommes laissons des traces sur les sites et les moteurs de recherche.
Le concept d'identité numérique recouvre l'ensemble de ces données personnelles, qu'elles soient sous forme textuelle ou multimédia, photo ou vidéo.
Comment gérer son identité numérique, comment mettre en place une stratégie efficace de « marketing de soi » sur le web ? Comment tirer parti au mieux des nouveaux outils et services associés ? Comment protéger sa vie privée, se prémunir contre des usurpations d'identité ?
Cette conférence, animée par Frédéric Martinet, consultant veille chez KB Crawl et webmaster du site Actulligence, permettra de faire le point sur la question, à partir d'exemples concrets.
La conférence aura lieu le jeudi 2 octobre de 9h30 à 11h30, au Pôle Universitaire Léonard de Vinci (Paris La Défense). Le nombre de places étant limité, merci de vous inscrire au plus vite sur notre site : www.devinci.fr/info
Retrouvez également l'"identité numérique" de l'Infothèque sur Facebook.
---
Et retrouvez aussi quelques éléments de mon identité numérique sur :
Actulligence | Facebook | Viadeo | Linkedin | ClaimID | Ziki | etc... (Attention, certains à jour et d'autres moins...C'est que gérer son identité numérique cest un job à part entière mon bon monsieur!)
Pendant pas mal de temps le projet Quaero a fait jaser... Tout d'abord par le montant des subventions accordées. Scandaleusement élevées pour certains, ridicules pour d'autres.
Ensuite par les dissensions internes qui en ont résultées et qui ont mené à l'émergence de projets parallèles concurrents et à des problèmes diplomatiques franco-allemands.
Mais bon, le débloquage récent des subventions de l'Agence pour l'Innovation Industrielle ont permis aux acteurs privés d'y croire à nouveau et de relancer le projet moribond (ce qui par ailleurs ne les empêchait pas d'avancer de façon autonome sur le développement technologique de leurs offres.) Bref, kick off meeting et réunions entre acteurs privés / militaires / institutionnels sont désormais lancés et la machine à communication aussi.
Tout ça pour en arriver à vous dire que désormais, le portail Quaero est ouvert. Il devait l'être le 17 mars 2008... mais depuis je n'avais pas pris le temps de le signaler.
Intéressant aussi, les liens vers les workshops à venir dont celui qui s'est très récemment déoulé, intitulé Quaero/ImageCLEF, et donc, logiquement basé sur le CLEF alias Cross Language Evaluation Forum.
Quaero.fr, un portail à suivre donc pour tous ceux qui s'intéressent à la recherche d'information et plus particulièrement si elle est multimédia.
Une chose reste évidente toutefois, les technologies de recherche d'information au sein de corpus de sources de formats hétérogènes est un des enjeux que sont actuellement en train de se livrer les moteurs de recherche. Entre 2001 et 2003, Google avait gagné la guerre des formats en intégrant avant tout le monde (je parle de moteurs de recherche grands publics) le format Excel, qui avait fait parlé violemment de lui à l'époque, et qui avait remis le couvert quelques mois après avec le format MDB [Access] (depuis d'ailleurs retiré des formats standards disponibles dans le formulaire de recherche avancé...)
Qui gagnera la guerre de la recherche au sein de conteus multimédias... A suivre...
Il y a plusieurs mois de cela déjà, Google lançait un petit gadget permettant de rechercher dans certaines vidéos de YouTube sur le débat lié à la campagne des présidentielles américaines.
Sous-jacent à cette première étape, Google se lançait dans la guerre des technologies de speech to text.
Google vient de franchir un nouveau pas en annonçant le langement dans ses labs de Google, Google Audio Indexing, une solution autonome dédiée à la recherche dans le contenu des vidéos.
Attention toutefois...Si celà était la peine de le préciser, le corpus de ces vidéos est pour l'instant bien évidemment limité et en l'occurence, limitié toujours aux vidéos des political channels de YouTube.
Gaudi propose par ailleurs une interface dédiée permettant de se focaliser sur les vidéos relatives à Obama / Mc Cain.
Après Google Chrome, ça part donc dans tous les sens chez Google qui espère bien connaître un succès un jour aussi grand grâce à ces nouvelles démonstrations technologiques que celui qu'il a connu grâce à son moteur initial qui a fait sa fortune et à son fameux PageRank.
Enfin, de mon point de vue, l'interface n'est pas géniale, et tout cela ne comporte rien de très innovant par rapport à ce qui existe depuis plusieurs mois chez la concurrence.
Pour d'autres solutions je vous conseille de vous référer à mes anciens billets (billet 1, billet 2, billet 3) qui vous parleront d'autres solutions telles que Pluggd (mon chouchou), Podzinger nouvellement EveryZing, Midomi, Coveo, Voxalead, d'Exalead qui lui aussi a ses propres labs par ailleurs.
C'était vraiment très visible depuis plusieurs mois que Copernic déployait pas mal d'efforts sur sa solution de Desktop Search et il semblait tout aussi évident que ce genre d'efforts exigerait un jour un retour sur investissement.
En annonçant sa version 3, Copernic Desktop Search annonce aussi son changement de modèle en dépuillant la version gratuite "Home" de certaines de ses fonctionnalités pour les réserver à sa version payante intermédiaire toute fraîche, la "professional" .
La nouvelle gamme de Desktop Search de Copernic se décline ainsi désormais en trois produits ;
La version Corporate, lancée en novembre 2007, propose des fonctionnalités visant à permettre le déploiement du produit en masse et de façon simple dans un environnement corporate comme son nom l'indique.
Par ailleurs, sur les versions payantes (Professional et Corporate), Copernic propose la notion de service avec un soutien technique et une aide à la maintenance.
Pour ma part je regrette vraiment que l'on perde sur la version gratuite certaines fonctions telle que la liste des résultats apparaissant lors de la frappe, l'indexation des disques réseaux et la recherche dans les rendez-vous et notes d'Outlook et de Notus.
Toutefois, le produit est toujours aussi bon et j'ai encore testé d'autres Desktop mais j'avoue que j'ai du mal à me passer de Copernic Deskop Search qui reste mon préféré...
J'envisage même d'investir dans les 50 $ du prix de la version professional.
Attention, ce billet n'est pas une publicité déguisée. J'ai testé différents outils de Desktop Search et aujourd'hui CDS et celui qui correspond le mieux à mes besoins et à mes usages. Les raisons ?
Les principales fonctionnalités que j'apprécie :
La boîte de recherche directement dans la barre des tâches
L'existence d'un Copernic Mobile permettant d'interroger son ordinateur à distance si ce dernier est allumé (ce qui veut dire que rien n'est stocké sur des serveurs mais que l'ordinateur est bien interrogé en "live")
Le fait que la catégorie "Contacts" soit clairement isolée, tout simplement car rechercher un contact pour l'appeler reste ma principale utilisation du logiciel
La possibilité de voir les résultats sans même qu'une nouvelle fenêtre s'ouvre
Le volet de prévisualisation
Et les fonctionnalités qui vont cruellement me manquer :
Les résultats qui s'affichent directement lors de la frappe
L'indexation des calendriers
L'indexation des disques réseau...parceque tout simplement j'ai un réseau chez moi dont un disque dur NAS de stockage de fichiers
Et enfin celle que j'aimerais voir : du text mining à la Exalead avec les fonctionnalités d'extraction d'entités nommées par exemple et plus simplement des fonctionnalités de sérendipité du type : je recherche un contact on me propose ce contact et en solutions complémentaires les contacts qui sont dans la même société... Bref, vous rajoutez une petite touche de carto ou alors une petite couche type Xobni et on tendrait alors vers l'outils idéal.
D'habitude je n'aurais même pas relevé cette dépêche AFP mais là, force est de constater que pour de multiples raisons personnelles c'est trop tentant! :)
"Acies, cabinet conseil condamné à verser 30.000 euros à un salarié espionné
Dans une décision rendue le 23 juin dernier, le tribunal de Bourg en Bresse a condamné le cabinet Acies à verser 20.000 euros au salarié et 10.000 euros à son épouse, en raison du caractère "disproportionné" de la surveillance mise en place par le cabinet, qui soupçonnait cet ex-salarié de concurrence déloyale. Selon le Figaro, qui a révélé ces faits d’une ampleur inhabituelle, Acies avait décidé d’espionner le cadre, qui avait démissionné en même temps que trois autres salariés partis fonder leur propre structure, car elle craignait de se voir privée de certains gros clients, dont Areva. La cour s’est appuyée sur les factures transmises à Acies par la société d’intelligence économique TPM International, qui a organisé la surveillance du plaignant et des trois autres ex-salariés du cabinet, pour un montant de 118.000 euros, soit 1.652 heures de travail. Ce chiffre montre "l’importance et la régularité" des filatures mises en place, a souligné le tribunal, estimant qu’il s’agissait "d’une atteinte conséquente à la vie privée" du plaignant et de son épouse, assistante maternelle. En janvier 2006, l’homme et son épouse avaient été suivis pendant plusieurs semaines par des détectives privés, qui avaient en outre saisi à leur domicile, dans un petit village de la Dombe (Ain), du matériel informatique et des documents, dont la cour a ordonné la restitution immédiate. Cette surveillance est "insusceptible d’être justifiée par l’intérêt légitime de l’employeur", a indiqué le tribunal, d’autant que le plaignant a rapidement été blanchi des soupçons de détournement illicite de clientèle. Le cabinet Acies a fait appel de la décision, et l’affaire devrait revenir devant la Cour d’appel de Lyon d’ici un an environ. "Il s’agit de dommages et intérêts beaucoup plus élevés que ce qu’on voit habituellement dans ce genre d’affaire", a relevé Me Farid Hamel, avocat du cabinet.
Source : France Info AFP
Le 3 septembre 2008"
Je trouve cela donc fort étonnant que la société Acies ait autant de mal à recruter son chef de projet veille et intelligence stratégique... Cela ne fait qu'un an qu'ils essaient...et je crois que le poste court toujours... Des volontaires?