24 septembre 2006

La Libre Belgique et Le Soir ne sont plus dans l'index de Google

Google a été condamné récemment par le tribunal de première instance de Bruxelles à retirer de www.google.be les articles des pays adhérents à Copiepresse.

Cela suppose en particulier de ne plus faire apparaitre les articles émanants des journaux adhérents à Copiepresse dans les News Google en Belgique.

De plus, Google devait publier sur sa page d'accueil le texte du jugement, ce qu'il a fini par faire, bien qu'ayant refusé au départ.

Les pages émanant des journaux Belges ont donc disparu du cache de Google.

Mais il semble que Google soit allé plus loin puisque des journaux Le Soir, la Libre Belgique ou La Dernière Heure, aucun ne semble encore figurer dans l'index de Google (www.google.be) !

En revanche, sur les autres sites de Google, les journaux Belges sont encore indexés.

Tout semble laisser penser que c'est un pied de nez de Google à ces journaux qui l'ont attaqué ...

Cette affaire peut faire beaucoup de tord aux journaux Belges compte tenu de la prédominance actuelle de Google sur le marché des moteurs de recherche.

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

23 septembre 2006

Google Sitemaps: Assistant d'état du site

La page d'aide aux Webmasters de Google permet désormais de savoir si Google est en train d'indexer votre site, et ce même sans disposer d'un compte Google Sitemaps.

Le récapitulatif d'indexation par Google ainsi que la date de dernier accès par Googlebot est donné.

Il s'agit surtout de la part de Google de fournir une page permettant de signaler l'existence du programme Google Sitemaps maintenant nommé "Outils Google à l'attention des webmasters".

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

22 septembre 2006

Debian: Demande de destitution du DPL

Anthony Towns, le Debian Project Leader, a lancé avec d'autres membres de Debian un projet indépendant visant à assurer la sortie dans les temps de la prochaine version de la distribution Debian "etch" le 4 décembre prochain.

Ce projet Dunc Tank vise à définir comment la rémunération de certains membres de l'équipe Debian peut permettre la sortie en temps et en heure de la prochaine version de la distribution Linux qui vient de fêter ses 13 ans.

Cette initiative du chef de projet de Debian (DPL) a causé de nombreuses discussions et polémiques à tel point que certains membres de Debian réclament aujourd'hui la destitution d'Anthony Towns.

Certes, introduire une façon de financer un projet Open Source comme Debian n'est pas sans poser de problèmes, car il est entièrement géré par des bénévoles.

En effet, si certains membres de Debian devaient être rémunérés pour leur travail sur ce système, il va de soi que des voix vont se faire entendre pour l'être aussi.

Néanmoins, trancher la question ne me parait pas simple. Il faut bien voir la concurrence actuelle qui règne dans le monde des distributions Linux: Mandriva, Ubuntu et Fedora sortiront prochainement dans de nouvelles versions, et ce quasiment en même temps.

Cette demande de destitution du Debian Project Leader me parait néanmoins plus dommageable qu'autre chose à un moment où l'on annonce que la ville de Munich va migrer ses postes de travail vers Linux, et plus particulièrement Debian, soit 80% des 14 000 postes sous Debian en 2008 !

De plus, à l'heure où l'administration Française fait parler d'elle avec, après la migration de la gendarmerie nationale, le passage de 400 000 postes de travail sous Open Office au détriment de Microsoft Office, on aimerait entendre parler du projet Debian dans d'autres termes ...

On pourra consulter l'avis de Raphael Herzog sur le projet Dunc Tank ainsi que la réponse d'Anthony Towns suite à la demande de destitution.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

Noyau Linux 2.6.18

Le noyau Linux 2.6.18 est sorti Mercredi dernier.

Il s'agit de la dernière version stable du noyau.

Cette dernière version du noyau Linux incorpore des avancées dans les domaines de la gestion de l'énergie, des processus en environnement multiprocesseurs et temps réel ainsi que de nombreuses corrections de bugs.

Le noyau Linux 2.6.18 peut être téléchargé sur kernel.org.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

21 septembre 2006

Nouveau disque de Tom Waits en novembre

Tom Waits sortira un nouveau coffret de 3 disques le 20 novembre prochain, intitulé "Orphans: Brawlers, Bawlers and Bastards".

Ce nouveau disque de Tom Waits comprend plus de 3 heures de musique et regroupe de nouvelles chansons, des inédits et des reprises de Kurt Weill & Bertolt Brecht, The Ramones ou Daniel Johnston.

Après une grosse production discographique en 2002, 2003 et 2004 (Avec l'album Real Gone), Tom Waits est de nouveau dans les bacs !

"Orphans: Brawlers, Bawlers and Bastards" est produit comme à l'accoutumée par Tom Waits et Kathleen Brennan.

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

14 septembre 2006

New format for Google Webmaster Tools (Google Sitemaps)

Google now adds a plain text format for Google Sitemaps files. It is the same plain text format Yahoo! uses for Yahoo ! Site Explorer.

Google Sitemaps, now Google Webmaster Tools, is able to understand the following Google Sitemaps formats:

* Sitemap protocol (XML file with: file name, last modification date, frequency for changes, priority)
* Real Simple Syndication and Atom
* Plain text file with Web Site URLs (Same format as Yahoo ! Site Explorer)

The Real Simple Syndication format is useful for blogs, for example a blogger blog. The simple submission of an RSS feed of your blog to Google Sitemaps gives you the same functionalities for the Site as for another WebSite.

Plain text file format is easier to use and generate but you loose the information: last modification date, frequency for changes, and priority, and thus it gives Google less useful information about the changes of your Web site.

Moreover, Google Sitemap files can be compressed using gzip, and Sitemap index files may be created for Web Sites containing many pages.

Sitemap file should reside in the root directory of the web site, for example, see the sitemap of Google Web Site.

Before being able to submit a sitemap for a Web Site of your own, you first need a Google Account. Existing Gmail, Google Analytics accounts are fine. Then, you have to make the proof you owns the Web Site.

Web Site Authentication includes:

* META-TAGS to add to the Web Site index file
* Authentication file in the root directory, the file name is choosen by Google

The first method is fine for blogs: for example, you can't create a file in the root directory of a blogger blog. On the contrary, it is possible to add META-TAGS in the blog template page.

Second method is used for "normal" Web Sites, and it is also the method used by Yahoo ! Site Explorer.

As Yahoo ! gives no other choice for authentication, there is no ways to use Yahoo ! Site Explorer with a blogger blog. I think this problem should occur for other types of blogs ...

Libellés : , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

Nouveau moteur de recherche d'actualités chez Google

Google a lancé archivesearch, nouveau moteur de recherche d'actualités, qui effectue ses recherches dans les articles de presse et les archives historiques.

archivesearch permet, contrairement au moteur google, de ne rechercher que dans les sources issues de la presse, et de trier les résultats de manière chronologique.

C'est très commode pour chercher des informations sur une période passée non vécue. Par ailleurs, le fait de ne pas utiliser tout l'index de Google renvoie beaucoup moins de résultats et ceux-cis sont plus pertinents.

Par exemple, pour voir tous les articles de presse concernant les Rolling Stones, ce qui permet de remonter jusqu'en ... 1890 !

On peut ainsi savoir ce que disait la presse sur les premières tournées des Rolling Stones aux Etats Unis au milieu des années 60.

Les résultats d'archivesearch incluent des articles gratuits mais aussi des articles payants, et probablement que google mise beaucoup sur cette nouvelle source de revenus.

Lorsque les recherches renvoient des articles Américains, ceux estampillés de la mention "Subscription" sont des résumés ; la version complète de l'article n'étant accessible que si l'on s'enregistre sur le site en question.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

13 septembre 2006

Windows Live: nouveau moteur de Microsoft

Windows Live, la nouvelle interface du moteur de recherche de Microsoft est en ligne.

Première constatation, le design est beaucoup plus épuré que celui de l'ancien moteur MSN Search ! Le site de Windows Live est plus dépouillé encore que celui de la page d'accueil de Google !

Ensuite, les recherches sont beaucoup plus rapides.

Windows Live intègre naturellement les recherches classiques sur le Web, dans les news et les images.

Quand je demande de l'aide, une page blanche intitulée "Aide de Windows Live" s'affiche avec pour tout message: "Un problème est survenu. Veuillez recommencer.". Pourtant, j'utilise Firefox 1.5.0.6. Certes, je suis sous Linux, mais avec Debian (s'il vous plait !)

Avec Opera 9.0, je règle les options pour avoir des pages en Français, mais la recherche suivante ne me renvoie que des pages au contenu Anglais ...

Globalement, la première impression avec Windows Live est plutôt bonne. Bien sur, l'index de Windows Live est beaucoup plus restreint que celui de Google, mais l'outil est largement plus utilisable que ne l'était MSN Search avec ses publicités, Top Stories ... à tout bout de champs, à la limite (franchie !) de l'insupportable.

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

12 septembre 2006

Adsense chez Microsoft ?

Microsoft est actuellement en train de tester (ou de faire tester ...) son système de liens sponsorisés contextuels concurrent du système Adsense de Google.

Le système de liens sponsorisés de Microsoft se nomme d'ailleurs Adcenter.

On ne sait pas encore si ce système de liens sera uniquement compatible avec Internet Explorer 7 ou pourra admettre les systèmes Linux ou Apple.

En tous cas, Microsoft se comporte une fois de plus en suiveur et non et comme une société innovante, mais là je ne vous apprends rien !

Libellés : , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

05 septembre 2006

Write a correct robots.txt file for Googlebot and other User-agents

The robots.txt file located in the root Web directory of a Web Site is used by robots such as Googlebot, MSNBot, Yahoo! Slurp or Yahoo!'s Web Crawler to know which pages of the Web Site are to the indexed by the search engine, and which pages should not be.

This robots.txt file is a plain text file containing sections such as:

User-agent: Googlebot
Disallow: /private_content/
Disallow: /images/

In this example, it will exclude from the search engine index the pages located in the private_content and images directories.

The syntax for robots.txt entry presented here should be used as is ; I mean a space is needed between ":" and the page or directory path.

Comments may be inserted in the robots file. A comment line starts with a "#" character.

A more generic syntax exists to disallow files or directories for all User-agents:

User-agent: *
Disallow: /cgi-bin/
Disallow: /family/

Should you combine both syntaxes "User-agent: Bot-Name" and "User-agent: *", you should take care to place "User-agent: *" after all "named" sections.

For example, Google's robot, Googlebot reads the robots.txt file and uses the first User-agent section matching the pattern Googlebot*. Then, Googlebot stops reading the file.

It should be the same for other bots (Yahoo or Msn).

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil

02 septembre 2006

Le spam d'index dans Google et Yahoo

J'ai effectué récemment une recherche sur le moteur de recherche Yahoo ! en Anglais sur un mot clé qui ramène beaucoup de pages.

Comme beaucoup d'internautes, j'essaie les premiers résultats, et je me rends compte que ces derniers renvoient sur trois domaines différents qui pointent sur des sites identiques.

Quels points communs entre ces sites qui sont en fait les mêmes ?

Déjà, les mots clés en question sont répétés à l'envie, dans les balises méta, dans le titre et aussi dans le texte.

Ensuite, les pages ne comportent que très peu de mots, et ce afin d'obtenir une densité de mots clés importante.

Si l'on "visite" le site en question, on s'aperçoit rapidement que le contenu est quasi inexistant.

Ayant récupéré les pages d'accueil des trois domaines hébergeant le même site avec wget, un diff Unix fait apparaitre que les seules différences portent sur l'URL du site dupliqué !

Des sites de ce genre sont des spams réels d'index pour les moteurs de recherche et sont nuisibles à l'internaute, qui jusque là, n'a pas trouvé l'information qu'il cherchait.

On aimerait vraiment voir disparaitre ce genre de sites de l'index de Google ou de Yahoo !

Lorsque l'on rencontre un cas de spam d'index sur un moteur de recherche donné, on peut le signaler au dit moteur via les liens suivants:

Signaler un spam dans l'index de Google

Signaler un spam d'index dans le moteur de recherche Yahoo !

Libellés : , , , , ,

0 commentaires:

Enregistrer un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil