My analysis of the actual problem with JavaBlogs Aggregator Mon analyse du problème réel avec JavaBlogs Aggregator

Disclaimer Responsabilité
This analysis is based on observing Cette analyse est basée sur l'observation my blog mon blog ’s interaction with L 'interaction avec JavaBlogs . JavaBlogs as you know is a popular aggregator for Java feeds. JavaBlogs comme vous le savez est un agrégateur de flux pour Java.
Overview Présentation
Often many of us see that Souvent, nous sommes nombreux à constater que old posts of our blog keeps popping up in JavaBlogs vieux postes de notre blog garde surgissent dans JavaBlogs .
Details Détails
RSS versions before 2.0 did not have GUID. RSS versions avant 2,0 n'ont pas GUID. So preventing duplicate posts is slightly harder then RSS 2.0 compliant feeds. Ainsi, la prévention de double emploi avec des postes est un peu difficile puis 2,0 compatible RSS feeds. My feed Mon alimentation is est RSS 2.0 RSS 2,0 compliant. conforme. Specifically it sends a Précisément, il envoie un GUID as an element of comme un élément de item article . GUID is supposed to be globally unique. GUID est censé être unique à l'échelle mondiale. So if I change my feed url but keep my GUID same it shouldn’t matter. Donc si je change d'URL de flux, mais garder mon GUID même il ne devrait pas question.
What does WordPress send as GUID? Qu'est-ce que WordPress envoyer comme GUID? It sends the permalink to the post as GUID like Il envoie le lien permanent au poste de GUID comme http://blog.taragana.com/index.php/archive/whats-up-with-republican-java-geeks/ .
Technically they are globally unique. Techniquement, ils sont uniques au monde. Unless I change my site structure. Si je changer mon structure du site. So if I start using .htaccess and change the permalink format to Donc, si je commencer à utiliser. Htaccess et changer le format permanent http://blog.taragana.com/archive/whats-up-with-republican-java-geeks/ then I can expect reposting to happen, right? alors je peux attendre repostage se passer, n'est-ce pas? Yes, it does happen in JavaBlogs and it has happened to me once or twice. Oui, cela arrive dans JavaBlogs et il s'est passé pour moi une ou deux fois. However it can still be prevented. Cependant, il peut encore être évitée. More on it in a later post. Plus d'informations sur celle-ci dans un poste plus tard.
In any case WordPress can also improve this situation by using a alpha-numeric GUID value instead of permalinks, which may not be so permanent after all. En tout état de cause, WordPress peut aussi améliorer cette situation en utilisant une alpha-numérique GUID valeur au lieu de les permalinks, mai pas être permanente après tout.
The more common problem is something much simpler. La plus commune problème est quelque chose de beaucoup plus simple. Suppose you normally syndicate 20 latest items from your feed. Supposons que vous normalement syndicat 20 derniers articles de votre flux. Then you suddenly decide to syndicate more say 30. Ensuite, vous soudainement décider de diffuser le plus à dire 30. Now suddenly lot of the old feeds are republished again! Maintenant, tout à coup beaucoup des anciens flux sont à nouveau réédité! The GUID hasn’t changed nor the date, only the item count has changed in the feed. Le GUID n'a pas changé, ni la date, seules comptent la question a changé dans l'alimentation. Probably the reverse (reducing the number of items in a feed) is also true, cannot remember for sure. Probablement l'inverse (réduire le nombre d'objets dans un aliment) est également vrai, ne me souviens plus sûre.
It appears Il semble JavaBlogs is maintaining a database of past feed items JavaBlogs maintient une base de données de points d'alimentation passé . So it shouldn’t be hard to identify that the post is not new. Donc, il ne devrait pas être difficile à identifier que le poste n'est pas nouveau.
It looks like some simple bug. Il semble que de simples bogues. Hopefully it will be fixed soon. Nous espérons qu'il sera fixé prochainement.
This article was initiated by a comment from Cet article a été lancé par un commentaire de Mr. Charles Miller, developer at JavaBlogs M. Charles Miller, développeur chez JavaBlogs .
PS. On a different note I think the policy to display a feed when its date has been updated is correct implementation by JavaBlogs. Sur une note différente, je pense que la politique d'afficher un flux lorsque sa date a été mise à jour est mise en œuvre correcte par JavaBlogs.
Filed under Classé sous Java Software Logiciel de Java , Pro Blogging Blogging Pro , Technology Technologie , Web , WordPress | |
| |
RSS 2.0 RSS 2,0 | |
Email this Article Envoyer cet article
You may also like to read Vous mai également à lire |




March 18th, 2005 at 2:19 am Mars 18th, 2005 at 2:19 am
Tracking duplicates is a nightmare with all the various RSS flavors and buggy RSS feeds out there. Suivi des doublons est un cauchemar avec tous les RSS et les saveurs buggy flux RSS sur le marché. My code for javacrawl.com currently does the following query to check for a duplicate post: “…where (guid = ? OR (link = ? and title = ?))”. Mon code de javacrawl.com ne le fait actuellement la requête suivante pour vérifier un double message: "… où (GUID =? OU (lien =? Et title = ?))". This works reasonably well, but is still succeptable to the changing link problem you mention here. Cela fonctionne raisonnablement bien, mais est encore succeptable à l'évolution de lien problème que vous mentionnez ici.
I agree that using links for GUID is probably not the best unless they’re stable. Je suis d'accord que l'utilisation de liens pour GUID n'est probablement pas la meilleure, sauf s'ils sont stables. An MD5 hash of the title plus the timestamp would be a reasonable way to go. Un hachage MD5 du titre ainsi que la date serait un moyen raisonnable d'aller.
Another suggestion I would have to RSS producers is to please, please implement responding 304 to the If-Modified-Since header. Selon une autre suggestion, je devrais RSS producteurs est de s’il vous plaît, répondre s’il vous plaît appliquer la 304 à If-Modified-Since-tête. This saves a huge amount of CPU, disk and bandwith resources on both ends. Cela permet d'économiser une énorme quantité de ressources processeur, disque et de bande passante des ressources sur les deux extrémités.
March 18th, 2005 at 2:56 am Mars 18th, 2005 at 2:56 am
Jason,
Thanks for the informative comments. Merci pour l'information des commentaires.
The MD5 of title and timestamp sounds good, I cannot think of anything against it. Le MD5 du titre et la date sonne bien, je ne peux penser à quoi que ce soit contre lui.
304 would be good solution to reduce the bandwidth clog and will ultimately benefit the bloggers. 304 serait une bonne solution pour réduire la bande passante boucher et en fin de compte bénéficier aux blogueurs.
April 3rd, 2005 at 8:09 pm 3 avril 2005 à 8:09 pm
It’s not just a problem with JavaBlogs! Il ne s'agit pas seulement d'un problème avec JavaBlogs!
Everytime I ping Technorati that my blog has been updated, it takes every entry previously and spams the Technorati tags (ie Java tag) as well! Chaque fois que je ping Technorati que mon blog a été mis à jour, il prend toutes les entrées précédemment et les spams les tags Technorati (c'est-à-dire Java tag) ainsi! I do use RSS 2.0 and Rome 0.5 from Sun Microsystems to generate my own feeds, and I do use the and tags. Je utilisent RSS 2,0 et 0,5 Rome de Sun Microsystems pour générer mon propre flux, et je ne l'utilisation et les étiquettes. I have used the permalink system, but since I can put anything in there since I control the code, maybe I’ll start generating my own MD5 hash as suggested. J'ai utilisé le système permanent, mais depuis, je peux mettre n'importe quoi là-dedans car je contrôle le code, peut-être que je vais commencer ma propre génération de hachage MD5 comme l'a suggéré. If anyone wants to know if that works, check out my website in about a week. Si quelqu'un veut savoir si cela fonctionne, consultez mon site Web dans environ une semaine.
Otherwise, enjoy reading my entries from March 2005 for the ninteith time. Sinon, mon plaisir à la lecture des entrées de Mars 2005 pour les ninteith temps.