Le Forum Non Officiel de la DEDIBOX
Vous n'êtes pas identifié.
Bonjour,
je suis souvent decu des resultats que google me retourne lorsque j'effectue des recherches.
C'est pourquoi j'ai decidé de creer un moteur de recherche sur ma dedibox. Mais la où les moteurs de recherches traditionnels indexent tous les sites, je restreints la porté de mon indexation à certain site spécifiques axé autour des thématiques informatiques et technologies :
Pour l'instant ma base d'indexation se compose des sites :
- Clubic
- Hardware.fr
- Matbe
- PCInpact
- PresencePc
- TomsHardware
- TTHardware
- Overclex
- Linux Fr
- Les Numeriques
- JeuxVideo.fr
- JeuxVdeo.com
- InpactVirtuel
- Silicon (fr)
- The Inquirer (fr)
- Le Monde Informatique
- Vnu
Ma base est en cours de création et se compose de 120.000 pages (+ quelques doublons suites a des bugs :+)
Le site est accessible a l'adresse http://www.janaga.com
Merci pour vos commentaires ou idée d'améliorations ![]()
Hors ligne
Très bon projet, bon début.
Bonne continuation
Hors ligne
Tu devrais peut-être trier tes résultats par date non ?

Hors ligne
C'est en cours de realisation ![]()
Il faut que j'extraits les dates des pages pour permettre un tri par date ou par score ainsi que limiter la porté de la recherche a un interval de temps.
A mon retour de vacance ![]()
Dernière modification par Nithril (2006-08-21 09:09:02)
Hors ligne
C'est une bonne idée, en voyant le titre je me suis dit "encore..." et non c'est restreint sur des sites, j'aime bien.
J'vais voir ça.
Bonne continuation,
XaT
Hors ligne
Salut,
Très bonne idée ![]()
Mais tu as oublié un site : ... le mien ![]()
Hors ligne
J'indexe maintenant en plus des 17 autres sites :
- 01Net
- Generation NT
On peut maintenant trier par date ou par pertinence et borner la recherche à un interval de temps données ![]()
Ma base comporte maintenant 260.000 articles/news
Je vais bientot ajouter la notion de hotnews extrayant automatiquement les mots les plus utilisés dans les news
Ca avance... ![]()
Dernière modification par Nithril (2006-09-14 09:57:07)
Hors ligne
Et voila le site dispose maintenant d'une nouvelle interface
... qu'il reste à travailler et à remplir ![]()
Hors ligne
Hé beh, t'es couillu mec !
En lisant le titre, j'me suis dit "encore un mec qui veut ré-inventer Google..."
Ce qui me plait dans ton projet, ce n'est pas le principe du site (sélectionner les sites références) mais la démarche meme que tu as eu.
"je ne suis pas satisfait de tel truc, alors je vais développer mon propre systeme..."
Chapeau ![]()
C'est ce que je suis en train de faire dans le domaine du streaming video live et vod... ![]()
Hors ligne
Merci :blush:
Hors ligne
slt
il manque... Generation LIBRE!
http://www.generation-libre.com
PS: j'ai egalement un projet dans le genre ![]()
Hors ligne
Zigzig a écrit:
Mais tu as oublié un site : ... le mien
Merci pour le tuto MRTG ![]()
Hors ligne
NmartY a écrit:
PS: j'ai egalement un projet dans le genre
Héhé, il y a de la concurrence ![]()
Hors ligne
Les hottopics commencent a emerger tout doucement. L'algo n'est pas encore vraiment au point mais ya un debut
.
Je suis a la recherche d'un module en java capable de résumer un texte. Si quelqu'un en connait je suis preneur :+
Hors ligne
Oui. Vraiment une tres bonne librairie!
Hors ligne
huhu sceptique au premier abord mais en fait, très jouli dans tous les sens, bravo.
(un message pour rien dire mais pour m'abonner :p)
Hors ligne
La page d'accueil va de toute facon être remaniée. Avec affichage de news et affichages du flux RSS des sites supportés.
Ca sera plus joli que cette page vide assez laide ![]()
Hors ligne
Tu peux nous faire un p'tit exposé rapide sur le truc, je reviens de chez lucene et c'est pas tres tres clair... faut du java ( :sick: ), un apache... tu poses et ca tourne ou tu as un peu/beaucoup de codes a ecrire derriere ?
Hors ligne
MadStef a écrit:
Tu peux nous faire un p'tit exposé rapide sur le truc, je reviens de chez lucene et c'est pas tres tres clair... faut du java ( :sick: ), un apache... tu poses et ca tourne ou tu as un peu/beaucoup de codes a ecrire derriere ?
Lucene t'offre toutes les fonctionnalités pour indexer et faire des recherches sur du texte pur. Son perimetre se retreint a ca.
Lucene n'offre pas de fonctionnalités :
- d'extraction de texte, a toi de faire les differents connecteurs (HTML,PDF,Doc,...). (Voir Lius qui offre un certain nombre de connecteurs)
- d'indexation de repertoires, de crawl de sites, etc...
- les pages de recherches
A toi de faire en sommes le reste. Les connecteurs, le feeding, les servlets de recherche, ...
La somme de code n'est vraiment pas tres importante. Par exemple pour indexer un repertoire tu auras maximum 30 lignes. Et pareil pour la recherche je dirais. Tu as avec Lucene un war de demo a deployer qui offre des debuts de fonctionnalité.
Sinon il existe Nutch qui est une appli web permettant de crawler et de faire des recherches. Elle est tres complete et puissante (possibilité de faire des recherches distribués).
J'espere que tu y vois plus clair ![]()
N'hesites pas en tous cas
Hors ligne
Je me ballade sur ton site, et pour essayer je tappe bêtement "ajax" comme ligne de recherche.
Hors la, ho surprise les deux premiers résultats sont identiques....
En fait, seuls les titres, descriptions, domaine etcontenu de la page sont identique, l'url cible diffère:
- http://www.generation-nt.com/actualites … n-langage/
- http://www.generation-nt.com/actualites/18740/
Ca doit pas etre évident, mais tu vois la fonction google "Google a limité les résultats sur ce sites car d'autres existent mais sont similaires...." ..... bah voila, here's a challenge for you
Merci pour les précisions sur lucene, j'étais allé faire un tour rapide sur leur site et j'avous j'avais pas compris grand chose (oui moi aussi, java, apache...)
Dernière modification par hartym (2006-09-21 10:26:00)
Hors ligne
hartym a écrit:
Je me ballade sur ton site, et pour essayer je tappe bêtement "ajax" comme ligne de recherche.
Hors la, ho surprise les deux premiers résultats sont identiques....
Tout a fait. On retrouve le meme genre de pb avec jeuxvideo.fr. Il faudra que je fasse un filtre mais ce n'est pas encore top priorité.
En priorité 1 je dois supporter d'autres sites, thematiser le tout et extraire plus intelligemment les mots clés ![]()
Hors ligne
Bah je disais ca moi, c'est surtout pour toi :p
Mais c'est vrai que ca doit pas être évident de détecter les doublons dans ce genre de choses
Hors ligne