DEDIBOX-NEWS.COM

Le Forum Non Officiel de la DEDIBOX

Vous n'êtes pas identifié.

#51 2007-02-22 10:16:13

internaute
Invité

Re: Moteur de recherche avec son propre crawler

JalaL a écrit:

Ca t'interesse dans quel sense ? Tu veux une collaboration ou bien tu veux l'acheter ?

on peut en discuter ailleurs que dans le forum non ? smile

 

#52 2007-03-07 14:02:32

JalaL
Maitre Jeidi
Date d'inscription: 2006-05-06
Messages: 327
Site web

Re: Moteur de recherche avec son propre crawler

J'avais commencé a etre completement perdu... plus la base de données est grosse (8Go pour 500 000 pages indexées), plus certaines requettes avec jointure sont extremement longues (10 minutes minimum)... Hier j'ai trouvé mon bonheur avec STRAIGHT_JOIN, ca prend une toute petite fraction de seconde pour le meme resultat ou presque. En tout cas toutes les URLs finiront par etre traitées, donc peu importe l'ordre dans lequel elle ont été selectionnées.

internaute a écrit:

JalaL a écrit:

Ca t'interesse dans quel sense ? Tu veux une collaboration ou bien tu veux l'acheter ?

on peut en discuter ailleurs que dans le forum non ? smile

Tu peux me mailer ICI
Explique moi en une seule fois ce qui t'interesse exactement, je repond dans tous les cas.

Dernière modification par JalaL (2007-03-07 14:16:04)


use Mozilla::Firefox;
open($your_mind) or die();

Hors ligne

 

#53 2007-03-15 15:42:12

JalaL
Maitre Jeidi
Date d'inscription: 2006-05-06
Messages: 327
Site web

Re: Moteur de recherche avec son propre crawler

Bonjour a tous,

Pour economiser du temps de traitement et reduire la taille de mon index de recherche, en ce qui concerne l'indexation des "forums"... je pense que la page la plus pertinente dans un thread c'est la 1ere page du thread (qui contient le 1er post en rapport direct avec le titre du thread), les pages suivantes n'ont pratiquement aucun interet.

C'est une constatation seulement... Vous en pensez quoi ?


use Mozilla::Firefox;
open($your_mind) or die();

Hors ligne

 

#54 2007-03-15 16:43:23

Calimero
Maitre Jeidi
Lieu: 94 | 67
Date d'inscription: 2006-05-05
Messages: 2729

Re: Moteur de recherche avec son propre crawler

JalaL a écrit:

Bonjour a tous,

Pour economiser du temps de traitement et reduire la taille de mon index de recherche, en ce qui concerne l'indexation des "forums"... je pense que la page la plus pertinente dans un thread c'est la 1ere page du thread (qui contient le 1er post en rapport direct avec le titre du thread), les pages suivantes n'ont pratiquement aucun interet.

C'est une constatation seulement... Vous en pensez quoi ?

Faut pas croire que ca trolle partout autant que sur les forums d'informatique. lol

Hors ligne

 

#55 2007-03-15 17:36:27

JalaL
Maitre Jeidi
Date d'inscription: 2006-05-06
Messages: 327
Site web

Re: Moteur de recherche avec son propre crawler

Non, c'est pas ce que je pense

C'est just pour respecter mieux mon algorithme de pertinence, qui prend en charge les mots dans le titre de la page (du thread), le titre correspond le mieux à la premiere page. Meme si ca trolle pas, un utilisateur lambda preferera toujours commencer la discussion des le depart, lire le premier post (origine du thread) pour voir de quoi ca parle deja, et si ca correspond a sa recherche il pourra lire les autres pages.

Si tous les posts ont été regroupé dans une seule page, si l'utilisateur ne trouve pas ce qu'il cherche dès le debut de la page, il ne pourra pas commencer sa lecture au milieu en esperant trouver quelque chose cool


use Mozilla::Firefox;
open($your_mind) or die();

Hors ligne

 

#56 2007-03-15 19:26:19

Calimero
Maitre Jeidi
Lieu: 94 | 67
Date d'inscription: 2006-05-05
Messages: 2729

Re: Moteur de recherche avec son propre crawler

Disons que tu peux pondérer plus fortement la première page, mais faut pas exclure les pages suivantes.

Hors ligne

 

#57 2007-03-26 16:45:04

JalaL
Maitre Jeidi
Date d'inscription: 2006-05-06
Messages: 327
Site web

Re: Moteur de recherche avec son propre crawler

JalaL a écrit:

J'avais commencé a etre completement perdu... plus la base de données est grosse (8Go pour 500 000 pages indexées), plus certaines requettes avec jointure sont extremement longues (10 minutes minimum)... Hier j'ai trouvé mon bonheur avec STRAIGHT_JOIN, ca prend une toute petite fraction de seconde pour le meme resultat ou presque.

Je me repond a moi meme, parfois on doit faire sans JOIN... ca fait 2 semaines que je me bat pour optimiser la requete de recherche qui utilisait 5 grosses tables, dès que le nombre de resultats depasse 100 le temps d'execution de la requete depasse 1s (200s pour 10.000 resultats)... ce n'est pas le tri qui prend tout ce temps là mais c'est le "Copy to tmp table" : pour trier differentes valeurs (parfois calculables dans la requette) issues de differentes tables, mysql doit les regrouper dans une seule table temporaire.

J'ai reduit les 5 tables en 3, 1 qui regroupe tous les criteres qui permettent de trier les resultats par pertinence, ensuite je vais chercher l'url, le titre et le texte de ma table "urls" et le host name de ma table "hosts"

J'ai mis tous les index qu'il faut, le temps d'execution indiqué correspond a l'execution de la requette pour la 1ere fois (sans cache)


use Mozilla::Firefox;
open($your_mind) or die();

Hors ligne

 

#58 2007-05-12 13:34:12

wannes
Je débarque
Date d'inscription: 2007-05-09
Messages: 3

Re: Moteur de recherche avec son propre crawler

Bonjour a vous tous



Je vois franchement que c'est cool votre descution, simpat et serieuse au meme temps.

Jalal je vous propose mon aide si vous desirez

- Serveur
- Idées
- Publicité

et encore plus peut etre

voila c'est du serieu on peut feire beaucoup de chose ensemble tu peut me contacter  wannesweb@hotmail.fr

aller @ bientôt salut

Hors ligne

 

#59 2007-05-19 22:09:55

JalaL
Maitre Jeidi
Date d'inscription: 2006-05-06
Messages: 327
Site web

Re: Moteur de recherche avec son propre crawler

Bonjour wannes, merci pour ta proposition, malheureusement j'ai mit ce projet en suspend pour manque de temps, j'utilise deja le max de mon temps libre pour le refonte de l'un de mes autres sites communaitre assez connu pour que je puisse le mettre aux normes web 2.0


use Mozilla::Firefox;
open($your_mind) or die();

Hors ligne

 

Pied de page des forums

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson