Plugin de détection de langue pour Apache Nutch
⬇⬇⬇⬇⬇⬇⬇⬇⬇⬇
http://shortwww.com/langdetect
⟰⟰⟰⟰⟰⟰⟰⟰⟰⟰
18.05.2015 La balise ci-dessus active le plug-in de détection de langue fourni avec Nutch. Comme décrit dans le wiki de Nutch, le plugin ajoutera un champ nommé "lang" qui contient le code de langue de. Je veux dire: je dois explorer et indexer uniquement les documents dans les langues X, Y et Z. Bien sûr, je ne connais pas la langue d'un document, je dois donc aller le chercher, vérifier sa langue et, s'il est correct, stocker le contenu (et plus tard l'indexer), sinon je ne souhaite que stocker des informations minimales. sur les documents sautés, ou aucun. Je suis novice en néerlandais, donc je ne suis pas au courant. Apache - Détection de la langue dans Solr pour Nutch. Plugin url de téléchargement: Inclus avec la licence de distribution source Nutch: Identique à Nutch description courte: Plugin Analyzer qui identifie la langue des documents.
Apache Nutchs Architecture, le blog de Shuyo. Stefan Groschupf Bonjour, il existe déjà un plugin de détection de langue, qui utilise ngrams pour deviner les langues. Si vous avez un corpus, vous pouvez former ce plugin et créer un "fichier modèle". Nous serions heureux si vous pouviez contribuer à cela. Ajouter un plugin de détecteur de langue pour Apache Nutch. [NUTCH-666] Plugins d’analyse pour plusieurs. LanguageIdentifierPlugin - NUTCH - Apache.
22.12.2010. Le détecteur a certains paramètres pour la détection de la langue. Voir. link #setAlpha (double. link # setMax_text_length (int) et. link #setPriorMap (HashMap. Voir. link #setAlpha (double. link # setMaxTextLength (int) et. link #setPriorMap (HashMap. LanguageIdentifierPlugin - Wiki Nutch. J'ai essayé avec les plugins d'identificateur de langue et de détecteur de langue, mais les performances ne sont pas assez bonnes pour la langue que je dois identifier. J'ai aussi essayé la détection de la langue dans Solr. Nutch; NUTCH-666; Plugins d'analyse pour plusieurs langues et nouvel outil d'identificateur de langue. 20.09.2009 URL de téléchargement du plug-in: Inclus avec la licence de distribution source nutch: Identique à la description courte de Nutch: plug-in Analyzer qui identifie la langue des documents.
0コメント