получение базовой формы слова?

Я использую библиотеку java wordnet (jwnl) для своего проекта. Мне нужно найти базовую форму слова перед обработкой. Например, если я даю «отправлено», слово базовой формы должно быть «отправить». «базовое слово должно быть «отправка». Я прочитал документацию jwnl, но она меня смущает. Пожалуйста, предоставьте мне фрагмент кода для поиска базового слова. Спасибо в ожидании.


person KNsiva    schedule 17.02.2011    source источник


Ответы (2)


Я использовал JAWS, так как он показался мне лучше, чем JWNL, проверьте этот код, чтобы найти базу и приукрасить его.

import java.io.*;
import edu.smu.tspell.wordnet.*;

/**
 * Displays word forms and definitions for synsets containing the word form
 * specified on the command line. To use this application, specify the word
 * form that you wish to view synsets for, as in the following example which
 * displays all synsets containing the word form "airplane":
 * <br>
 * java TestJAWS airplane
 */
public class start
{
    /**
     * Main entry point. The command-line arguments are concatenated together
     * (separated by spaces) and used as the word form to look up.
     */
    public static void main(String[] args)
    {
        while(true)
        {
            if (args.length == 0)
            {
                StringBuffer buffer = new StringBuffer();
                String wordForm = null;//"fast";//buffer.toString();
                System.out.print("\n");
                System.out.print("Enter your query: ");
                   BufferedReader br = new BufferedReader(new InputStreamReader(System.in));

                   try {
                     wordForm = br.readLine();
                   } catch (IOException e) {
                     System.out.println("Error!");
                     System.exit(1);
                   }
                   System.out.println("Your looking for: " + wordForm);
                System.setProperty("wordnet.database.dir", "/home/dell/workspace/wordnet/WordNet-3.0/dict");
                WordNetDatabase database = WordNetDatabase.getFileInstance();
                Synset[] synsets = database.getSynsets(wordForm);
                //  Display the word forms and definitions for synsets retrieved
                if (synsets.length > 0)
                {
                    System.out.println("The following synsets contain '" +
                            wordForm + "' or a possible base form " +
                            "of that text:");
                    for (int i = 0; i < synsets.length; i++)
                    {
                        System.out.println("");
                        String[] wordForms = synsets[i].getWordForms();
                        for (int j = 0; j < wordForms.length; j++)
                        {
                            System.out.print((j > 0 ? ", " : "") +
                                    wordForms[j]);
                        }
                        System.out.println(": " + synsets[i].getDefinition());
                    }
                }
                else
                {
                    System.err.println("No synsets exist that contain " +
                            "the word form '" + wordForm + "'");
                }
            }
            else
            {
                System.err.println("You must specify " +
                        "a word form for which to retrieve synsets.");
            }
        }
    }

}
person yashodhan katte    schedule 21.05.2012
comment
с помощью этого вы также можете найти несколько значений слова, в то время как с помощью стеммера Porter вы получите базовую форму слов, которые вы искали. но если вы хотите найти в этом более высокий смысл, этот код поможет. - person yashodhan katte; 21.05.2012

Я бы посоветовал попробовать использовать алгоритм стеммера Портера вместо wordnet, вы можете найти реализации на большинстве языков — включая java здесь

Это должно дать вам то, что вы хотите

person Amit Bens    schedule 01.03.2011
comment
Спасибо. На самом деле я решил проблему, прочитав документацию jwnl. Используя морфологический процессор, я могу получить базовую форму слова. - person KNsiva; 09.03.2011
comment
Базовые формы списка = dict.getMorphologicalProcessor().lookupAllBaseForms(POS.VERB, отправлено); это пример кода - person KNsiva; 09.03.2011