How to split Japanese text?

限于喜欢 提交于 2021-01-27 17:16:25

问题


What is the best way of splitting Japanese text using Java? For Example, for the below text:

こんにちは。私の名前はオバマです。私はアメリカに行く。

I need the following output:

こんにちは
私の名前はオバマです
私はアメリカに行く

Is it possible using Kuromoji?


回答1:


You can use java.text.BreakIterator.

String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
     end != BreakIterator.DONE;
     start = end, end = boundary.next()) {
     System.out.println(TEXT.substring(start, end));
}

The output of this program is:

こんにちは。
私の名前はオバマです。
私はアメリカに行く。

You cannot use Kuromoji to look for Japanese sentence boundaries. It can split a sentence into words.



来源:https://stackoverflow.com/questions/52145954/how-to-split-japanese-text

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!