在所有由ISO639-1標(biāo)準(zhǔn)的184標(biāo)準(zhǔn)語言，Tika可檢測18種語言。語言檢測Tika是通過使用LanguageIdentifier類的getLanguage()方法。此方法返回字符串格式的語言代號。下面給出由Tika檢測出的18語言代碼對的列表中：

da—Danish	de—German	et—Estonian	el—Greek
en—English	es—Spanish	fi—Finnish	fr—French
hu—Hungarian	is—Icelandic	it—Italian	nl—Dutch
no—Norwegian	pl—Polish	pt—Portuguese	ru—Russian
sv—Swedish	th—Thai

實例化LanguageIdentifier類，則應(yīng)該將內(nèi)容傳遞的字符串格式將被提取，或LanguageProfile類對象。

LanguageIdentifier object=new LanguageIdentifier(“this is english”);

下面給出的是Tika語言檢測的示例程序。

import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;

import org.xml.sax.SAXException;

public class LanguageDetection {

   public static void main(String args[])throws IOException, SAXException, TikaException {

      LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
      String language = identifier.getLanguage();
      System.out.println("Language of the given content is : " + language);
   }
}

將以上代碼保存為LanguageDetection.java并在命令提示符處使用以下命令運行它：

javac  LanguageDetection.java 
java  LanguageDetection

它提供了以下的輸出：

Language of the given content is : en

語言檢測文檔

要檢測一個給定的文檔的語言，必須使用parse()方法來解析它。parse()方法解析處理程序?qū)ο螅@是傳遞給它的參數(shù)的內(nèi)容，并將其存儲。通過LanguageIdentifier類對象處理,構(gòu)造函數(shù)的字符串的格式如下圖所示：

parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());

下面給出的是一個演示如何檢測一個給定的文檔的語言完整的程序：

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;

import org.xml.sax.SAXException;

public class DocumentLanguageDetection {

   public static void main(final String[] args上一篇：TIKA提取MP3文件下一篇：TIKA元數(shù)據(jù)提取

TIKA語言檢測

必要的語言檢測

算法性能分析語料庫

什么是語料庫？

什么是性能分析算法？

使用Word設(shè)置為語料庫

使用字符集為主體

N-gram算法

Tika語言檢測

語言檢測文檔

什么是語料庫？

什么是性能分析算法？