Apache Tika用于文件類型檢測和從各種格式的文件內(nèi)容提取的庫。
在內(nèi)部，Tika使用現(xiàn)有的各種文件解析器和文檔類型的檢測技術(shù)來檢測和提取數(shù)據(jù)。
使用Tika，人們可以開發(fā)出通用型檢測器和內(nèi)容提取到的不同類型的文件，如電子表格，文本文件，圖像，PDF文件甚至多媒體輸入格式，在一定程度上提取結(jié)構(gòu)化文本以及元數(shù)據(jù)。
Tika提供用于解析不同文件格式的一個通用API。它采用83個現(xiàn)有的專業(yè)解析器庫，為每個文檔類型。
所有這些解析器庫是根據(jù)一個叫做Parser接口單一接口封裝。

為什么用Tika?

據(jù)filext.com網(wǎng)站統(tǒng)計，大約有1.5萬至51K的內(nèi)容類型，并且這個數(shù)字還在與日俱增。數(shù)據(jù)被存儲在不同的格式，如文本文檔，excel表格，PDF，圖像和多媒體文件，僅舉幾例。因此，應(yīng)用程序如搜索引擎和內(nèi)容管理系統(tǒng)需要從這些文檔類型容易提取數(shù)據(jù)的額外的支持。Apache Tika 通過提供一個通用的API來檢測并提取多種文件格式的數(shù)據(jù)服務(wù)達到這一目的。

Apache Tika 應(yīng)用

有各種各樣的應(yīng)用程序使用Apache Tika。在這里，我們將討論嚴重依賴Apache Tika幾個突出的應(yīng)用。

搜索引擎

開發(fā)搜索引擎索引的數(shù)字文檔的文本內(nèi)容使Tika被廣泛使用。

搜索引擎是用于搜索的網(wǎng)頁信息和索引文件的信息處理系統(tǒng)。
抓取工具是通過Web抓取獲取使用一些索引技術(shù)被索引的文件搜索引擎的重要組成部分。此后，抓取工具傳送這些索引文件提取成分。
提取成分的職責是提取文檔中的文本和元數(shù)據(jù)。這樣提取的內(nèi)容和元數(shù)據(jù)是對搜索引擎非常有用。該提取組件包含在Tika中。
然后將提取的內(nèi)容被傳遞到使用它來建立一個搜索索引搜索引擎的索引器。此外，該搜索引擎使用許多其它方式提取的內(nèi)容也是如此。

文檔分析

在人工智能領(lǐng)域，有一定的工具來自動分析文件在語義層面，并提取各種數(shù)據(jù)來自他們。
在這種應(yīng)用中，這些文件是基于在文檔的所提取的內(nèi)容的突出方面進行分類。
這些工具使用提Tika內(nèi)容提取分析從純文本到不同的數(shù)字文檔文件。

數(shù)字資產(chǎn)管理

有些組織管理他們的數(shù)字資產(chǎn)，如使用一種稱為數(shù)字資產(chǎn)管理（DAM）的特殊應(yīng)用程序的照片，電子書，繪圖，音樂和視頻。
這樣的應(yīng)用程序采取的文件類型檢測器和元數(shù)據(jù)提取器的幫助下到的各種文件進行分類。

內(nèi)容分析

像亞馬遜網(wǎng)站建議根據(jù)自己的興趣剛剛發(fā)布了他們的網(wǎng)站內(nèi)容向個人用戶。要做到這一點，這些網(wǎng)站遵循機器學(xué)習(xí)技術(shù)，或采取了類似Facebook的社交媒體網(wǎng)站的幫助下，以提取所需的信息，如喜歡和用戶的利益。此收集到的信息將在HTML標簽或其他格式需要另外的內(nèi)容類型檢測和提取的形式。
為一個文件，內(nèi)容分析，我們有實現(xiàn)，如UIMA和Mahout的機器學(xué)習(xí)技術(shù)的技術(shù)。這些技術(shù)是在聚類和分析中的文件中的數(shù)據(jù)是有用的。
Apache Mahout是一個框架，它提供基于Apache Hadoop的ML算法- 一個云計算平臺。 Mahout 提供了下面的某個集群和過濾技術(shù)的架構(gòu)。按照這個架構(gòu)，程序員可以編寫自己的ML算法，通過采取各種文本和元數(shù)據(jù)的組合來產(chǎn)生建議。提供輸入這些算法，最近Mahout的版本使用Tika提取二進制內(nèi)容的文本和元數(shù)據(jù)。
Apache UIMA 分析和處理各種編程語言，并產(chǎn)生UIMA注解。在內(nèi)部，它使用提卡注解者抽取文檔中的文本和元數(shù)據(jù)。

歷史

年份	開發(fā)
2006	Tika的想法是在Lucene項目管理委員會之前設(shè)計的。
2006	Tika及其在Jackrabbit項目有用的概念進行了討論。
2007	Tika進入Apache孵化器。
2008	版本0.1和0.2發(fā)布，Tika從孵化器到Lucene子項目獨立。
2009	版本0.3，0.4，和0.5發(fā)布。
2010	版本0.6和0.7發(fā)布，Tika進入Apache的頂級項目。
2011	Tika1.0發(fā)布，并Tika的書籍“Tika in Action”也在同一年被發(fā)布。

上一篇：TIKA提取HTML文檔下一篇：TIKA參考API