鍍金池/ 教程/ Java/ Tika教程
TIKA圖形界面/GUI
TIKA架構(gòu)
TIKA提取XML文檔
TIKA語言檢測
TIKA參考API
TIKA環(huán)境配置
TIKA提取圖像文件
TIKA內(nèi)容提取
TIKA元數(shù)據(jù)提取
TIKA提取HTML文檔
TIKA提取ODF
TIKA文件格式
TIKA提取文本文檔
TIKA提取PDF
TIKA提取MP3文件
TIKA文件類型檢測
Tika教程
TIKA提取JAR文件
TIKA提取MS Office文件
TIKA提取.class文件
TIKA提取mp4文件

Tika教程

Apache Tika 是什么?

  • Apache Tika用于文件類型檢測和從各種格式的文件內(nèi)容提取的庫。

  • 在內(nèi)部,Tika使用現(xiàn)有的各種文件解析器和文檔類型的檢測技術(shù)來檢測和提取數(shù)據(jù)。

  • 使用Tika,人們可以開發(fā)出通用型檢測器和內(nèi)容提取到的不同類型的文件,如電子表格,文本文件,圖像,PDF文件甚至多媒體輸入格式,在一定程度上提取結(jié)構(gòu)化文本以及元數(shù)據(jù)。

  • Tika提供用于解析不同文件格式的一個通用API。它采用83個現(xiàn)有的專業(yè)解析器庫,為每個文檔類型。

  • 所有這些解析器庫是根據(jù)一個叫做Parser接口單一接口封裝。

Appache Tika

為什么用Tika?

據(jù)filext.com網(wǎng)站統(tǒng)計,大約有1.5萬至51K的內(nèi)容類型,并且這個數(shù)字還在與日俱增。數(shù)據(jù)被存儲在不同的格式,如文本文檔,excel表格,PDF,圖像和多媒體文件,僅舉幾例。因此,應(yīng)用程序如搜索引擎和內(nèi)容管理系統(tǒng)需要從這些文檔類型容易提取數(shù)據(jù)的額外的支持。Apache Tika 通過提供一個通用的API來檢測并提取多種文件格式的數(shù)據(jù)服務(wù)達到這一目的。

Apache Tika 應(yīng)用

有各種各樣的應(yīng)用程序使用Apache Tika。在這里,我們將討論嚴重依賴Apache Tika幾個突出的應(yīng)用。

搜索引擎

開發(fā)搜索引擎索引的數(shù)字文檔的文本內(nèi)容使Tika被廣泛使用。

  • 搜索引擎是用于搜索的網(wǎng)頁信息和索引文件的信息處理系統(tǒng)。

  • 抓取工具是通過Web抓取獲取使用一些索引技術(shù)被索引的文件搜索引擎的重要組成部分。此后,抓取工具傳送這些索引文件提取成分。

  • 提取成分的職責是提取文檔中的文本和元數(shù)據(jù)。這樣提取的內(nèi)容和元數(shù)據(jù)是對搜索引擎非常有用。該提取組件包含在Tika中。

  • 然后將提取的內(nèi)容被傳遞到使用它來建立一個搜索索引搜索引擎的索引器。此外,該搜索引擎使用許多其它方式提取的內(nèi)容也是如此。

Search Engine

文檔分析

  • 在人工智能領(lǐng)域,有一定的工具來自動分析文件在語義層面,并提取各種數(shù)據(jù)來自他們。

  • 在這種應(yīng)用中,這些文件是基于在文檔的所提取的內(nèi)容的突出方面進行分類。

  • 這些工具使用提Tika內(nèi)容提取分析從純文本到不同的數(shù)字文檔文件。

數(shù)字資產(chǎn)管理

  • 有些組織管理他們的數(shù)字資產(chǎn),如使用一種稱為數(shù)字資產(chǎn)管理(DAM)的特殊應(yīng)用程序的照片,電子書,繪圖,音樂和視頻。

  • 這樣的應(yīng)用程序采取的文件類型檢測器和元數(shù)據(jù)提取器的幫助下到的各種文件進行分類。

內(nèi)容分析

  • 像亞馬遜網(wǎng)站建議根據(jù)自己的興趣剛剛發(fā)布了他們的網(wǎng)站內(nèi)容向個人用戶。要做到這一點,這些網(wǎng)站遵循機器學(xué)習(xí)技術(shù),或采取了類似Facebook的社交媒體網(wǎng)站的幫助下,以提取所需的信息,如喜歡和用戶的利益。此收集到的信息將在HTML標簽或其他格式需要另外的內(nèi)容類型檢測和提取的形式。

  • 為一個文件,內(nèi)容分析,我們有實現(xiàn),如UIMA和Mahout的機器學(xué)習(xí)技術(shù)的技術(shù)。這些技術(shù)是在聚類和分析中的文件中的數(shù)據(jù)是有用的。

  • Apache Mahout是一個框架,它提供基于Apache Hadoop的ML算法- 一個云計算平臺。 Mahout 提供了下面的某個集群和過濾技術(shù)的架構(gòu)。按照這個架構(gòu),程序員可以編寫自己的ML算法,通過采取各種文本和元數(shù)據(jù)的組合來產(chǎn)生建議。提供輸入這些算法,最近Mahout的版本使用Tika提取二進制內(nèi)容的文本和元數(shù)據(jù)。

  • Apache UIMA 分析和處理各種編程語言,并產(chǎn)生UIMA注解。在內(nèi)部,它使用提卡注解者抽取文檔中的文本和元數(shù)據(jù)。

歷史

年份 開發(fā)
2006 Tika的想法是在Lucene項目管理委員會之前設(shè)計的。
2006 Tika及其在Jackrabbit項目有用的概念進行了討論。
2007 Tika進入Apache孵化器。
2008 版本0.1和0.2發(fā)布,Tika從孵化器到Lucene子項目獨立。
2009 版本0.3,0.4,和0.5發(fā)布。
2010 版本0.6和0.7發(fā)布,Tika進入Apache的頂級項目。
2011 Tika1.0發(fā)布,并Tika的書籍“Tika in Action”也在同一年被發(fā)布。


上一篇:TIKA提取HTML文檔下一篇:TIKA參考API