波多野结衣视频一区二区I欧美精品首页I午夜精品一二三区I国产日韩在线播放I成人精品福利I99视频在线I亚洲在线I久久精品99久久久久久2456

電話010-88998848 郵箱admin@transbit.cn

北京市場(chǎng)調(diào)查-市場(chǎng)調(diào)研公司-滿(mǎn)意度調(diào)查 華夏經(jīng)緯北京

行業(yè)動(dòng)態(tài)

當(dāng)前位置:首頁(yè) > 新聞中心 > 行業(yè)動(dòng)態(tài) > 正文

文本挖掘到底是什么鬼?

時(shí)間:2018-12-13 15:04 閱讀:1612 整理:市場(chǎng)調(diào)研公司

文本挖掘是從文本數(shù)據(jù)中獲得價(jià)值信息的方法,涵蓋多個(gè)學(xué)科,也有多種用途。本文介紹了文本挖掘的主要作用、基本操作步驟以及操作工具。

一、什么是文本挖掘

文本挖掘指的是從文本數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),它是數(shù)據(jù)挖掘中的一種方法。文本挖掘中最重要最基本的應(yīng)用是實(shí)現(xiàn)文本的分類(lèi)和聚類(lèi),前者是有監(jiān)督的挖掘算法,后者是無(wú)監(jiān)督的挖掘算法。

文本挖掘是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了多種技術(shù),包括數(shù)據(jù)挖掘技術(shù)、信息抽取、信息檢索,機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。

二、文本挖掘有什么用

1、文本分類(lèi)

文本分類(lèi)是一種典型的機(jī)器學(xué)習(xí)方法,一般分為訓(xùn)練和分類(lèi)兩個(gè)階段。文本分類(lèi)一般采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)。

2、文本聚類(lèi)

文本聚類(lèi)是一種典型的無(wú)監(jiān)督式機(jī)器學(xué)習(xí)方法,聚類(lèi)方法的選擇取決于數(shù)據(jù)類(lèi)型。

首先,文檔聚類(lèi)可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識(shí)工作者發(fā)現(xiàn)相關(guān)知識(shí);其次,文檔聚類(lèi)可以將一類(lèi)文檔聚類(lèi)成若干個(gè)類(lèi),提供一種組織文檔集合的方法;再次,文檔聚類(lèi)還可以生成分類(lèi)器以對(duì)文檔進(jìn)行分類(lèi)。

文本挖掘中的聚類(lèi)可用于:提供大規(guī)模文檔內(nèi)容總括;識(shí)別隱藏的文檔間的相似度;減輕瀏覽相關(guān)、相似信息的過(guò)程。

3、信息檢索

主要是利用計(jì)算機(jī)系統(tǒng)的快速計(jì)算能力,從海量文檔中尋找用戶(hù)需要的相關(guān)文檔。

4、信息抽取

信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息。

5、自動(dòng)文摘

利用計(jì)算機(jī)自動(dòng)的從原始文檔中提取出文檔的主要內(nèi)容。互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫(kù)的內(nèi)容都在成指數(shù)級(jí)的速度增長(zhǎng),用戶(hù)在檢索信息的時(shí)候,可以得到成千上萬(wàn)篇的返回結(jié)果,其中許多是與其信息需求無(wú)關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶(hù)付出很多勞動(dòng),而且效果不好。

自動(dòng)文摘能夠生成簡(jiǎn)短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶(hù),以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時(shí)間。簡(jiǎn)單地說(shuō)自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)地從原始文檔中提取全面準(zhǔn)確地反映該文檔中心內(nèi)容的簡(jiǎn)單連貫的短文。

自動(dòng)文摘具有以下特點(diǎn):

(1)自動(dòng)文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動(dòng)提取出來(lái)。

(2)文摘應(yīng)具有概況性、客觀性、可理解性和可讀性。

(3)可適用于任意領(lǐng)域。

按照生成文摘的句子來(lái)源,自動(dòng)文摘方法可以分成兩類(lèi),一類(lèi)是完全使用原文中的句子來(lái)生成文摘,另一類(lèi)是可以自動(dòng)生成句子來(lái)表達(dá)文檔的內(nèi)容。后者的功能更強(qiáng)大,但在實(shí)現(xiàn)的時(shí)候,自動(dòng)生成句子是一個(gè)比較復(fù)雜的問(wèn)題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。

6、自動(dòng)問(wèn)答

自動(dòng)問(wèn)答是指對(duì)于用戶(hù)提出的問(wèn)題,計(jì)算機(jī)可以自動(dòng)的從相關(guān)資料中求解答案并作出相應(yīng)的回答。自動(dòng)問(wèn)答系統(tǒng)一般包括 3 個(gè)組成部分:?jiǎn)栴}分析、信息檢索和答案抽取。

7、機(jī)器翻譯

利用計(jì)算機(jī)將一種源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N源語(yǔ)言的過(guò)程。

8、信息過(guò)濾

指計(jì)算機(jī)系統(tǒng)可以自動(dòng)的進(jìn)行過(guò)濾操作,將滿(mǎn)足條件的信息保留,將不滿(mǎn)足條件的文檔過(guò)濾掉。信息過(guò)濾技術(shù)主要用于信息安全領(lǐng)域。

9、自動(dòng)語(yǔ)音識(shí)別

自動(dòng)語(yǔ)音識(shí)別就是將輸入計(jì)算機(jī)的自然語(yǔ)言轉(zhuǎn)換成文本表示的書(shū)面語(yǔ)。

三、文本挖掘操作步驟

1、獲取文本

現(xiàn)有文本數(shù)據(jù)導(dǎo)入,或者通過(guò)如網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)獲取網(wǎng)絡(luò)文本,主要是獲取網(wǎng)頁(yè)HTML的形式。我們要把網(wǎng)絡(luò)中的文本獲取文本數(shù)據(jù)庫(kù)(數(shù)據(jù)集)。編寫(xiě)爬蟲(chóng)程序,抓取到網(wǎng)絡(luò)中的信息。

2、文本預(yù)處理

指剔除噪聲文檔以改進(jìn)挖掘精度,或者在文檔數(shù)量過(guò)多時(shí)僅選取一部分樣本以提高挖掘效率。

例如網(wǎng)頁(yè)中存在很多不必要的信息,比如說(shuō)一些廣告,導(dǎo)航欄,html、js代碼,注釋等等并不需要的信息,可以刪除掉。如果是需要正文提取,可以利用標(biāo)簽用途、標(biāo)簽密度判定、數(shù)據(jù)挖掘思想、視覺(jué)網(wǎng)頁(yè)塊分析技術(shù)等等策略抽取出正文。

3、文本的語(yǔ)言學(xué)處理

(1)分詞

經(jīng)過(guò)上面的步驟,我們會(huì)得到比較干凈的素材。文本中起到關(guān)鍵作用的是一些詞,甚至主要詞就能起到?jīng)Q定文本取向。比如說(shuō)一篇文章講的是政治還是經(jīng)濟(jì),肯定是對(duì)文章中的中心詞進(jìn)行分析得到的結(jié)果。 所以接下來(lái)的步驟就是分詞。

分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,唯獨(dú)詞沒(méi)有一個(gè)形式上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題,不過(guò)在詞這一層上,中文比之英文要復(fù)雜得多、困難得多。

現(xiàn)在針對(duì)中文分詞,出現(xiàn)了很多分詞的算法,有最大匹配法、最優(yōu)匹配法、機(jī)械匹配法、逆向匹配法、雙向匹配法等等。

(2)詞性標(biāo)注

同時(shí)也可以使用詞性標(biāo)注。通過(guò)很多分詞工具分出來(lái)的出會(huì)出現(xiàn)一個(gè)詞,外加該詞的詞性。比如說(shuō)啊是語(yǔ)氣助詞。

(3)去除停用詞

比如說(shuō)句號(hào)、是、的等詞,沒(méi)有什么實(shí)際的意義。然而這些詞在所有的文章中都大量存在,并不能反應(yīng)出文本的意思,可以處理掉。當(dāng)然針對(duì)不同的應(yīng)用還有很多其他詞性也是可以去掉的,比如形容詞等。

4、文本的數(shù)學(xué)處理-特征提取

我們希望獲取到的詞匯,既能保留文本的信息,同時(shí)又能反映它們的相對(duì)重要性。如果對(duì)所有詞語(yǔ)都保留,維度會(huì)特別高,矩陣將會(huì)變得特別稀疏,嚴(yán)重影響到挖掘結(jié)果。所以這就需要特征提取。

特征選取的方式有4種:

(1)用映射或變換的方法把原始特征變換為較少的新特征;

(2)從原始特征中挑選出一些最具代表性的特征;

(3)根據(jù)專(zhuān)家的知識(shí)挑選最有影響的特征;

(4)用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類(lèi)信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動(dòng)分類(lèi)挖掘系統(tǒng)的應(yīng)用。

5、分類(lèi)聚類(lèi)

經(jīng)過(guò)上面的步驟之后,我們就可以把文本集轉(zhuǎn)化成一個(gè)矩陣。我們能夠利用各種算法進(jìn)行挖掘,比如說(shuō)如果要對(duì)文本集進(jìn)行分類(lèi),分類(lèi)常用的方法有:簡(jiǎn)單貝葉斯分類(lèi)法,矩陣變換法、K-最近鄰參照分類(lèi)算法以及支持向量機(jī)分類(lèi)方法等。

聚類(lèi)方法通常有:層次聚類(lèi)法、平面劃分法、簡(jiǎn)單貝葉斯聚類(lèi)法、K-最近鄰聚類(lèi)法、分級(jí)聚類(lèi)法等。

6、數(shù)據(jù)可視化

最后一步當(dāng)然就是數(shù)據(jù)結(jié)構(gòu)的可視化展示,通過(guò)合適的可視化圖形生動(dòng)形象展示,讓讀者聽(tīng)眾更容易理解你所要表達(dá)的信息。

文本可視化最常用的圖形就是詞云。

四、文本挖掘工具

1、python語(yǔ)言jieba、gensim、sklearn、WordCloud和matplotlib包

2、R語(yǔ)言jieba、tm、tmcn、Rwordseg和wordcloud包

3、SAS text miner

4、SPSS Text Mining

關(guān)注公眾號(hào)
獲取更多行業(yè)資訊

免責(zé)聲明:
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來(lái)源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場(chǎng)。 如涉及侵權(quán),請(qǐng)聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。

相關(guān)新聞

QQ在線咨詢(xún)
給我們留言

咨詢(xún)電話

010-88998848

關(guān)注公眾號(hào)

電話回?fù)?/p>

主站蜘蛛池模板: 天天插天天操天天干 | 99热这里只有精品国产首页 | 欧美日韩啪啪 | 免费男女羞羞的视频网站中文字幕 | 99国产一区二区三精品乱码 | 97在线观看视频免费 | 日日射av | 免费美女av| 成人h电影在线观看 | 九九免费在线视频 | 日韩欧美在线综合网 | 亚洲欧美视频在线播放 | 天天插天天狠天天透 | 国产精品初高中精品久久 | 国产大陆亚洲精品国产 | 免费在线一区二区 | 麻豆国产视频 | 中文字幕在线观看网站 | 国内精品久久久 | 免费性网站 | 亚洲一级二级三级 | 天天做天天爱天天综合网 | 高清在线观看av | 91九色视频在线 | wwwav视频 | 国产又粗又猛又色又黄网站 | 日韩在线视频线视频免费网站 | 日韩免费成人av | 在线观看黄网站 | 91精品国产91p65 | 日韩a级免费视频 | 国产不卡av在线播放 | 久久伊人五月天 | 精品99免费 | 黄色在线观看污 | 在线精品亚洲一区二区 | 免费看成人片 | 中文字幕免费高清av | 婷婷六月丁 | 久久免费视频在线观看6 | 97视频在线免费观看 | 久久综合操 | 可以免费观看的av片 | 最近中文字幕大全 | 日韩字幕 | 亚洲人成精品久久久久 | 精品96久久久久久中文字幕无 | 美女视频久久 | 国产91对白在线播 | 国语自产偷拍精品视频偷 | 免费黄色av片 | 五月视频 | 久久好看 | 成人av电影免费 | 欧美 亚洲 另类 激情 另类 | 久草在线免费在线观看 | 亚洲一区二区观看 | 国产日韩欧美在线免费观看 | 国产尤物在线视频 | 国产在线国偷精品产拍免费yy | 欧美激情精品久久久久久变态 | 日韩精品免费在线视频 | 黄色软件大全网站 | 手机在线黄色网址 | 精品国产乱码一区二区三区在线 | 波多野结衣电影久久 | 精品国产乱子伦一区二区 | 欧美成年网站 | 午夜精品久久久 | 狠狠操狠狠操 | av资源在线观看 | 国产视频一区二区在线播放 | 成年人电影免费在线观看 | 免费av影视| 日日爽日日操 | 狠狠干天天色 | 国产一级精品视频 | 亚洲精品色视频 | 国产一区二区在线播放视频 | 久久久免费看片 | 日韩美av在线 | 97超碰人人模人人人爽人人爱 | 亚洲欧美日韩在线看 | 国内丰满少妇猛烈精品播 | 麻花豆传媒mv在线观看 | 久久精品99国产精品亚洲最刺激 | 国产精品视频全国免费观看 | 亚洲h色精品| 9在线观看免费高清完整版在线观看明 | 麻豆传媒视频在线播放 | 伊人色播 | 美国三级黄色大片 | 超碰九九| 91人人澡人人爽 | 999久久久免费视频 午夜国产在线观看 | 91麻豆福利 | 日韩中文字幕在线看 | 日韩久久视频 | 国产免费视频一区二区裸体 |