一個典型的技術(shù)運(yùn)用運(yùn)營工作的案例
相信很多運(yùn)營及編輯的同學(xué)在工作中都會遇到各種文本處理的問題,如這篇文章放哪里?這類內(nèi)容在什么頻道?有過在大型網(wǎng)站工作過的同學(xué)肯定會深受其害,很多也是導(dǎo)致各種‘忙成狗’的原因之一,去年騰訊的機(jī)器編輯新聞可能大家都不陌生,大家回想以后是不是不需要編輯啦之類的問題,其實(shí)一些東西確實(shí)是可以通過技術(shù)解決的,今天就發(fā)現(xiàn)一個通過技術(shù)實(shí)現(xiàn)文本自動分類的例子
首先幾個名字
1自然語言處理
2機(jī)器學(xué)習(xí)
3詞向量
感興趣的同學(xué)可以去網(wǎng)上查查相關(guān)的名詞了解下,對經(jīng)常與文字打交道的童鞋來說,了解這些技術(shù)東西還是非常有必要的。
進(jìn)入主題
使用的工具
1 Python
2 textgrocery庫
不會技術(shù)的同學(xué)先不要慌,我相信很多同學(xué)大學(xué)都有學(xué)過 c語言,沒錯 只要您了解基本的編程知識,了解下Python這門語言就夠用啦!
還是來講講Python的安裝吧 這里不給大家詳細(xì)講了,直接上一個window系統(tǒng)下安裝Python的教程和安裝軟件一樣的簡單。
http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html
現(xiàn)在的Python版本都集成的下載(pip install)功能
安裝好 Python后 ,打開電腦輸入 CMD 按enter打開cmd窗口
輸入 pip install tgrocery
到這里你需要的工具都準(zhǔn)備完成了
給大家上一段 grocery官方文檔的地址
http://textgrocery.readthedocs.io/zh/latest/quick-start.html
重點(diǎn)說下原理
看懂了嗎?沒錯就這么簡單
可以預(yù)見這段代碼的執(zhí)行后的結(jié)果
當(dāng)然這只是對文章的標(biāo)題進(jìn)行分析,
結(jié)果肯定不準(zhǔn)確,如果想對文章內(nèi)容進(jìn)行分析本進(jìn)行歸類的話,其實(shí)也不是特別麻煩
現(xiàn)在主流的網(wǎng)站包括今日頭條、騰訊、等等都有自己的一套文本分析系統(tǒng)。既沒有想象中的那么復(fù)雜,當(dāng)然也沒有想象中的那么簡單。無非就是兩個規(guī)程,
1分析文章的內(nèi)容,
2對1分析出來的結(jié)果進(jìn)行對比匹配,
包括什么欄目啊,相似文章,文章關(guān)鍵詞 等等都可以通過這兩步搞定。
有空可以再教大家怎么利用技術(shù)批量找到大量文章的關(guān)鍵詞!
