天堂va在线高清一区,在线看片免费人成视久网,日韩大片b站免费观看直播

盤點(diǎn)一個英文文本中統(tǒng)計關(guān)鍵詞的方法

發(fā)布日期：2022-12-07 18:08:24 作者：微生翼虎瀏覽次數(shù)：89

導(dǎo)讀

大家好，我是皮皮。一、前言前幾天在Python最強(qiáng)王者交流群【W(wǎng)endy Zheng】問了一個英文文本中統(tǒng)計關(guān)鍵詞得問題，這里拿出來給大家分享下。二、實(shí)現(xiàn)過程針對這個問題，感謝給出一個思路方法，也許有幫助，首先我們需

大家好，我是皮皮。

一、前言

前幾天在Python最強(qiáng)王者交流群【W(wǎng)endy Zheng】問了一個英文文本中統(tǒng)計關(guān)鍵詞得問題，這里拿出來給大家分享下。

二、實(shí)現(xiàn)過程

針對這個問題，感謝給出一個思路方法，也許有幫助，首先我們需要將Excel中得文本進(jìn)行導(dǎo)入到一個文感謝件中去，代碼如下：

# coding: utf-8import pandas as pddf = pd.read_excel('./文本.xlsx')# print(df.head())# df['可以關(guān)鍵詞']for text in df['工作要求']: # print(text) if text is not None: with open('工作要求.txt', mode='a', encoding='utf-8') as file: file.write(str(text))print('寫入完成')

接下來就可以針對這個文感謝件進(jìn)行相關(guān)得詞頻統(tǒng)計了，如果你有自己自定義得關(guān)鍵詞，也可以就著關(guān)鍵詞去統(tǒng)計，沒有得話，就自己在關(guān)鍵詞范圍內(nèi)，任意取多少個關(guān)鍵詞都可以，相關(guān)得代碼如下所示：

from collections import Counterimport pandas as pddf = pd.read_excel('./文本.xlsx')# print(df.head())words = []with open('工作要求.txt', 'r', encoding='utf-8') as f: line = f.readlines() for word in line[0].split(' '): words.append(word)print(len(words))counter = Counter(words)# print(counter)# df['可以關(guān)鍵詞']for text in df['可以關(guān)鍵詞']: for k, v in counter.items(): if k == text: print(k, v)

這個代碼對于英文文本還是適用得，不過有個小問題，如下。

最后這里也給出中文分詞得代碼和可視化代碼，兩者結(jié)合在一起得，感興趣得小伙伴們可以試試看。

from collections import Counter # 統(tǒng)計詞頻from pyecharts.charts import Barfrom pyecharts import options as optsfrom snownlp import SnowNLPimport jieba # 分詞with open('text_分詞后_outputs.txt', 'r',encoding='utf-8') as f: read = f.read()with open('stop_word.txt', 'r', encoding='utf-8') as f: stop_word = f.read()word = jieba.cut(read)words = []for i in list(word): if i not in stop_word: words.append(i)columns = []data = []for k, v in dict(Counter(words).most_common(10)).items(): columns.append(k) data.append(v)bar = ( Bar() .add_xaxis(columns) .add_yaxis("詞頻", data) .set_global_opts(title_opts=opts.TitleOpts(title="詞頻top10")) )bar.render("詞頻.html")三、總結(jié)

大家好，我是皮皮。這篇文章主要盤點(diǎn)了一個英文文本中統(tǒng)計關(guān)鍵詞方法處理得問題，文中針對該問題，給出了具體得解析和代碼實(shí)現(xiàn)，幫助粉絲順利解決了問題。

最后感謝粉絲【W(wǎng)endy Zheng】提問，感謝【Python進(jìn)階者】給出得思路和代碼解析，感謝【Python狗】等人參與學(xué)習(xí)交流。

(文/微生翼虎)

• 竇驍敷著面膜求婚__何超蓮轉(zhuǎn)頭一看大叫「這是什	• 聚焦“雙碳”目標(biāo)_可能建言建深地工廠發(fā)展儲能
• 骨科醫(yī)生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業(yè)“315”大促_通過4種
• 你有多高？研究發(fā)現(xiàn)_一個人的身高_(dá)會影響他的收	• 強(qiáng)降溫即將到來_四川盆地這些城市未來72小時約
• 韓學(xué)者警告_韓國國內(nèi)過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團(tuán)圓滋味
• 查出疝氣沒當(dāng)回事_六旬女子內(nèi)臟“大挪移”	• 八旬老人倒地？_果斷扶_事發(fā)泉州市區(qū)街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環(huán)（焊接吊	吸塑托盤與注塑托盤生

VIP

推廣服務(wù)

盤點(diǎn)一個英文文本中統(tǒng)計關(guān)鍵詞的方法