티스토리 뷰
728x90
프로젝트명 : 한글 워드클라우드 만들기¶
1. 한글자연어 처리 라이브러리 설치¶
In [2]:
# !pip install KoNLPy
In [ ]:
from konlpy.tag import Twitter
from collections import Counter
2. 데이터 불러오기¶
In [42]:
file = open('텍스트파일 경로', 'r')
lists = file.readlines()
file.close()
lists
3. 형태소 분석¶
In [69]:
twitter = Twitter()
morphs = []
for sentence in lists:
morphs.append(twitter.pos(sentence))
print(morphs)
In [70]:
noun_adj_adv_list=[]
for sentence in morphs :
for word, tag in sentence :
if tag in ['Noun'] and ("것" not in word) and ("내" not in word)and ("나" not in word)and ("수"not in word) and("게"not in word)and("말"not in word):
noun_adj_adv_list.append(word)
print(noun_adj_adv_list)
In [9]:
count = Counter(noun_adj_adv_list)
In [10]:
words = dict(count.most_common())
4. 워드클라우드 만들기¶
- 워드클라우드 라이브러리 설치
In [15]:
# !pip install WordCloud
In [16]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords
In [58]:
%matplotlib inline
import matplotlib
from matplotlib import rc
rc('font', family='NanumBarunGothic')
In [61]:
from wordcloud import WordCloud
wordcloud = WordCloud(
font_path = '/Library/Fonts/NanumBarunGothic.ttf', # 맥에선 한글폰트 설정 잘해야함.
background_color='white', # 배경 색깔 정하기
colormap = 'Accent_r', # 폰트 색깔 정하기
width = 800,
height = 800
)
wordcloud_words = wordcloud.generate_from_frequencies(words)
In [67]:
array = wordcloud.to_array()
print(type(array)) # numpy.ndarray
print(array.shape) # (800, 800, 3)
fig = plt.figure(figsize=(10, 10))
plt.imshow(array, interpolation="bilinear")
plt.axis('off')
plt.show()
fig.savefig('business_anlytics_worldcloud.png')
In [ ]:
In [ ]:
728x90
'Data Analytics > Python cheat sheets' 카테고리의 다른 글
파이썬 폴더 내 파일명 한번에 변경하기 (0) | 2021.12.29 |
---|---|
Jupyter notebook 형식으로 tistory blog 글쓰기 (0) | 2021.12.28 |
python 파이썬 폴더 내 파일리스트 가져오기 (0) | 2021.12.28 |
python 두 리스트(list) 간의 같은값 찾기 (python list comprehensive) (0) | 2021.12.27 |
Python(파이썬) list (리스트)에 데이터 추가, 삭제하기 (0) | 2021.12.26 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 브랜딩기획
- python 크롤러 기초
- 파이썬
- 보스턴집가격
- Mac MongoDB install
- python crawler
- early_stopping_rounds
- wowork
- GPT4
- 위워크후기
- load_boston
- python 스크래핑 기초
- 데이터분석
- 알바천국 크롤러
- 판매량예측
- 맥OS 몽고DB 설치
- 맥북 몽고DB 설치
- 보스턴주택가격
- 형태소분석
- 위워크서울스퀘어
- 맥북 몽고DB 실행
- Python
- 알바천국 스크래핑
- 파이썬 스크래핑
- 파이썬 리스트 연산
- lightgbm early stopping
- gpt3.5
- mac mongodb 설치
- ChatModel
- 위워크서울역
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함