요즘 텍스트 데이터가 넘쳐나는 시대라죠? 글자 그대로 하늘의 별 따기처럼 보일 수 있지만, 걱정 붙들어 매세요!
오늘은 R로 텍스트 마이닝을 뚝딱뚝딱 해보는 방법을 알려드릴게요. 밥 먹듯이 할 수 있게 쉽게 풀어보겠습니다!
텍스트 마이닝이 뭐길래?
간단히 말해 텍스트 마이닝은 방대한 텍스트에서 숨은 패턴을 찾아내는 작업이에요.
유용한 정보만 쏙쏙 뽑아낼 수 있죠. 예를 들어 트위터, 리뷰, 기사 등에서 자주 언급되는 키워드를 뽑아낼 수 있어요.
"이걸 내가 할 수 있을까?" 걱정은 노노! R이라는 도구만 있으면 어렵지 않아요. 백문이 불여일타! 바로 실습해볼까요?
R로 텍스트 마이닝, 하나도 안 어렵다니까요!
1. 데이터 준비부터 시작!
먼저 텍스트 데이터를 준비해야겠죠? 간단하게 몇 개 문장을 준비해봅시다.
text_data <- c("이 영화는 꿀잼이야!", "완전 노잼이네...", "이 노래 중독성 갑!")
2. 텍스트 전처리
텍스트 분석에서는 데이터가 깨끗해야해요. 싹 다 갈아엎기 느낌으로 필요 없는 부분을 정리해봅시다.
library(KoNLP) # 한국어 형태소 분석기
useNIADic() # 사전 설정
# 형태소 분석으로 명사만 추출
parsed_text <- sapply(text_data, extractNoun, USE.NAMES = FALSE)
print(parsed_text)
출력 결과는 이렇게 나옵니다:
[['영화', '꿀잼'], ['노잼'], ['노래', '중독성']]
3. 단어 빈도 분석
단어가 얼마나 자주 나오는지 살펴볼까요? 이 과정이 바로 알짜배기 정보를 얻는 포인트에요!
library(dplyr)
word_freq <- unlist(parsed_text) %>%
table() %>%
as.data.frame()
colnames(word_freq) <- c("word", "frequency")
print(word_freq)
결과:
word | frequency |
꿀잼 | 1 |
노잼 | 1 |
노래 | 1 |
중독성 | 1 |
영화 | 1 |
시각화로 한눈에 보자!
워드클라우드 생성
이제 한 방에 이해할 수 있게 워드클라우드를 만들어 봅시다!
install.packages("wordcloud")
library(wordcloud)
wordcloud(words = word_freq$word,
freq = word_freq$frequency,
min.freq = 1,
random.order = FALSE,
colors = brewer.pal(8, "Dark2"))
이렇게 하면 자주 등장한 단어가 크게 보이죠? 마치 하이라이트 된 것처럼 말이에요!
텍스트 마이닝, 이제 별 거 아니죠?
지금까지 텍스트 마이닝을 간단하게 살펴봤어요. 시작이 반이라고 했으니, 여기까지 왔다면 절반은 성공!
R과 함께라면 텍스트 분석도 누워서 떡 먹기랍니다.
앞으로도 더 많은 데이터로 재밌는 분석을 해보세요. 그럼 오늘도 화이팅 하세요!
🔻🔻🔻
'IT 교육지식' 카테고리의 다른 글
2025년 주목할 프로그래밍 언어 TOP 5 개발자를 위한 트렌드 가이드 🚀 (3) | 2024.12.24 |
---|---|
💻 풀스택 개발자 되는 방법과 커리어 팁 (1) | 2024.12.19 |
동성로코딩학원 코딩 공부 고민 끝 (2) | 2024.12.17 |
대구코딩학원 취업 준비, 자격증 취득 한번에 (1) | 2024.12.16 |
비전공자를 위한 IT 직무 전환 가이드 🖥️ (1) | 2024.12.13 |