데이터를 분석하다 보면 시각화가 상당히 중요합니다. 그리고 시각화에서 수치를 표현하기 좋은 일반적인 차트에 대해서 다양한 방법을 알아보려고 합니다. 그 중 Python의 Matplotlib (Library Document)은 데이터를 시각화하는 데 사용되는 가장 인기 있는 라이브러리 입니다.

그래프, 차트, 플롯 등 다양한 형태의 시각적 표현을 쉽게 생성할 수 있도록 도와주고, 이 라이브러리는 단순한 선 그래프부터 히스토그램, 산점도, 파이 차트 등 복잡한 그래픽까지 다양하게 지원합니다.

Matplotlib 는 세부적인 그래프 스타일링 옵션을 제공해서 사용자가 전문적인 수준의 시각화를 만들 수 있게 해줍니다. 또한, NumPy와 같은 다른 데이터 처리 라이브러리와 잘 통합되어서 과학 계산 작업에 매우 유용하게 쓰이죠.

이 그림은 matplotlib에서 이야기하는 용어를 정리해 놓은 이미지로 공식 홈페이지에 있습니다.

Matplotlib Code

# pip install -U matplotlib

import numpy as np
import matplotlib.pyplot as plt

plt.title("Drawing Multi-Line Graphs")

x = [0, 1, 2, 3, 4, 5]
y = [1, 2, 4, 6, 8, 10]
plt.plot(x, y, '.-', color = 'black' , label = 'meaning')

t = np.arange(0., 5., 0.2) # [0., 0.2, 0.4, 0.6, ..., 4.6, 4.8]
plt.plot(t, t, '.--', label="linear", color='red')
plt.plot(t, t ** 2, 'o-.', label="square", color='blue')
plt.plot(t, t ** 3, '*:', label="cubic", color='green')

plt.xlabel('x-label')
plt.ylabel('y-label')

plt.axis([0, 5, 0, 20])
plt.legend()

plt.show()

사실 저는 시각화가 중요하다고 생각하지 않았습니다.

그런데 다양한 데이터를 보다 보니 시각화에서 얻을 수 있는게 너무 많아 적어 이 라이브러리를 리뷰 해보려고 합니다.

차트가 가장 대표적인 시각화지만 Image map과 같이 이미지를 이용한 시각화나 Text cloud 같은 여러 방식도 시각화에서 상당한 효과를 보입니다.

다만 우선 데이터를 정제해야 합니다. 저는 좀 과격하지만 쓰레기에서는 쓰레기만 나올뿐이라고 생각합니다.

제대로 가치를 얻기 위해서는 어떤 목적을 얻기 위해 데이터를 선처리 해야하는 것은 필수적입니다.

나중에 데이터 분석을 통해 어떤 효과를 봤는지를 회사 이름을 지우고 작성을 해보려고 합니다.

근데 솔직히 이야기하면 좀 소소한 내용이라 여러개를 한번에 묶어서 포스트를 해야 될 것으로 보입니다.

By Mark

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다