산점도(Scatter plot)는 두 변수 간의 관계를 시각적으로 표현하는 그래프입니다.

이 그래프는 데이터 포인트를 두 축 위에 점으로 표시하여 각 데이터 포인트가 두 변수에 대해 어떻게 위치하는지 보여줍니다.

산점도는 주로 변수 사이의 상관관계를 탐색하거나, 다양한 데이터 패턴을 식별하는 데 사용됩니다.

산점도의 주요 특징과 사용

  1. 상관 관계 파악: 산점도는 두 변수 간의 선형적 혹은 비선형적 상관관계를 확인할 수 있게 해 줍니다. 점들이 오름차순이나 내림차순으로 일정한 패턴을 보이면 선형적 상관관계가 있다고 볼 수 있습니다.
  2. 이상치 발견: 데이터 중 이상치를 쉽게 식별할 수 있습니다. 산점도에서 대부분의 데이터와 떨어져 있는 점들은 이상치일 가능성이 높습니다.
  3. 데이터 분포 확인: 두 변수의 데이터 분포와 밀집도를 확인할 수 있습니다. 데이터가 어디에 집중되어 있는지, 어떤 형태로 퍼져 있는지 등을 파악합니다.
  4. 그룹화된 데이터 분석: 색상이나 기호를 다르게 하여 여러 그룹의 데이터를 한 그래프에 나타낼 수 있어, 그룹 간 비교 분석이 용이합니다.

Scatter Plot Code

import matplotlib.pyplot as plt

#  Data
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
colors = [80, 40, 10, 50, 60]
sizes = [100, 900, 2000, 1000, 1600]

plt.scatter(x, y, c=colors, s=sizes, alpha=0.5, cmap='viridis')
plt.colorbar()

plt.title('Scatter Plot with Colors and Sizes')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')

plt.show()

실무를 하면서 산점도(Scatter plot)를 분석에 사용해 본적은 없습니다. 리포트에서 사용해 다른 사람들에게 설명할 때 주로 사용했던 것 같습니다. 그리고 대부분 방향성이 있어 특정 지표로 수렴할때 많이 사용했던 것 같습니다.

간단한 예를 들어보면

  • 과학 연구: 환경 데이터에서 온도와 습도의 관계를 파악하거나, 의학 연구에서 특정 약물의 용량과 치료 효과 사이의 관계를 조사할 때 유용합니다.
  • 경제학: 경제 지표들 사이의 관계, 예를 들어 국내총생산(GDP)과 실업률 사이의 상관관계를 분석할 때 사용됩니다.
  • 마케팅: 제품의 가격과 판매량의 관계를 분석하여 최적의 가격 포인트를 찾는 데 활용될 수 있습니다.

이와 같이 사용하는 것을 볼 수 있습니다.

By Mark

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다