본문 바로가기
728x90
반응형

DataFrame 기본함수7

[Python Data Analysis] 10. DataFrame 이상치/결측치 데이터 전처리 이번 포스팅에서는 수집한 데이터에서 나타나는 이상치와 결측치를 다루는 방법에 대해 다루려 한다. 먼저 포스팅을 진행하기 전에 이상치와 결측치라는 용어의 의미를 알아볼 필요가 있다. 그 전에, 오늘 살펴볼 매서드에 대해 간략히 정리한다. # pandas.DataFrame.isnull() : 결측치 여부를 True/False 값으로 반환. 결측치인 경우 True # pandas.DataFrame.notnull() : 결측치 여부를 True/False값으로 반환. 실측치인 경우 True # pandas.DataFrame.dropna(axis) : 결측치가 포함된 데이터를 제외하고 추출 (axis = 0 인 경우 결측치가 포함된 Index 삭제, 1인 경우 Column 삭제) # pandas.DataFrame... 2021. 11. 22.
[Python Data Analysis] 9. DataFrame 데이터 조건 검색 및 수정 이번 포스팅은, 앞서서 보았던 DataFrame 데이터에 대해 특정 조건을 만족하는 값을 지니는 데이터 행을 추출하고, 기존에 존재하는 데이터를 바꾸는 방법에 대해 알아보려 한다. 특정 조건을 DataFrame에 명시하기 위해서, DataFrame의 특정 위치를 찾는 방법에 대해 어느정도 익숙한 상태여야 한다. 이 부분이 궁금하신 분들은 필자의 Python Data Analysis 이전 포스팅들을 참고하도록 하자. 오늘 확인할 내용은 아래와 같다. [데이터 조건 검색] # pandas.DataFrame[ 검색 조건1 & 검색 조건2] : 검색 조건1, 2를 모두 만족하는 데이터만 출력 # pandas.DataFrame[ 검색 조건1 | 검색 조건2] : 검색 조건1, 2 중 하나를 만족하는 데이터만 출력.. 2021. 11. 20.
[Python Data Analysis] 8. DataFrame 데이터 슬라이싱 지난 포스팅에서는 DataFrame에 작성된 데이터에 대한 간략 분석 정보 및 기본 통계 내용에 대해 알아보았다. 이번 포스팅에서는 방대한 DataFrame에서 분석자가 실제로 필요한 데이터만 추출하는 슬라이싱에 대해 알아보려 한다. 슬라이싱은 거창한 것이 아니다. Python에서 List나 Tuple 등을 많이 사용해봤다면 알 수 있는 [:] 문법이 주를 이루기 때문에 Array형태의 변수 타입을 많이 다뤄보셨던 분들이라면 큰 어려움 없이 익숙해 질 수 있을 것이다. 이번 포스팅에서는 필자가 앞서 포스팅 한 내용 중 loc, iloc, df[]와 관련된 내용을 조금 더 상세히 다루려 한다. 오늘은 매서드 자체 기능에 대해 살펴보는 것이 아니라, DataFrame의 슬라이싱 코딩의 포맷을 알아보기 위함이.. 2021. 11. 17.
[Python Data Analysis] 7. DataFrame 데이터 정보 확인 및 기본 통계 이번 포스팅에서는 DataFrame으로 변환한 정보들의 개괄적인 내용에 대해 알아보려 한다. DataFrame의 index, column이 무엇으로 구성되어 있는지, 아니면 DataFrame의 크기는 어떤지 등에 대해 아는 것만으로도 분석하려는 데이터에 대한 대략적인 이해가 가능하기 때문이다. 본 포스팅에서는 조금 더 깊게 들어가, 숫자 형태로 구성된 특정 필드값에 대해 기본적인 통계 개념을 적용할 수 있는 매서드와 클래스 변수들도 확인해보려 한다. 오늘의 포스팅에서 확인하려는 내용은 아래와 같다. [ 데이터 정보 확인 ] # pandas.DataFrame.index : DataFrame의 Index 정보 표시 # pandas.DataFrame.columns : DataFrame의 column(필드) 정.. 2021. 11. 14.
[Python Data Analysis] 6. DataFrame 파일 입출력 지난 포스팅에서는 DataFrame의 index와 관련된 매서드에 대해 간략하게 알아보았다. 이번 포스팅에서는 데이터가 작성된 파일을 읽어들여 DataFrame으로 만들거나 DataFrame을 특정 파일로 저장하는 방법에 대해 조금 더 깊게 알아보려 한다. 앞서서 pandas 모듈에 대해 포스팅할 때 간략하게 언급했지만, 특정 데이터 정보만을 추출하는 부분과 데이터를 파일로 저장하는 내용이 누락되어 있어서 말이다... 오늘 포스팅에서 확인할 내용은 아래와 같다. ** 파일 읽기/쓰기의 경우, 데이터 분석에 많이 사용하는 csv, text, excel에 대해서만, 그 중에서도 csv에 대해 중점적으로 살펴볼 예정이다. [ 데이터 파일 읽어오기 ] # pandas.read_csv("파일명") : "파일명"의.. 2021. 11. 8.
[Python Data Analysis] 5. DataFrame, Index 관련 매서드 지난 포스팅에서는 데이터 분석 모듈인 Python Pandas의 가장 기본이 되는 객체형인 DataFrame의 구조와, 이를 탐색하는 방법에 대해 간략하게 알아보았다. DataFrame은 기본적으로 행인 Index와 열인 Column으로 이루어진 2차원 구조, 즉 표의 형태를 이루고 있음을 확인할 수 있었다. 이번 포스팅에서는 DataFrame의 Index와 관련된 매서드 및 활용법에 대해 알아보려 한다. Index의 경우, 각 행의 고유번호를 의미하는 경우가 많은데(순번, 수험번호, ID 등), 이 때문에 특정 정보를 나타내는 가장 대표적인 정보라고 볼 수 있다. 데이터베이스에서는 보통 Primary Key의 개념으로 많이 사용된다. 오늘 학습할 매서드는 아래와 같다. # pandas.DataFrame.. 2021. 11. 3.
[Python Data Analysis] 4. DataFrame 객체 이번 포스팅에서는 Pandas의 기본 객체인 DataFrame에 대해 알아보려 한다. 이전의 포스팅에서 살펴봤듯이, Pandas 모듈은 여러 형태의 파일에 기록된 데이터를 DataFrame이라 불리는 표 형태의 객체로 불러들일 수 있다. DataFrame을 살펴보기 위해, 지난 포스팅에서 사용한 json 파일로부터 내용을 추출하여 DataFrame 객체로 변환을 먼저 진행했다. 본격적으로, DataFrame 구조를 알아보고, 이 객체를 어떻게 활용할 수 있는지 알아보도록 하자. 1. DataFrame의 정보 확인 데이터에 사용하는 표는 2차원 구조를 띄고 있다. 일반적으로 이 2차원 표에서 가로축은 개별 데이터에 대한 정보가 작성되고, 새로 축은 개별 데이터 중, 특정 정보의 집합을 나타낸다. 가로축의 .. 2021. 11. 2.
728x90
반응형