본문 바로가기

인공지능(AI)/코드잇_데이터 사이언스 입문

(7)
[DataFrame 다루기] 큰 데이터 다루기 - dataframe이 너무 클 때, 맨 앞과 맨 뒤의 몇 개만 출력할 수 있습니다. 또한 .shape를 통해 dataframe의 크기를 확인할 수 있습니다. - .columns로 column을 확인할 수 있고, column의 기본정보도 한눈에 보고 싶다면 .info를 하면 됩니다. - .describe()를 통해 통계 정보를 볼 수 있고, .sort_values로 원하는 기준에 따라 정렬할 수 있습니다. 이때, ascending = False를 하면, 내림차순으로 정렬합니다. 그리고 기존의 dataframe 자체를 바꾸려면 inplace=True를 적어야 합니다. - 큰 Series에서 .unique를 통해 중복되지 않게 값들을 확인 할 수 있고, .value_counts()를 통해 나타난 갯수를 확인..
[DataFrame 다루기] 데이터 변형하기 - 값을 하나씩 바꿀 수도 있고, 한 줄을 통째로 바꿀 수도 있습니다. 이때, 한 줄을 통째로 바꿀 때, 값을 하나만 입력해주면, 모두 그 값이 됩니다. - 여러 줄을 한꺼번에 바꿀 수도 있습니다. - 조건으로 row를 선택해서 수정할 수 있습니다. 또한, 위치로 값을 바꿔줄 수도 있습니다. - 새로운 row나 column을 추가할 수도 있습니다. - row나 column을 drop을 통해 삭제할 수 있습니다. 이때, inplace = False를 적어주면, 기존의 dataframe은 건드리지 않겠다는 뜻입니다. 만약, 그 자체를 바꿔주고 싶으면 inplace = True를 적어주면 됩니다. - index, column 이름을 바꿀 수도 있습니다. - index를 다른 column으로 아예 바꿀 수도 있..
[DataFrame 다루기] DataFrame 인덱싱 - dataframe에 .loc를 사용해서 원하는 데이터를 가져올 수 있습니다. - Series는 pandas의 1차원 자료형입니다. - column에 대해서도 같은 방법을 적용할 수 있습니다. - 여러 row, column에 대해 출력하고 싶으면, 리스트로 묶어서 넣어주면 됩니다. - 원하는 값들이 연속적으로 있으면, Slicing을 해줄 수 있습니다. - numpy array에서 boolean list로 인덱싱했듯이, pandas dataframe에서도 boolean으로 값들을 받아올 수 있습니다. - 조건을 여러 가지로 줄 수도 있습니다. - iloc를 쓰면, interger location으로, 숫자 인덱스로 접근할 수 있습니다. - DataFrame 인덱싱 문법 정리
[데이터 사이언스 시작하기] Pandas - R에서 데이터를 보관, 정리, 분석하는 데 핵심적인 역할을 했던 것이 Dataframe인데, Python의 Pandas 라이브러리가 이것을 그대로 가져왔습니다. - Pandas는 numpy를 이용해서 만들어졌습니다. numpy에 추가로 편한 기능들이 들어간 것입니다. 특히 pandas는 표 형식의 data를 다루는데 매우 유용합니다. - 대부분의 dataset은 2차원이고, 이러한 2차원 형태의 데이터를 다루기 위한 자료형이 Pandas의 DataFrame입니다. 이는 일반적인 2차원 numpy array에 부가적인 기능들이 추가된 것입니다. - numpy array는 숫자 인덱스로 값을 찾아냈다면, pandas DataFrame에서는 정해준 이름으로 값을 찾을 수 있습니다. 또한, numpy arr..
[데이터 사이언스 시작하기] Numpy - Numpy는 numerical python의 줄임말압니다. 즉, 숫자와 관련된 파이썬 도구로 생각하면 됩니다. - numpy에서는 numpy 배열(numpy array)이라는 python list와 비슷한 자료형을 제공해 줍니다. 이때, ndarray는 n dimensional array를 뜻합니다. array1 = numpy.array( [1,2,3,4] ) array2 = numpy.array( [1,2,3,4] , [5,6,7,8] ) type(array1) # numpy.ndarray type(array2) # numpy.ndarray array1.shape # (4, ) array2.shape # (2, 4) array1.size # 4 array2.size # 8 - numpy array를..
[데이터 사이언스 시작하기] Jupyter Notebook - 파이썬으로 프로그래밍하는 방법으로는 텍스트 에디터 + 커맨드 라인, IDE, Jupyter Notebook이 있습니다. - cmd창에 pip install jupyter로 설치를 진행한 후, cmd창에 jupyter notebook이라고 입력하여, 웹 브라우저에서 실행합니다. - jupyter notebook에는 command mode와 edit mode가 있습니다. command->edit은 셀에 커서를 클릭하거나, enter를 누르면 되고, edit->command는 esc를 누르면 됩니다. 또한, 박스 하나하나를 셀이라고 부릅니다. - Ctrl + enter로 셀 하나를 실행 시킬 수 있습니다. command 모드에서 a를 누르면 위에, b를 누르면 아래에 새로운 셀이 생깁니다. 또한, d를 연..
[데이터 사이언스 시작하기] 데이터 사이언스란? - 데이터 사이언스는 여러가지 능력을 요구합니다. 데이터 사이언티스트는 가치를 더할 수 있는 일을 찾고, 데이터를 이용해서 문제를 해결합니다. - 데이터 사이언스에는 엄연히 순서가 존재합니다. 딥러닝을 시작하기 전에 데이터 사이언스 기본기를 배우는 것이 좋습니다. - R과 Python이 데이터 사이언스에서 양대산맥을 이루고 있습니다. R은 통계와 시각화만을 위한 툴입니다. 파이썬은 다양한 용도에서 사용되므로, 다른 분야로 넘어가기 편합니다. - numpy, pandas, tensorflow 등의 등장으로 Python이 R보다 인기가 많아졌습니다. - 데이터 사이언스의 진행 순서는 문제 정의하기, 데이터 모으기, 데이터 다듬기, 데이터 분석하기, 데이터 시각화 및 커뮤니케이션입니다.