У нас вы можете посмотреть бесплатно 이제 막 나온 따끈따끈한 2024 빅분기(빅데이터분석기사) 실기 책 소개 영상입니다. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
★수정사항(24.11.25 기준)★ 1. p.108, 110 코드 전처리 방법 변경 : 불필요 컬럼 제거~라벨인코딩 코드 → df=df.drop(columns=['Ticket','Cabin','Name']) df['Age'].fillna(df['Age'].mode()[0], inplace=True) df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True) one_hot_df = pd.get_dummies(df[['Sex', 'Embarked']]) df = pd.concat([df, one_hot_df], axis=1) df = df.drop(columns=['Sex', 'Embarked']) #print(df.info()) 2. p.110 코드 실행 결과 설명 : ~ 사망자의 분류 정확도는 78%이고, 생존자의 분류 정확도는 12%인 것을 확인할 수 있다. → 코드 실행에 따라 분류 결과는 다르게 확인될 수 있음. 3. p.137 데이터 전처리 방법 변경 : 라벨인코딩 코드 3줄 → df['horsepower'] = df['horsepower'].str.replace('?',df['horsepower'].mode()[0]) #hoserpowe 값 중간에 '?' 문자가 포함되어 있으므로 해당 코드를 작성하여 '?' 문자를 horsepower 최빈값으로 변경 df = df.astype({'horsepower':'int'}) 4. p.138 5번째 줄 : ~독립변수로 mpg → ~종속변수로 mpg 5. p.168 코드 파일명 변경 : df=pd.read_csv('...cardiovascular_disease_dataset.csv', delimiter=';') → df=pd.read_csv('...cardiovascular_heart_disease_data.csv') 6. p.174 데이터 로드시 파일명 변경 df=pd.read_csv('https://raw.githubusercontent.com/JEu...) 7. p.187 라벨인코딩 코드 부분 아래와 같이 수정 le = LabelEncoder() le.fit(train['주구매상품']) train['주구매상품'] = le.transform(train['주구매상품']) test['주구매상품'] = le.transform(test['주구매상품']) le.fit(train['주구매지점']) train['주구매지점'] = le.transform(train['주구매지점']) test['주구매지점'] = le.transform(test['주구매지점']) 8. p.206 #문제1 전에 코드 추가 : df = df.drop(columns=['Name', 'Sex','Ticket','Cabin','Embarked']) 9. p.208 데이터 전처리 방법 변경 : 라벨인코딩 → 데이터 타입 변환 #Deaths 컬럼 데이터 특수문자 변환 및 타입 변환 df['Deaths'] = df['Deaths'].str.replace('—','0') df['Deaths'] = df['Deaths'].astype(int) 10. p.211 문제 변경 : 주어진 수면 데이터에서 수면시간(Sleep Duration) 컬럼과 가장 높은 상관계수를 갖는 변수의 최빈값을 출력하시오. (단, Blood Pressure 컬럼과 Sleep Disorder 컬럼은 분석에서 제외한다.) 결과 : 8 11. p.213 전처리 순서 : 결측값 처리 → 라벨인코딩 12. p. 221 아래에서 8번째 코드 : from sklearn, classification_report → from sklearn.metrics import classification report, confusion_matrix 13. p.226 두 번째 줄 설명 : ~ 추출된 결과는 ~ → ~ 추출된 결과를 ~ 14. p.233 코드 작업 순서 : 라벨인코딩 → 데이터 슬라이싱 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df['Warehouse_block'] = le.fit_transform(df['Warehouse_block']) df['Mode_of_Shipment'] = le.fit_transform(df['Mode_of_Shipment']) df['Product_importance'] = le.fit_transform(df['Product_importance']) df['Gender'] = le.fit_transform(df['Gender']) 15. p.245 라벨인코딩 코드 부분 아래와 같은 방식으로 수정 (GraduateOrNot, FrequentFlyer, EverTravelledAbroad) le = LabelEncoder() le.fit(train['Employment Type']) train['Employment Type'] = le.transform(train['Employment Type']) test['Employment Type'] = le.transform(test['Employment Type']) 16. p.258 라벨인코딩 코드 부분 아래와 같은 방식으로 수정(Ever_Married, Graduated, Profession,Spending_Score,Var_1) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit(train['Gender']) train['Gender'] = le.transform(train['Gender']) test['Gender'] = le.transform(test['Gender']) 17. p.273 라벨인코딩 코드 부분 아래와 같이 수정 from sklearn.preprocessing import LabelEncoder le=LabelEncoder() total_model = pd.concat([train, test], axis=0) total_model['model'] = le.fit_transform(total_model['model']) total_model['transmission'] = le.fit_transform(total_model['transmission']) total_model['fuelType'] = le.fit_transform(total_model['fuelType']) train = total_model.iloc[:9823] test = total_model.iloc[-3296:] test = test.drop(columns=['price']) 18. p.284 라벨인코딩 코드 부분 아래와 같은 방식으로 수정 (Exercise,Heart_Disease, Skin_Cancer,Other_Cancer,Depression,Diabetes,Arthritis,Sex,Age_Category,Smoking_History) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() le.fit(train['Checkup']) train['Checkup']=le.transform(train['Checkup']) test['Checkup']=le.transform(test['Checkup']) 19. p.292 아래에서 네 번째 설명 다음과 같이 수정 1은 상수항을 계산하기 위한 값으로 회귀분석에서 y 절편을 계산하는데 사용된다. 20. p.295 데이터 명 변경 : asset_data.csv → Financial_Data.csv 21. p.296 코드 수정 df['date'] = pd.to_datetime(df['date']) corr = df.corr() mean = df['natural gas price'].mean() print(round(mean,3)) 22. p.297 코드 설명 두 번째, 세 번째 점 아래와 같이 수정 데이터 분석을 위해 문자열 데이터로 확인되는 date 컬럼 데이터를 날짜 데이터 타입(datetime64)으로 변경한다. 높은 상관계수를 갖는 컬럼은 gold price~ → 높은 상관계수를 갖는 컬럼은 natural gas price~ 23. p.298 첫 번째 설명 아래와 같이 수정 컬럼인 gold price에 대한 ~ → 컬럼인 natural gas price에 대한 ~ 24. p.310 데이터 명 변경 laptop_data → new_laptop_data 25. p.312 데이터 전처리 방법 변경(라벨인코딩 → 원핫인코딩) one_hot_data = pd.get_dummies(data['os']) data = pd.concat([data, one_hot_data], axis=1) data = data.drop(columns='os') data['DOS'] = data['DOS'].astype(int) data['Mac'] = data['Mac'].astype(int) data['Windows'] = data['Windows'].astype(int)