본문 바로가기
[Python] 대용량 데이터 다루기 ▶ 대용량 데이터 다루기 최근 sha1 해싱에 대한 사전공격을 수행하면서 대용량 데이터를 다루는 법에 미흡함을 느끼고 이를 보충하기 위해 대용량 데이터 다루는 법에 대해서 글을 남긴다. ▶ Pandas [1] CSV 데이터 청크 크기로 불러오기 100만개 이상의 row를 가진 데이터를 가져올 경우, 데이터가 너무 무거워져서 속도가 느려짐(나는 메모리가 이겨내지 못하고 데이터를 전부 날렸었다). pandas.read_csv에서 chunksize라는 매개 변수를 활용가능하다. 로컬 메모리에 맞추기 위해서 한 번에 DataFrame으로 읽어 올 행의 수를 지정할 수 있다. 1 df_chunk = pd.read_csv(r'../input/data.csv', chunksize=1000000) cs [2] Colu.. 2022. 12. 20.
[Python] 파이썬 기초 - 함수 ▶함수 입력값이 있고 결괏값이 있는 함수가 일반적인 함수이나, 입력값이 없는 함수, 결괏값이 없는 함수(=돌려주는 값이 없는 함수), 입력값도 결괏값도 없는 함수도 있다. 다음과 같이 다양한 형태로 함수를 나타낼 수 있다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 # Python 함수의 구조 ''' def 함수명(매개변수): ... ''' # 입력값이 몇 개가 될지 모를 경우 함수 (*args 를 쓰면 개수 제한.. 2022. 11. 19.
[Python] 파이썬 기초 - 제어문 ▶if문 다른 언어랑 다른점은 Python의 If는 들여쓰기로 인식한다는 점이다. 따라서 들여쓰기에 유의해야 한다는 특징이 있다. 또한, else if 를 elif라 표현하는 점과, 'in'을 이용해 특이한 조건문을 사용할 수 있다는 특징이 있다. Python에서 쓸수 있는 연산자들은 다음과 같다. 연산자(비교연산자 등) 설명 xy x가 y보다 크다 x==y x와 y가 같다. x!=y x와 y가 같지 않다. x>=y x가 y보다 크거나 같다. x= 60 else "failure" print(message) Colored by Color Scripter cs ▶While문 반복해서 문장을 수행할 경우 사용하는 제어문이다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19.. 2022. 11. 18.
[Python] 파이썬 기초 - 자료형2 (리스트, 튜플, 딕셔너리, 집합, 불) ▶리스트 우리가 여러 프로그래밍 언어를 거치면서 경험했던, array형태와 매우 비슷하다. 리스트명 = [요소1, 요소2, 요소3, ...] 과 같은 형태로 정의한다. 전에서 문자열을 슬라이싱한 것과 마찬가지로 리스트 역시 슬라이싱이 가능하다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 # 리스트 슬라이싱 >>> a = [1, 2, 3, 4, 5] >>> b = a[:2] >>> c = a[2:] >>> b [1, 2] >>> c [3, 4, 5.. 2022. 11. 17.
[Python] 파이썬 기초 - 자료형1 (숫자형, 문자열) ▶자료형 자료형이란 프로그래밍을 할 때 쓰이는 숫자, 문자열 등 자료 형태로 사용하는 모든 것들을 뜻한다. 프로그램의 기본이자 핵심 단위가 자료형. 종류로는 숫자형, 문자열 자료형, 리스트 자료형, 튜플 자료형, 딕셔너리 자료형, 집합 자료형, 불 자료형, 변수 등이 있다. ▶숫자형(Number) 정수형, 실수형, 8진수(Octal : 0o), 16진수(Hexadecimal : 0x) 등이 있다. 주요 연산자로는 사칙연산을 수행하는 +,-,*,/가 있으며, 이외의 연산자로는 x의 y제곱을 나타낼 때는 x**y, 나눗셈의 나머지를 반환하는 %, 나눗셈의 몫을 반환하는 // 등이 있다. ▶문자열(String) [1] 문자열을 표현하는 방식 4가지 1 2 3 4 5 6 7 8 # 큰따옴표 사용 "I am us.. 2022. 11. 15.
[Python] 파이썬 기초 연습 ▶입력과 출력 1 2 3 4 5 6 7 name = input("이름 : ") #name에 값을 입력하는 부분 print(name + "방가워") #값을 출력하는 부분 cs ▶변수와 자료형 1 2 3 4 5 6 7 8 user_name = "Jung_jin" user_num = 1018 print(type(user_name)) #string출력 print(type(user_num)) #int출력 cs ▶Type Casting (형변환) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 var_test = 7 var_test_str = "7" print(var_test*2) #int타입이기에 2배를 한 14를 출력 print(var_test_str*2) #string타입이기에 77을 출력 var_.. 2022. 10. 30.