Python 24. 파일 입출력 라이브러리
이제 파이썬 문법의 끝을 향해 달려가고 있어요!
오늘은 여러 모듈을 통해 파일, 폴더 경로를 찾아 불러오고 파일을 만들고 찾는 등 여러 가지 활용을 해보겠습니다.
아래의 목차대로 모듈을 익히고 활용해보겠습니다.
- OS
- glob
- fileinput
- pickle
- shutil
- fnmatch
- 데이터 압축
1. OS
파이썬의 os 모듈은 운영 체제와 상호 작용하는 많은 함수와 유틸리티를 제공합니다. 이 모듈을 사용하면 파일, 디렉터리 또는 운영 체제에 관한 작업을 수행할 수 있습니다.
os.path.join()은 자주 쓰이니 주목해서 봅시다!
2. glob
glob 모듈은 파일과 폴더 이름을 찾을 때 사용하는 파이썬의 도구입니다. 이 모듈의 이름은 "전역적으로 찾기"라는 의미의 "global"에서 유래했습니다. glob는 특정 패턴에 일치하는 파일이나 폴더 이름을 쉽게 찾아줍니다. (아래 파일을 다운로드 받아 압축을 풀고 예제를 진행합니다.)
recursive = True 를 작성하여 해당 패턴이 지정된 디렉토리뿐만 아니라 모든 하위 디렉토리에서도 찾도록 해줍니다.
[a-z]는 모든 알파벳을 뜻하고 [가-힣]는 모든 한글을 말합니다.
텍스, 파일이 포함된 파일을 찾습니다.
디렉토리에 여러 텍스트 파일이 존재하여 하나씩 열어보기 번거로울 때 fileinput모듈을 사용하면 여러 개의 파일을 한 번에 불러올 수 있습니다.
3.fileinput
fileinput 모듈은 파이썬에서 여러 입력 스트림을 동시에 순회하는 데 유용합니다. 이 모듈의 주요 용도는 명령줄에서 명시된 여러 파일을 동시에 읽는 스크립트를 작성하는 것입니다.
3-1. 각 파일의 첫 번째 라인을 찾아 변경하기
fileinput 모듈의 input을 이용하여 텍스트 파일들을 불러온 뒤 inplace 인자를 True로 설정하는 것이 텍스트 파일을 수정하는 핵심입니다. 이때의 print는 출력이 아닌 텍스트 파일에 쓰는 작업을 수행합니다. isfirtsline 메소드를 이용하여 첫 번째 라인을 수정합니다.
3-2. 검색된 라인을 변경하기
3-3. 키워드를 찾아 원하는 텍스트로 치환하기
키워드를 찾은 후 replace를 통해 키워드를 원하는 텍스트로 치환할 수 있습니다.
4. pickle
pickle 모듈은 파이썬 객체 구조를 직렬화하고 역직렬화하는 프로세스를 제공합니다. 다른 말로하면, 파이썬 객체(리스트, 딕셔너리, 클래스 인스턴스 등)를 바이트 스트림으로 변환하고, 그 바이트 스트림을 다시 파이썬 객체로 복원할 수 있습니다.
'wb', 'rb'는 'write byte', 'read byte'입니다.
data[1] = {'id' : 1, 'userid' : 'apple', 'name' : '김사과, 'gender' : '여자', 'age' : 20}으로 1을 키, {'id' : 1, 'userid' : 'apple', 'name' : '김사과, 'gender' : '여자', 'age' : 20}를 값으로 처리합니다.
5. shutil
shutil 모듈은 파이썬에서 고수준 파일 연산을 수행하기 위한 유틸리티 모듈입니다. 기본적인 os 모듈에서 제공하는 기능을 확장하여, 파일 및 디렉터리를 복사, 이동, 삭제하는 데 사용할 수 있는 더 다양한 함수를 제공합니다.
후에 shutmil 모듈을 이용하여 파일 이동 및 복사하는 작업을 같이 해보도록 하겠습니다!
6. fnmatch
fnmatch는 파일 이름과 패턴을 비교하거나 매칭하는 데 사용되는 Python의 표준 라이브러리 모듈 중 하나입니다. 이 모듈은 와일드카드 문자(*, ?)를 사용하여 파일 이름을 패턴과 비교하고 일치하는지 확인하는 기능을 제공합니다. 주로 파일 및 디렉터리 관리 작업에서 사용됩니다.
7. 데이터 압축
파이썬에서는 데이터 압축 및 아카이브 생성을 위한 여러 모듈을 제공합니다. 이러한 모듈들을 사용하면 다양한 압축 및 아카이브 형식으로 데이터를 처리할 수 있습니다.
7-1. zlib
zlib은 문자열을 압축하거나 압축을 푸는 데 사용되는 모듈입니다.
data의 길이가 130000으로 매우 길다는 것을 알 수 있습니다. 따라서 data는 유니코드 문자열이므로 utf-8형식으로 인코딩한 바이트 문자열을 zlib.compress()를 통해 바이트 문자열을 압축합니다. 압축한 결과 길이가 292로 현저히 줄었을 확인할 수 있습니다.
또 zlib.decompress()를 통해 압축되었던 바이트 문자열을 해제한 후 deocode를 통해 바이트 문자열을 유니코드 문자열로 복원할 수 있습니다.
다시 길이를 확인해보면 130000으로 복원됐음을 확인할 수 있습니다.
7-2. gzip
gzip은 하나의 파일을 압축하고 해제할 수 있는 모듈입니다.
data 내용을 입력하여 org_data 텍스트 파일을 생성합니다.
압축은 gzip.open을 사용하여 압축 파일 경로, 바이너리 쓰기 모드로 지정하고 압축할 문자열을 인코딩해서 write로 넘겨줍니다.
압축 해제는 gzip.open에서 바이너리 읽기 모드로 설정합니다. 이때 읽은 파일은 바이트 형식이므로 디코딩을 해줘서 원래의 문자열로 복원할 수 있습니다.
7-3. zipfile
여러 파일들을 zip 파일로 압축할 때 또는 압축을 풀 때 사용하는 모듈입니다.
압축을 하고자 할 때에는 ZipFile을 쓰기 모드로 설정하고 압축하고자 하는 파일들을 write에 넣어줍니다.
압축을 해제할 때에는 ZipFile을 읽기 모드로 설정하고 extractall을 이용하면 됩니다. extractall에 값을 입력하여 파일 이름을 지정할 수 있습니다.
7-3. tarfile
tarfile은 여러 파일들을 tar 형식의 파일로 압축하거나 해제하는 모듈입니다. 사용법은 zipfile과 비슷합니다.
여러 모듈들을 이용해서 파일 불러오기 생성 및 압축 등을 해보았습니다. 다음에는 실제의 파일들을 이용해서 학습했던 위 내용들을 활용해보겠습니다!