일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 함수형 사고
- datalake
- 개발7년차매니저1일차
- 데이터플랫폼
- 클린코드
- hackercup2017
- 개발자로살아남기
- 코딩인터뷰
- 박종천
- 데이터야놀자
- 실전사례
- coursera
- 회고
- 데이터레이크
- 2016년회고
- kafka
- 동시성
- 알고스팟
- 개발자
- Raw-Request-URI
- 켄트백
- 데이터유통
- functional thinking
- 2017회고
- clean code
- 해커컵
- 단위테스트
- spray
- wait region split
- 테스트주도개발
Archives
- Today
- Total
목록실전사례 (1)
Software Engineering Note

파일 다운로드 > 압축 해제 > hdfs 업로드 > hdfs to storage 업로드 이런 플로우로 데이터를 처리할 일이 있었다. (n = 0 ... ?) shell script로 구현을 하고 돌려보는데 속도가 너무 느렸다. 어디가 병목일까? 보니 압축 해제하는 부분이 특히 느렸다. 그래서 그 부분부터 병렬화 하기로 했다. 병렬화는 script 파일을 나누고 백그라운드(&) 로 돌리면 된다. ex) hdfs_uploader.sh ... & 여기서 다시 아래와 같은 문제가 발생했다. 1) unzip 하는 작업이 많아지면 cpu를 너무 많이 차지한다. 2) storage upload 작업이 너무 빈번해지면 문제가 된다. 이제 다시 한 번 정리를 해보자. 1) 파일 다운로드는 빠르다. 문제없는 부분 2) u..
일하며 개발하며
2020. 3. 1. 18:41