본문 바로가기

전체 글291

머신러닝 이용 중 발생하는 빅데이터 처리 비정형 데이터가 바로 빅데이터이다. 즉, 테이블 형태로 구성하지 않고 정형화되지 않은 데이터이다. 이를 관리하는 시스템이 하둡과 스파크 등이 있으며 추후 학습할 예정. 참고로 하둡개발자 신입 연봉이 개발자 중에서 최상위권이다. 머신러닝에서 트레이닝데이터, 테스트데이터 분리한 것을 저장하고 학습 결과를 저장할 때 사용하게 된다. uci machine learning repository 링크. 데이터가 많으나 친절하지 않다. https://archive.ics.uci.edu/ml/datasets.php 2019. 7. 26.
seperate function, normalize function seperate function -data를 training data와 test data로 분리해주는 함수 입력 : data 출력: training data(70%), test data ( 30%) normalize function 사용 이유: 한 행의 데이터에서 값의 편차가 심하면 ( -100000, 2 , 3, 0 ) 평균된 결과가 치우치거나 상쇄될 수 있다. W1,W2,W3,W4 가 1 이면 Z 값이 -99995가 된다. 이는 2,3,0의 데이터가 없는것처럼 취급될 수 도 있다. 따라서 -100000을 -1~1 사이의 값으로 변환해주거나 해서 2,3,0의 데이터가 결과에 영향을 미치도록 하는 것이 좋을 것이다. -data를 정규화 시켜주는 함수 (정답 데이터 제외) 입력 : data 출력: norm.. 2019. 7. 25.
현업에서 개발 팀 구성 DA, Algorithm/Developer, Verification DA 1. data gathering from internet, crawler, paper, ocr, pre-paid site 데이터간의 관계 분석이 핵심. 입력데이터가 결과에 영향을 비슷하게 미치면 빼도 된다. EX) 1열과 2열이 비슷하게 양의 상관관계를 갖는다면 빼도 될 것. 2열과 3열이 결과에 반대로 영향을 미친다면 빼면 안될 것이다. TA test and analysis 2019. 7. 25.
not batch를 쓸 경우, 마지막 행의 데이터의 loss의 감소추세가 가지는 의미( 중요) not batch를 쓸 경우 아래 코드에서 loss_val()이 줄어드는 것을 보고 의문점이 생겼다. 즉, loss_val에서는 트레이닝 데이터의 마지막 행을 가지고 loss를 보는 것이다. 이 값이 감소되는 추세인 상황에 전체 트레이닝 데이터의 loss_val을 찍어보니 그렇게 작은 값은 아니었다. 이전까지의 학습에서는 전체 트레이닝 데이터에 대해서 loss가 0점대로 진입해야 되는 것으로 알고 있었기 떄문에 트레이닝 데이터의 마지막 행에 대한 loss가 작아지면서 전체 트레이닝 데이터의 loss도 0점대로 진입해야 할 것으로 생각했다. 하지만 다르게 생각해보면 트레이닝 데이터 마지막 행을 학습하는 과정 이전에 몇백개의 데이터를 거쳐서 나온 W, b 들을 사용하여 마지막 행의 feed_forward를 .. 2019. 7. 25.