본문 바로가기

TF-IDF

기계학습 - Spark(2) - TF-IDF 샘플코드 이해 Spark 교재중 TF-IDF 설명 페이지에는 샘플코드가 있다. 스칼라로 코딩된 것을 이해해보고자 한다. [링크] val sentenceData = spark.createDataFrame(... 이 것은 DataFrame 을 생성하는 코드인데, API 레퍼런스에서 찾는데 애를 먹었다. 먼저 spark 생뚱맞다. 대체 이 변수 아니면 오브젝트의 인스턴스는 어디서 나온거지? 한참을 찾아보니, 이 인스턴스는 SparkSession객체의 것인데, spark-shell을 구동할 때 시작시 출력을 보면 내부적으로 선언했다고 알려준다. Spark context available as 'sc' (master = local[*], app id = local-1493634526691).Spark session availa.. 더보기
기계학습 - Spark(1) - 시작하면서 바로 TF-IDF 공부 R등을 이용해서 데이터분석등을 공부했지만 여전히 어렵다. 안개속에서 헤매는건 여전하다. 그래도 다시 또 기계학습에 대해 체계적으로 공부해보려 한다. 우선 아파치 Spark를 사용하려 한다. 게다가 Spark사이트에는 좋은 교재가 있다. [Link] Spark의 설치등은 생략한다. 프로그래밍 언어는 스칼라로 정했다. 스칼라 공부도 겸사겸사. 교재의 첫 단원은 Pipelines는 건너뛰고. 두번째 단원 "Extracting, transforming and selecting features" "추출, 변환 그리고 특징 선택"으로 해석해 본다. 추출에는, 데이터를 수집하는 의미, 그리고 어느정도는 거르고(필터링), 정형화하는 기능이 포함될 듯 하다. 그 이유는 저장을 해야하기 때문으로 생각한다. (방대한 데이터.. 더보기