티스토리 뷰

아래 링크의 [알리바바 클라우드 기계학습 - 인공지능을 손끝에 : 1. 서론]에 이어서 [2. 주요 기술 특징]을 번역한다.


http://multeng.tistory.com/14




알리바바 클라우드 기계학습 - 인공지능을 손끝에 가능하게 하다 - (2) 



2.주요 기술 특징


그럼 알리바바 클라우드 기계학습 플랫폼은 어떤 주요 기술 특징을 가지고 있을까요?


2.1 사용하기 편한 인터페이스

8e3657e0e846a4e33ef2944a8810ddeeb97272f8

기계학습 인터페이스


알리바바 클라우드 기계학습 플랫폼은 기계학습을 이제 가깝게 하며, 플랫폼에서는 번거로운 공식 및 복잡한 코드 논리가 없으며, 사용자에게 보이는 것은 각종 부분별로 잘 패키지화된 알고리듬 컴포넌트이다.  조립 실험 프로세스에서, 컴포넌트를 드래그하는 것만으로 금방 1개의 workflow가 조합된다.  사용 방법은 나무 블록을 쌓기와 유사하여,  정말로 초보 사용자도 손쉽게 기계학습을 가지고 놀 수 있다. "반 개월이 지나면 한 세트의 데이터 마이닝 실험을 만들 수 있고, 알리바바 클라우드 기계학습 플랫폼으로 3시간이면 해결할 수 있다."

동시에, 플랫폼의  각 실험 단계마다  시각적 모니터링 페이지를 제공하며, 데이터 마이닝 엔지니어는 실시간으로 모델 훈련 상황을 파악할 수 있으며, 시각적 결과 평가 컴포넌트는 모델 조율 효과를 현저히 향상시킨다. 딥러닝 블랙박스의 투명화 방면에서 우리들은 오픈 소스인 Tensor Board 및 자체 연구한 도구 등 각종 시각화 도구를 꾸준히 연구 개발하고 집성하며, 고객을 위하여 더 많은 참고 가능한 정보를  제공하며, 모델 최적화 과정을 단축한다.


99013e564fe5e44d8186e7ebc55abfbd2240477f

특징 평가 히스토그램


2.2 풍부한 알고리듬 컴퍼넌트

90ae2e65ced04766ab4e42fa5608395b5da33a7f

알리바바 클라우드 기계학습 플랫폼의 부분 알고리듬을 전개


알리바바 클라우드 기계학습 플렛폼은 100여종의 알고리듬 컴포넌트를 제공하며, 분류, 회귀, 클러스터링 등 상용 알고리듬 시나리오를 포함한다. 이외에 플렛폼  주류인 알고리듬 응용 시나리오에도 중점을 두며,  평향 비지니스 알고리듬을 제공하며, 텍스트 분석, 관계 분석, 추천의 3종류도 포함한다. 사용자는 알리바바 클라우드 기계학습 플랫폼에서  제공되는 알고리듬을 통하여, 어떤 시나리오의 비지니스 문제라도 거의 해결할 수 있다. 특별히 설명할 가치가 있는 한 가지 점은, 플랫폼의 알고리듬 전부가  알리바바 그룹 내부의 비지니스 관행에서 파생하였으며, 모든 알고리듬은 PB급 데이터 및 복잡한 비지니스 시나리오의 훈련을 거쳐서, 성숙도 및 안정성의 특징을 가지고 있다.


알고리듬 목록은 아래와 같다 (소속 유형 및 상세 알고리듬을 포함) :


데이터 예비처리

  • 가중 샘플 (weightedSample) 
  • 무작위 샘플 (randomSample) 
  • 필터링 및 영사 (filterReflect)  
  • 계층 샘플 (stratifiedSample) 
  • JOIN 
  • 컬럼 추가 (appendColumns)  
  • UNION 
  • 아이디 증가 (appendId)  
  • 희소행렬 변환 (tableToKV)
  • 분할 (split)  
  • 결측값 채우기 (fillMissingValues) 
  • 정규화 (normalize) 
  • 표준화 (standardize) 
  • 유형변환 (typeConvert)

특징 엔지니어링

  • 주요 컴포넌트 분석 (PCA)
  • 특징 정규화 (featureNomalize) 
  • 특징 이산화 (featureDiscret) 
  • 특징 스무딩 (featureSoften) 
  • 특징 스케일 변환 (featureScaleTransform) 
  • 무작위 수림 특징 중요성 평가 (randomForestFeatureImportance)  
  • GBDT 특징 중요성 (GBDTFeatureImportance) 
  • 선형 모델 특징 중요성 (regression_feature_importance) 
  • 특징 중요성 필터 (featureFilter)
  • 필터식 특징 선정 (filterFeatureSelect) 
  • 윈도우 변수 통계 (RFM)  
  • 특징 인코딩 (featureEncoding)

통계분석

  • 백분위 (percentile)  
  • 전체 표 통계 (fullTableSummary) 
  • 피어슨 계수 (pearsonCoefficient)   
  • 히스토그램(다항목)(histogram) 
  • 이산치 특징 분석 (enumFeaturesAanalysis) 
  • 데이터 조회 (data_view) 
  • 공분산 (cov) 추정
  • 경험적 확률 밀도 도면 (pdf)  
  • 박스 플롯( boxPlot)  
  • 점도표 (scatter_diagram) 
  • Quantile 
  • 상관 계수 행렬 (corrcoef) 
  • 카이제곱 적합성 실험 (ChiSquare) 
  • 카이제곱 독립성 실험 (ChiSquare) 
  • 단일 샘플 T실험 (Ttest)  
  • 이중 샘플 T실험 (Ttest)

기계학습

  • 선형 서포트 벡터 머신 (linearSVM) 
  • 바이너리 논리적 회귀 (binaryLogisticRegression)  
  • GBDT 바이너리 분류 (GBDTbinaryClassification)  
  • K 최근점 이웃 (knn)  
  • 논리 회귀 다분류 (logicRegressionMultiClassification) 
  • 무작위 수림 (randomForest) 
  • 나이브 베이지언 (naiveBayes)   
  • K 평균 클러스터링 (kmeans) 
  • 선형 회귀 (linearRegression)  
  • GBDT 회귀 (GBDTregression)  
  • 혼동 행렬 (confusionMartix) 
  • 다분류 평가 (multiClassificationEvaluation) 
  • 2분류 평가 (binaryClassificationEvaluation) 
  • 회귀 모델 평가 (regressionModelEvaluation) 
  • 클러스터 모델 평가 (clusterEvaluation)  
  • 예측 (prediction)  

텍스트분석

  • TF-IDF   
  • PLDA
  • Word2Vec 
  • split Word  
  • 트리플 kv 변환
  • 문자열 유사성
  • 문자열 유사성-topN  
  • 금지어 필터링  
  • 텍스트 요약 (TextSummarization) 
  • 키워드 추출 (keywords_extraction) 
  • 문장 분할 ( SplitSentences) 
  • ngram-count  
  • 시맨틱 벡터 거리 (semanticVectorDistance) 
  • doc2vec  

네트워크 분석

  • K-Core
  • 단일원 최단 경로 (SSSP)
  • PageRank
  • 라벨 전파 클러스터링 (LabelPropagationClustering)
  • 라벨 전파 분류 (LabelPropagationClassification)
  • Modularity
  • 최대 연결자 도면(maximalConnectedComponent)
  • 노드 클러스터링 계수 (nodeDensity)
  • 에지 클러스커링 계수 (edgeDensity)
  • 삼각형 갯수 (triangleCount)
  • 수목 깊이 (treeDepth)

2.3 업계 주류 딥러닝 프레임워크 제공

알리바바 클라우드 기계학습 플랫폼에 업계 주류인 딥러닝학습 프레임워크가 내장되어 있다. :Tensorflow、MXNet、Caffee.

5669766c5992fc80a1cfb623b5f8d3012947e1ca

딥러닝 프레임워크


다른 프레임워크가 제공하는 일관적인 시각적 사용 환경의 경우, 사용자가 비지니스 코드 및 훈련 데이터를 OSS에 업로드하기만 하면, 곧바로 경로가 설정되어 딥러닝 네트워크 모델의 훈련은 완성된다. 전체 컴퓨팅 프레임워크는 다른 딥러닝 프레임워크의 최적화에 중점을 두며, 동시에 모델의  원클릭 설치되는 API 기능을 제공하며, 모델 및 비지니스의 결합 문제를 완벽하게 해결한다.

딥러닝 프레임워크 기반 인프라 컴퓨팅 자원 방면에서는, 플랫폼은 GPU의 유연한 다중 카드 배정 기능을 제공하며, 필요한 GPU 자원 수량을 인터페이스에 채워넣기만 하면, 대응 분산 컴퓨터 클러스터에 컴퓨팅 작업 지시를 발행할 수 있으므로, 골치 아픈 운영을 하지 않아도 된다.


4f4600f39f6308d641d17d99afe88ed69e8c8e74

2.4 초 대규모 컴퓨팅 성능

기반 인프라의 페이티엔 컴퓨팅 엔진의 덕분에, 알리바바 클라우드 기계학습 플랫폼은 최대규모 분산 컴퓨팅을 지원하며, PB급의 컴퓨팅 작업 요청을 매일 처리한다. 기반 인프라의 강력한 컴퓨팅 자원의 확보 이외에도, 분산 컴퓨팅 프레임워크 최적화 방면에서는, 알리바바 클라우드 기계학습 플랫폼이 작업을 수행한다.  파라미터 서버 (PS)를 예시로 제시한다.

1c282b21151bb14b93255390d96da8ceb98d27ca

파라미터 서버


파라미터 서버의 주요 개념은 :  데이터를 병렬 처리할 뿐만이 아니라, 동시에 모델을 부분으로 나누며, 큰 모델을 많은 부분집합으로 나누며, 각 파라미터 서버는 한 개의 부분집합을 저장하며, 모든 파라미터 서버는 함께 집합하여 한 개의 완전한 모델로 합친다. 해당 계통의 주요 혁신은 실패 재시도의 기능에 있으며, 분산 계통에서 몇 백 개의 노드가 협동 작업 시, 한 개 혹은 몇 개의 노드가 끊기는 상황이 항상 발생할 수 있으며,  만약 실패 재시도 메카니즘이 없다면, 작업이 실패할 가능성이 있으며 작업을 클러스터에 재송신하여 할당할 필요가 있다.

실패 재시도의 경우, 각 노드의 상태를 인접(전후) 노드에 백업하며, 해당 개별 노드가 죽어버린 후,  새로운 노드를 재시작하며, 동시에 인접 노드가 원래 노드로부터 모든 저장된 상태를 취득하여, 이론상으로는 작업을 100% 달성할 수 있다. 또 한 가지 기능은  비동기 반복,  즉 모든 노드가 작업을 완료할 때까지 기다리지 않아도 되는 것이며, 대부분의 해당 노드가 작업을 완성 시, 곧바로 대응 모델을 직접 갱신할 수 있으며, 이렇게  하여 느린 기기의 결과를 기다리지 않아도 되며,  그렇게 함으로써 느린 기기의 영향에서 벗어나고 효율을 향상시킨다.  


2.5 온라인 예측 서비스 성능

PAI 플랫폼에서, 우리들은 풍부한 알고리듬 구현을 제공하며, CPU 및 GPU로 구성된 컴퓨팅 클러스터링은 강력한 분산 컴퓨팅 성능을 제공하며, 동시에 우리들은 온라인 예측 서비스도 제공하고, 데이터 및 알고리듬과 컴퓨팅 성능을 결합하여, 강력한 인공지능 서비스를 직접 출력할 수 있으며, 각종 업종에서 편리하게 응용할 수 있다. 데이터 연동 모델을 원클릭으로 API의 애플리케이션 서비스로써 클라우드에  설치할 수 있다. 멀지 않은 장래에 클라우드 시장에서 PAI 플랫폼이  지원하는 수많은 데이터 지능 서비스가 대중 혁신적 상용화 및  산업화를 지원하고, 회사 가치를 직접 창조하는 것을 보게 될 듯 하다.