전처리 예제

이 게시물에서는 텍스트 전처리에 대해 이야기하고 정규화, 토큰화, 형태소 분석, 레밍화, 청크, 음성 태그 의 일부, 명명 된 엔터티 인식, 공동 참조 해상도, 대부 추출 및 관계 추출. 또한 텍스트 전처리 도구와 예제에 대해서도 설명했습니다. 비교 테이블이 만들어졌습니다. 패턴 인식에서 k-nearnear 이웃 알고리즘(k-NN)은 분류 및 회귀에 사용되는 비파라메트릭 방법입니다. 두 경우 모두 입력은 피처 공간에서 k 가장 가까운 학습 예제로 구성됩니다. 출력은 k-NN이 분류 또는 회귀에 사용되는지 여부에 따라 달라집니다. 콜로케이션은 우연히 예상되는 것보다 더 자주 함께 발생하는 단어 조합입니다. 콜로시탈 의 예는 “규칙을 위반”, “자유 시간”, “결론을 도출”, “명심하십시오”, “준비”등입니다. 다음은 장난감 데이터 행렬을 [0, 1] 범위로 확장하는 예제입니다. 이러한 단계는 추가 처리를 위해 텍스트를 인간의 언어에서 기계가 읽을 수 있는 형식으로 전송하는 데 필요합니다. 텍스트 전처리 도구도 설명합니다.

아래에서 텍스트 정규화 단계를 자세히 설명합니다. 음성 태그 지정은 정의와 컨텍스트에 따라 지정된 텍스트의 각 단어(예: 명사, 형용사 및 기타)에 음성의 일부를 할당하는 것을 목표로 합니다. NLTK, 스파시, TextBlob, 패턴, 스탠포드 CoreNLP, 메모리 기반 얕은 파서 (MBSP), 아파치 OpenNLP, 아파치 루센, 텍스트 엔지니어링에 대한 일반 아키텍처 (GATE), Freeling, 일리노이 연설의 일부를 포함하여 POS 태거를 포함하는 많은 도구가 있습니다 태거, DKPro 코어. 그러나 거기에 문제가 있다, 문제는 여전히 동일, 기계 학습 모델은 방정식을 기반으로 하 고 우리가 방정식에 숫자를 포함할 수 있도록 숫자로 텍스트를 대체 하는 것이 좋다. 나는 개인적으로 아껴서 lemmatization을 사용할 것입니다. 추가 오버헤드는 가치가 있을 수도 또는 그렇지 않을 수도 있습니다. 그러나 항상 성능 메트릭에 미치는 영향을 확인하기 위해 시도할 수 있습니다. 이 FAQ에서 데이터 중심 지정 및 크기 조정의 중요성에 대한 추가 설명: 데이터를 정규화/표준화/조정해야 합니까? Lemmatization 도구는 위에서 설명한 라이브러리를 제시합니다: NLTK (워드넷 Lemmatizer), 스파시, TextBlob, 패턴, 젠심, 스탠포드 CoreNLP, 메모리 기반 얕은 파서 (MBSP), 아파치 OpenNLP, 아파치 루센, 텍스트 엔지니어링을위한 일반 아키텍처 (GATE) ), 일리노이 레마이저, DKPro 코어. . 형태소 분석은 희소성 문제를 처리하고 어휘를 표준화하는 데 유용합니다.

나는 특히 검색 응용 프로그램에서 형태소 분석과 함께 성공을 거두었습니다. 아이디어는 “딥 러닝 클래스”를 검색한다고 말하면 후자가 제대로 들리지 않지만 “딥 러닝 클래스”와 “심층 학습 클래스”를 언급하는 문서를 표시하려고합니다. 하지만 당신은 우리가이 어디로 가고 있는지 얻을. 가장 관련성이 있는 문서를 불러오기 위해 단어의 모든 변형을 일치시키고 자합니다. 불연속화는 연속 데이터에 대한 히스토그램을 생성하는 것과 유사합니다. 그러나 히스토그램은 특정 저장소에 속하는 피처를 계산하는 데 중점을 두지만 불연속화는 이러한 저장소에 피처 값을 할당하는 데 중점을 둡니다. 텍스트를 미리 처리하는 것은 단순히 작업을 예측하고 분석 할 수있는 형태로 텍스트를 가져 오는 것을 의미합니다. 여기서 작업은 접근 방식과 도메인의 조합입니다. 예를 들어 트윗(도메인)에서 tfidf(접근 방식)로 상위 키워드를 추출하는 것이 작업의 예입니다. drop 매개 변수를 사용하여 각 열을 n_categories-n_categories 열 대신 1개의 열로 인코딩할 수도 있습니다. 이 매개 변수를 사용하면 삭제할 각 기능에 대한 범주를 지정할 수 있습니다. 이 기능은 일부 분류기의 입력 행렬에서 동선성을 방지하는 데 유용합니다.

Posted in Uncategorised