• [NLP] Korean Corpus Preprocessing

     모두의 말뭉치 데이터 Messiger 4203/1854596 Newspaper 363/36654749 Spoken 27920/16581187 Web 3228/9856153 Written 20188/26397438 s


  • [Python] Difference between '==' and 'is'

     안녕하세요. 오늘 소개해드릴 내용은 == 와 is입니다. 이번에 새로운 논문 관련해서 코드 작성하면서.. ==와 is를 동일 취급하고 무분별하게 사용을 한 대가를 혹독히 받았습니다. 약 4~5일 간 훈련이 완료된 모델들을 모두 처음부터 다시 훈련해야하는 참담한.. 잘못된 부분을 찾고 그 차이를 명확하게 하기 위해 찾아보니 이미 많은 분들이 이 차이에 대해서...


  • [Pytorch] 텐서 슬라이싱 Tensor Slicing

     안녕하세요. 텐서 슬라이싱 Tensor Slicing 오늘 소개해드릴 내용은 pytorch에서 텐서를 슬라이싱하는 방법입니다. tensor를 조작하는 것은 아주 중요하니 예시와 함께 하나하나 설명해드리겠습니다. 왜 tesnor slicing이 필요할까? tensor slicing은 모델을 구현하는 과정에서 많이 사용됩니다. 2차원 matrix라면 중학교 때 행렬을 공부했으니 꽤 익숙하고 어느 정도 구조가 상상이 갑니다. 하지만 3차원, 4차원으로 넘어가면.....


  • [NLP] 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora 

     안녕하세요. 이전에 제 논문에서 사용된 한국어-중국어 병렬 코퍼스를 공개합니다. 한국어-중국어 병렬 코퍼스 Korean-Chinese parallel corpora News Korean-Chinese parallel corpus 첫번째 코퍼스는 Dong-A news에서 크롤링을 통해 수집한 데이터입니다. 대략 25만 문장 정도로 구성되어있습니다. 크롤링 방법 및 data preprocessing은 다음과 같습니다. Dong-A news 홈페이지로부터 한국어 기사, 중국어 기사 추출 한국어: 한국어...


  • [NLP] 얼라인먼트 정보로 Top-N 딕셔너리 추출 Extract Top-N dictionary from bilingual alignment

     안녕하세요. 이번 포스팅에서 소개해드릴 내용은 다음과 같습니다. 얼라인먼트 정보로 Top-N 딕셔너리 추출 Extract Top-N dictionary from bilingual alignment 앞선 포스팅에서 bilingual dataset에서 alignment 를 추출하는 두가지 방법에 대해 설명드렸습니다. 이 포스팅에서 설명하려는 Top-N 딕셔너리를 추출하는 방법은 bilingual data 뿐만 아니라 그 data로부터 추출된 alignment 도 필요하니 위 포스팅에서 방법을...