Skip to content

HGU-DLLAB/AwesomeKorean_Data

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

76 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AwesomeKorean_Data

  • 2020년까지 많은 데이터가 구축되었다. 그 중에서 비교적 대부분의 사람들이 접근할 수 있는 오픈 데이터를 정리하였다. 구할 수 있는 모든 데이터를 쏟아 부어서 end to end로 모델을 만들어 보겠다는 포부를 가진 분들의 진입을 쉽게하기 위한 목적이고, 정교한 데이터 구축을 위해서는 이후에 어떠한 데이터가 필요한지를 살펴보기 위한 과정이다.

  • 12월 15일 첫번째 버전을 만들었고 이후 박조은님의 코멘트 그리고 2020년 8월 21일 @warnikchow님의 다양한 기여와 의견을 반영하여 수정하였고 2020년 10월 18일 메인 레포를 이동하였다. 메일 레포에서는 영어 버전을, 이 곳에는 한국어로 데이터 링크와 약간의 설명을 추가하여 두 가지 버전으로 운영 중이다.

  • Natural language processing의 각 분야에 대한 자료 정리는 다음 링크를 참고 Awesome-Korean-NLP

  • 다양한 전처리 및 다운로더를 포함한 데이터 링크는 다음을 참조 https://ratsgo.github.io/embedding/preprocess.html

  • 코퍼스 패키지에 많은 관심이 필요합니다! 웹에 공개되어 있는 한국어 텍스트 데이터들을 손쉽게 로딩하고, 이를 이용하여 모델링한 후 evaluation 까지 편하게 수행하는 / 즉 한국어 텍스트 데이터를 위한 huggingface.nlp 작업 중인 페이지는 다음을 참조, ko-nlp

Open Datasets

network

  • Commercially available(com), academic use only(Academia), unknown(unk)
  • Redistribution is possible with or without modification, if neither, or unknown (rd, rd/mod-x, no, unk)
  • Internationally available publication(inter)
No. Dataset Typical Usage Provider Docu. License Volume Goal Lang.
1 KAIST Morpho-Syntactically Annotated Corpus 형태분석 Academia art acad/no 70M (w) - ko
2 KAIST Korean Tree-Tagging Corpus 구문분석 Academia inter acad/no 30K (s) - ko
3 UD Korean KAIST 의존구문분석 Academia inter acad/rd 27K (s) - ko
4 PKT-UD 의존구문분석 Academia inter acad/no 5K (s) - ko
5 KMOU NER 개체명인식 Academia art acad/rd 24K (s) - ko
6 AIR x NAVER NER 개체명인식 Competition doc acad/no 90K (s) - ko
7 AIR x NAVER SRL 의미역 결정(Semantic Role Labeling) Competition doc acad/no 35K (s) - ko
8 Question Pair 유사문장탐지 Academia doc com/rd 10K (p) - ko
9 KorNLI 자연처 추론(Natural Language Inference) Industry inter com/rd 1,000K (p) - ko
10 KorSTS 유사문장탐지(Semantic Textual Similarity) Industry inter com/rd 8,500 (p) - ko
11 ParaKQC 유사문장판별(STS) Academia inter com/rd 540K (p) - ko
12 NSMC 감성분석(Sentiment analysis) Academia doc com/rd 150K / 50K (s) - ko
13 BEEP! 혐오표현탐지(Hate speech detection) Academia inter com/rd 8K / 500 / 1,000 (s) - ko
14 3i4K 화행분류(Speech act classification) Academia inter com/rd 55K / 6K (s) - ko
15 KorQuAD 1.0 질의응답(QA) Industry inter com/rd (mod-x) 60K / 5K / 4K (p) - ko
16 KorQuAD 2.0 질의응답(QA) Industry art com/rd (mod-x) 80K / 10K / 10K (p) - ko
17 Sci-news-sum-kr 문서요약(Summarization) Academia doc acad/rd 50 (p) Eval ko
18 sae4K 문서요약(Summarization) Academia inter com/rd 50K (p) - ko
19 Korean Parallel Corpora 병렬코퍼스(MT) Academia inter com/red(mod-x) 97K (p) - ko, en
20 KAIST Translation Evaluation Set 병렬코퍼스(MT) Academia doc acad/no 3K (p) Eval ko, en
21 KAIST Chinese-Korean Multilingual Corpus 병렬코퍼스(MT) Academia doc acad/no 60K (p) - ko, zh
22 Transliteration Dataset 영어-한글 표기 변환기(Transliteration) Academia doc com/rd 35K (p) - ko, en
23 KAIST Transliteration Evaluation Set 영어-한글 표기 변환기(Transliteration) Academia doc acad/no 7K (p) Eval ko, en
24 SIGMORPHON G2P 다중언어의 자소를 음소로 변환(G2P conversion) Competition inter com/rd 3,600 / 450 / 450 (p) - ko, en, hy, bg, fr, ka, hi, hu, is, lt, el
25 PAWS-X 유사문장탐지(Paraphrase detection) Industry inter com/rd 5K / 2K / 2K (p) - ko, fr, es, de, zh, ja
26 TyDi-QA QA Industry inter com/rd 11K / 1,698 / 1,722 (p) - ko, en, ar, bn, fi, ja, id, sw, ru, te, th
27 XPersona 다중언어 대화(Dialog) Academia inter com/rd 299 (d) / 4,684 (s) - ko, en, it, fr, id, zh, ja
28 KSS 한국어 1인 발화(ASR) Academia doc acad/rd 12+ (h) / 13K (u) / 1 speaker - ko
29 Zeroth Kaldi 기반의 음성 인식(ASR) Industry doc com/rd 51+ (h) / 27K (s) / 46K (u) / 181 speakers - ko
30 ClovaCall 음성인식(ASR) Industry inter acad/no 80+ (h) / 60K (u)/ 11K speakers - ko
31 Pansori-TedXKR TEDx음성인식(ASR) Academia inter acad/rd / (mod-x) 3+ (h) / 3K (u)/ 41 speakers - ko
32 ProSem 의미를 구별하는 운율 요소(SLU) Academia inter com/rd 6+ (h) / 3,500 (s) / 7K (u) / 2 speakers - ko

기타 주요 데이터

번호 데이터 종류 데이터 설명
1. 한국 정치인 뉴스 데이터 세트 -
2 청와대 국민청원 사이트의 만료된 청원 데이터 모음 :octocat:
3 공공데이터포털 뉴스빅데이터 뉴스 데이터 'Kinds' 기반 분석 자료, 기사 메타 제공
4 챗봇용 대화 응답 세트 챗봇용 응답 쌍과 긍부정 태깅
5 영화추천시스템을 위한 데이터 세트 Synthetic dataset for recommender system created with Naver Movie rating system
6 욕설데이터 세트 문장의 욕설 여부를 분류한 데이터 세트
7 학습용 뉴스 댓글 데이터 BERT 모델과 학습에 이용한 11.62G 데이터를 모두 공개
8 AMR 문서요약에 대한 지침과 데이터 세트
9 네이버쇼핑, Steam 플랫폼 리뷰 데이터 감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋

국가적 규모에서 구축한 데이터

번호 데이터 종류 데이터 설명
1 우리말샘 이 사전에 대한 설명 :octocat: : 다양한 어휘와 유의어 정보 등을 얻을 수 있는 대사전 : 로그인 후 전체 사전 데이터 다운로드 가능
2 NIA 사전 묻지도 따지지도 않고 다음 링크에서 엑셀로 다운로드 가능
3 국립국어원 언어정보나눔터 로그인 후 세종2007 코퍼스나 낭독체 음성 파일 등도 다운로드 가능, 다운 받을 때 간단한 서약에 체크만 하면 되는데 자료의 크기를 작게 나누어 놓아서 여러번 체크해야 한다는 것이 단점
4 AIHub 텍스트와 음성 멀티모달까지 가장 광범위한 데이터, 로그인 및 사용 목적과 기간을 명시한 사용 신청서 작성 후 허가 메일이 오면(하루 정도 걸린다) 다운로드 가능

pic

번호 데이터 종류 데이터 설명
5 국립국어원 모두의 말뭉치 다양한 분석 말뭉치(형태소 분석과 구문 분석 말뭉치 등), 다양한 도메인의 말뭉치(문어, 신문, 구어, 웹), 자연어 추론을 위한 말뭉치(유사 문장) 등 다양한 데이터들이 체계적으로 구축되어 있다. 로그인, 메일 인증을 거쳐 데이터를 신청할 수 있고 다운로드 받기 위해서는 연구과제명과 수행기관, 약정 기간 등이 필수 입력 요소이다.

pic

  • 딥러닝이 블랙박스 모델이라고 불리고 있음에도 불구하고 다양한 모델링과 튜닝을 하는 모델러와 데이터 구축에서 서비스까지 뚝딱뚝딱 마법사처럼 만들어 내고 계신 SW 개발자 여러분, 다양한 feature를 찾아내 분석할 수 있는 모든 방법론으로 설명해 주고 계신 분석가, 사람의 언어와 기계의 언어를 이해하려고 노력하는 코퍼스 언어학자 등 남들이 삽질이라고 영역에서 놀라운 창조력을 발휘해 내시는 분들께 감사의 마음과 큰 박수를 보낸다.

About

한국어 데이터 세트 링크

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published