AwesomeKorean_Data

2020년까지 많은 데이터가 구축되었다. 그 중에서 비교적 대부분의 사람들이 접근할 수 있는 오픈 데이터를 정리하였다. 구할 수 있는 모든 데이터를 쏟아 부어서 end to end로 모델을 만들어 보겠다는 포부를 가진 분들의 진입을 쉽게하기 위한 목적이고, 정교한 데이터 구축을 위해서는 이후에 어떠한 데이터가 필요한지를 살펴보기 위한 과정이다.
12월 15일 첫번째 버전을 만들었고 이후 박조은님의 코멘트 그리고 2020년 8월 21일 @warnikchow님의 다양한 기여와 의견을 반영하여 수정하였고 2020년 10월 18일 메인 레포를 이동하였다. 메일 레포에서는 영어 버전을, 이 곳에는 한국어로 데이터 링크와 약간의 설명을 추가하여 두 가지 버전으로 운영 중이다.
Natural language processing의 각 분야에 대한 자료 정리는 다음 링크를 참고 Awesome-Korean-NLP
다양한 전처리 및 다운로더를 포함한 데이터 링크는 다음을 참조 https://ratsgo.github.io/embedding/preprocess.html
코퍼스 패키지에 많은 관심이 필요합니다! 웹에 공개되어 있는 한국어 텍스트 데이터들을 손쉽게 로딩하고, 이를 이용하여 모델링한 후 evaluation 까지 편하게 수행하는 / 즉 한국어 텍스트 데이터를 위한 huggingface.nlp 작업 중인 페이지는 다음을 참조, ko-nlp

Open Datasets

Commercially available(com), academic use only(Academia), unknown(unk)
Redistribution is possible with or without modification, if neither, or unknown (rd, rd/mod-x, no, unk)
Internationally available publication(inter)

No.	Dataset	Typical Usage	Provider	Docu.	License	Volume	Goal	Lang.
1	KAIST Morpho-Syntactically Annotated Corpus	형태분석	Academia	art	acad/no	70M (w)	-	ko
2	KAIST Korean Tree-Tagging Corpus	구문분석	Academia	inter	acad/no	30K (s)	-	ko
3	UD Korean KAIST	의존구문분석	Academia	inter	acad/rd	27K (s)	-	ko
4	PKT-UD	의존구문분석	Academia	inter	acad/no	5K (s)	-	ko
5	KMOU NER	개체명인식	Academia	art	acad/rd	24K (s)	-	ko
6	AIR x NAVER NER	개체명인식	Competition	doc	acad/no	90K (s)	-	ko
7	AIR x NAVER SRL	의미역 결정(Semantic Role Labeling)	Competition	doc	acad/no	35K (s)	-	ko
8	Question Pair	유사문장탐지	Academia	doc	com/rd	10K (p)	-	ko
9	KorNLI	자연처 추론(Natural Language Inference)	Industry	inter	com/rd	1,000K (p)	-	ko
10	KorSTS	유사문장탐지(Semantic Textual Similarity)	Industry	inter	com/rd	8,500 (p)	-	ko
11	ParaKQC	유사문장판별(STS)	Academia	inter	com/rd	540K (p)	-	ko
12	NSMC	감성분석(Sentiment analysis)	Academia	doc	com/rd	150K / 50K (s)	-	ko
13	BEEP!	혐오표현탐지(Hate speech detection)	Academia	inter	com/rd	8K / 500 / 1,000 (s)	-	ko
14	3i4K	화행분류(Speech act classification)	Academia	inter	com/rd	55K / 6K (s)	-	ko
15	KorQuAD 1.0	질의응답(QA)	Industry	inter	com/rd (mod-x)	60K / 5K / 4K (p)	-	ko
16	KorQuAD 2.0	질의응답(QA)	Industry	art	com/rd (mod-x)	80K / 10K / 10K (p)	-	ko
17	Sci-news-sum-kr	문서요약(Summarization)	Academia	doc	acad/rd	50 (p)	Eval	ko
18	sae4K	문서요약(Summarization)	Academia	inter	com/rd	50K (p)	-	ko
19	Korean Parallel Corpora	병렬코퍼스(MT)	Academia	inter	com/red(mod-x)	97K (p)	-	ko, en
20	KAIST Translation Evaluation Set	병렬코퍼스(MT)	Academia	doc	acad/no	3K (p)	Eval	ko, en
21	KAIST Chinese-Korean Multilingual Corpus	병렬코퍼스(MT)	Academia	doc	acad/no	60K (p)	-	ko, zh
22	Transliteration Dataset	영어-한글 표기 변환기(Transliteration)	Academia	doc	com/rd	35K (p)	-	ko, en
23	KAIST Transliteration Evaluation Set	영어-한글 표기 변환기(Transliteration)	Academia	doc	acad/no	7K (p)	Eval	ko, en
24	SIGMORPHON G2P	다중언어의 자소를 음소로 변환(G2P conversion)	Competition	inter	com/rd	3,600 / 450 / 450 (p)	-	ko, en, hy, bg, fr, ka, hi, hu, is, lt, el
25	PAWS-X	유사문장탐지(Paraphrase detection)	Industry	inter	com/rd	5K / 2K / 2K (p)	-	ko, fr, es, de, zh, ja
26	TyDi-QA	QA	Industry	inter	com/rd	11K / 1,698 / 1,722 (p)	-	ko, en, ar, bn, fi, ja, id, sw, ru, te, th
27	XPersona	다중언어 대화(Dialog)	Academia	inter	com/rd	299 (d) / 4,684 (s)	-	ko, en, it, fr, id, zh, ja
28	KSS	한국어 1인 발화(ASR)	Academia	doc	acad/rd	12+ (h) / 13K (u) / 1 speaker	-	ko
29	Zeroth	Kaldi 기반의 음성 인식(ASR)	Industry	doc	com/rd	51+ (h) / 27K (s) / 46K (u) / 181 speakers	-	ko
30	ClovaCall	음성인식(ASR)	Industry	inter	acad/no	80+ (h) / 60K (u)/ 11K speakers	-	ko
31	Pansori-TedXKR	TEDx음성인식(ASR)	Academia	inter	acad/rd / (mod-x)	3+ (h) / 3K (u)/ 41 speakers	-	ko
32	ProSem	의미를 구별하는 운율 요소(SLU)	Academia	inter	com/rd	6+ (h) / 3,500 (s) / 7K (u) / 2 speakers	-	ko

기타 주요 데이터

번호	데이터 종류	데이터 설명
1.	한국 정치인 뉴스 데이터 세트	-
2	청와대 국민청원 사이트의 만료된 청원 데이터 모음
3	공공데이터포털 뉴스빅데이터	뉴스 데이터 'Kinds' 기반 분석 자료, 기사 메타 제공
4	챗봇용 대화 응답 세트	챗봇용 응답 쌍과 긍부정 태깅
5	영화추천시스템을 위한 데이터 세트	Synthetic dataset for recommender system created with Naver Movie rating system
6	욕설데이터 세트	문장의 욕설 여부를 분류한 데이터 세트
7	학습용 뉴스 댓글 데이터	BERT 모델과 학습에 이용한 11.62G 데이터를 모두 공개
8	AMR	문서요약에 대한 지침과 데이터 세트
9	네이버쇼핑, Steam 플랫폼 리뷰 데이터	감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋

국가적 규모에서 구축한 데이터

번호	데이터 종류	데이터 설명
1	우리말샘	이 사전에 대한 설명 : 다양한 어휘와 유의어 정보 등을 얻을 수 있는 대사전 : 로그인 후 전체 사전 데이터 다운로드 가능
2	NIA 사전	묻지도 따지지도 않고 다음 링크에서 엑셀로 다운로드 가능
3	국립국어원 언어정보나눔터	로그인 후 세종2007 코퍼스나 낭독체 음성 파일 등도 다운로드 가능, 다운 받을 때 간단한 서약에 체크만 하면 되는데 자료의 크기를 작게 나누어 놓아서 여러번 체크해야 한다는 것이 단점
4	AIHub	텍스트와 음성 멀티모달까지 가장 광범위한 데이터, 로그인 및 사용 목적과 기간을 명시한 사용 신청서 작성 후 허가 메일이 오면(하루 정도 걸린다) 다운로드 가능

번호	데이터 종류	데이터 설명
5	국립국어원 모두의 말뭉치	다양한 분석 말뭉치(형태소 분석과 구문 분석 말뭉치 등), 다양한 도메인의 말뭉치(문어, 신문, 구어, 웹), 자연어 추론을 위한 말뭉치(유사 문장) 등 다양한 데이터들이 체계적으로 구축되어 있다. 로그인, 메일 인증을 거쳐 데이터를 신청할 수 있고 다운로드 받기 위해서는 연구과제명과 수행기관, 약정 기간 등이 필수 입력 요소이다.

딥러닝이 블랙박스 모델이라고 불리고 있음에도 불구하고 다양한 모델링과 튜닝을 하는 모델러와 데이터 구축에서 서비스까지 뚝딱뚝딱 마법사처럼 만들어 내고 계신 SW 개발자 여러분, 다양한 feature를 찾아내 분석할 수 있는 모든 방법론으로 설명해 주고 계신 분석가, 사람의 언어와 기계의 언어를 이해하려고 노력하는 코퍼스 언어학자 등 남들이 삽질이라고 영역에서 놀라운 창조력을 발휘해 내시는 분들께 감사의 마음과 큰 박수를 보낸다.

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
LICENSE		LICENSE
README.md		README.md
aihub.png		aihub.png
everyone.png		everyone.png
network.jpg		network.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AwesomeKorean_Data

Open Datasets

기타 주요 데이터

국가적 규모에서 구축한 데이터

About

Releases

Packages

License

HGU-DLLAB/AwesomeKorean_Data

Folders and files

Latest commit

History

Repository files navigation

AwesomeKorean_Data

Open Datasets

기타 주요 데이터

국가적 규모에서 구축한 데이터

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages