我們本次專案資料集包含預訓練資料(台達閱讀資料集)與Fine-tuning(判決書資料集), 並將資料集依照SQuADv1.1的格式去統一化,方便後續訓練模型。
格式如下
{
"data":[
{
#文章內文
"context": "國立中興大學(簡稱興大、NCHU),是位於臺中的一所高等教育機構。",
#問題
"question": "中興大學在哪裡",
#題號
"id": "1-1",
#答案
"answers": {
#答案起始位置(根據文章內文計算)
"answer_start": [
22
],
#答案字串
"text": [
"臺中"
]
}
},
{
"context": "鴻海科技集團是由臺灣企業家郭台銘創辦的跨國企業,總部位於臺灣新北市土城區,主要生產地則在中國大陸,以富士康做為商標名稱。",
"question": "鴻海集團總部位於哪裡?",
"id": "1-2",
"answers": {
"answer_start": [
30
],
"text": [
"新北市土城區"
]
}
}
]
}
台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD) 屬於通用領域繁體中文機器閱讀理解資料集。
關於資料集之更詳細資訊請洽詢論文: For more information please refer to Paper https://arxiv.org/abs/1806.00920
{
"data":[
{
#文章內文
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
#問題
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
#題號
"id": "2128-2-1",
#答案
"answers": {
#答案起始位置(根據文章內文計算)
"answer_start": [
92
],
#答案字串
"text": [
"因信稱義"
]
}
},
{
"context": "主教制源自天主教的主教制度,幾乎和天主教的主教制度一模一樣,唯一不同的是主教亦可以結婚。天主教的主教制是在使徒們去世後於第二、三世紀興起的主教制度,所以可以說主教制是整個基督宗教中歷史最悠久的神職人員制度。現在行主教制的新教教會已經很少,聖公會就是沿用主教制,從教會制度和禮儀上看來,聖公會基本上屬大公教會傳統。路德宗和衛理公會則由各區會自行選擇使用主教制還是長老制;在香港和澳門,路德會和衛理公會就選用了長老制。然而,在歐洲,例如瑞典、芬蘭、挪威、德國等地,他們則通常採用主教制。長老制,是一個以議會形式管理區會的制度。議會內的成員由各教會選出長老,代表該教會出席會議。顧名思義,長老會就是採用長老制的教會。採用長老制的教會有基督教改革宗長老會、台灣基督長老教會、韓國基督長老教會等。",
"question": "新教的主教制度源自於哪一教?"
"id": "2128-3-1",
"answers": {
"answer_start": [
5
],
"text": [
"天主教"
]
}
}
]
}
根據判決書的裁定要件,我們設計不同的要件問題。
比如我們這次使用的判決書皆是偽照文書,根據偽照文書的必要三個條件
- 被告人偽造了什麼文書?
- 被告人做了甚麼偽造或冒用的行為?
- 被告人損害了什麼利益?
用這三個問答問題,判決書的內文以及人工標註的答案來當作我們的訓練與測試資料集
{
"data":[
{
#判決書內文
"context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",
#問題一
"question": "被告人偽造了什麼文書?",
#題號(依據是哪個問題,題號尾數就為第幾個號碼)
"id": "99-1",
#人工標註的答案(由三個人標註)
"answers": {
"answer_start": [
193,
193,
168
],
"text": [
"收受通知聯者簽章",
"收受通知聯者簽章",
"違反道路交通管理事件通知單"
]
}
},
{
"context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",
"question": "被告人做了甚麼偽造或冒用的行為?",
"id": "99-2",
"answers": {
"answer_start": [
186,
183,
183
],
"text": [
"於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單",
"許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名",
"許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,"
]
}
},
{
"context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",
"question": "被告人損害了什麼利益?",
"id": "99-3",
"answers": {
"answer_start": [
238,
238,
243
],
"text": [
"足生損害於楊儒傑",
"足生損害於楊儒傑",
"楊儒傑"
]
}
}
]
}
本資料集整理、改編自司法院公開判決書資料。 中興大學自然語言實驗室對於本資料集內容之正確性不為任何擔保,且不就因使用或倚賴本資料集而引致的任何損失,承擔任何責任。
安裝 Transformer 與 Question-Answering 需要的 Module
!git clone https://github.com/huggingface/transformers
!cd transformers
!pip install -r ./examples/requirements.txt
!pip install ./transformers/
!pip install -r ./transformers/examples/pytorch/question-answering/requirements.txt
!python ./transformers/examples/pytorch/question-answering/run_qa.py \
--model_name_or_path NchuNLP/Legal-Document-Question-Answering \
--train_file /data/train.json \
--test_file /data/test.json \
--do_train \
--do_predict \
--per_device_train_batch_size 12 \
--learning_rate 3e-5 \
--num_train_epochs 2 \
--max_seq_length 512 \
--doc_stride 128 \
--output_dir /Model/
訓練完模型後,會有 F1_Score 與 Exact Match 的分數, 由於 Hugging Face 的預設 Evaluation Matrix 是基於英文的方式算分,因此在算中文 F1_Score 時,需要另外自己寫中文的算分方式。
如何使用中文算分方式,我們有寫詳細的使用方法在 Evaluation 的檔案底下。
- 實驗室網站 : 自然語言處理實驗室 Natural Language Processing Lab
- Email : [email protected]
- Phone : 04-22840497 #721