Skip to content

NCHU-NLP-Lab/Legal-Document-Question-Answering

Repository files navigation

Legal-Document-Question-Answering

Overview

資料集

我們本次專案資料集包含預訓練資料(台達閱讀資料集)與Fine-tuning(判決書資料集), 並將資料集依照SQuADv1.1的格式去統一化,方便後續訓練模型。

SQuAD資料格式

格式如下

{
    "data":[
        {   
            #文章內文
            "context": "國立中興大學(簡稱興大、NCHU),是位於臺中的一所高等教育機構。",
            
            #問題
            "question": "中興大學在哪裡",
            
            #題號
            "id": "1-1",
            
            #答案
            "answers": {

                #答案起始位置(根據文章內文計算)
                "answer_start": [
                    22
                ],

                #答案字串
                "text": [
                    "臺中"
                ]
            }
        },
        {
            "context": "鴻海科技集團是由臺灣企業家郭台銘創辦的跨國企業,總部位於臺灣新北市土城區,主要生產地則在中國大陸,以富士康做為商標名稱。",
            "question": "鴻海集團總部位於哪裡?",
            "id": "1-2",
            "answers": {
                "answer_start": [
                    30
                ],
                "text": [
                    "新北市土城區"
                ]
            }
        }
    ]

}

DRCD資料

台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD) 屬於通用領域繁體中文機器閱讀理解資料集。

關於資料集之更詳細資訊請洽詢論文: For more information please refer to Paper https://arxiv.org/abs/1806.00920

{
    "data":[
        {   
            #文章內文
            "context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
            
            #問題
            "question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
            
            #題號
            "id": "2128-2-1",
            
            #答案
            "answers": {

                #答案起始位置(根據文章內文計算)
                "answer_start": [
                    92
                ],

                #答案字串
                "text": [
                    "因信稱義"
                ]
            }
        },
        {
            "context": "主教制源自天主教的主教制度,幾乎和天主教的主教制度一模一樣,唯一不同的是主教亦可以結婚。天主教的主教制是在使徒們去世後於第二、三世紀興起的主教制度,所以可以說主教制是整個基督宗教中歷史最悠久的神職人員制度。現在行主教制的新教教會已經很少,聖公會就是沿用主教制,從教會制度和禮儀上看來,聖公會基本上屬大公教會傳統。路德宗和衛理公會則由各區會自行選擇使用主教制還是長老制;在香港和澳門,路德會和衛理公會就選用了長老制。然而,在歐洲,例如瑞典、芬蘭、挪威、德國等地,他們則通常採用主教制。長老制,是一個以議會形式管理區會的制度。議會內的成員由各教會選出長老,代表該教會出席會議。顧名思義,長老會就是採用長老制的教會。採用長老制的教會有基督教改革宗長老會、台灣基督長老教會、韓國基督長老教會等。",

            "question": "新教的主教制度源自於哪一教?"
            "id": "2128-3-1",
            "answers": {
                "answer_start": [
                    5
                ],
                "text": [
                    "天主教"
                ]
            }
        }
    ]

}

判決書資料

根據判決書的裁定要件,我們設計不同的要件問題。

比如我們這次使用的判決書皆是偽照文書,根據偽照文書的必要三個條件

  1. 被告人偽造了什麼文書?
  2. 被告人做了甚麼偽造或冒用的行為?
  3. 被告人損害了什麼利益?

用這三個問答問題,判決書的內文以及人工標註的答案來當作我們的訓練與測試資料集

{
    "data":[
       {    
            #判決書內文
            "context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",

            #問題一
            "question": "被告人偽造了什麼文書?",

            #題號(依據是哪個問題,題號尾數就為第幾個號碼)
            "id": "99-1",

            #人工標註的答案(由三個人標註)
            "answers": {
                "answer_start": [
                    193,
                    193,
                    168
                ],
                "text": [
                    "收受通知聯者簽章",
                    "收受通知聯者簽章",
                    "違反道路交通管理事件通知單"
                ]
            }
        },
        {
            "context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",

            "question": "被告人做了甚麼偽造或冒用的行為?",

            "id": "99-2",

            "answers": {
                "answer_start": [
                    186,
                    183,
                    183
                ],
                "text": [
                    "於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單",
                    "許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名",
                    "許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,"
                ]
            }
        },
        {
            "context": "犯罪事實一、許芷綾與楊儒潔是夫妻關係。許芷綾於民國110年9月1日上午8時55分許,駕駛車號000-0000號重型機車,沿彰化縣秀水鄉彰水路2段南向車道逆向行駛,行經秀水鄉彰水路2段359號前,因交通違規(逆向行駛)遭警方攔查,許芷綾竟基於偽造私文書之犯意,向警員謊報其丈夫楊儒潔之身分,致警員開立第I3H168228號彰化縣警察局舉發違反道路交通管理事件通知單時,許芷綾於舉發單上之「收受通知聯者簽章」欄位上偽造「楊儒潔」簽名,以示業已收受該告發通知單,再交還交通警員收執,足生損害於楊儒傑。二、案經彰化縣警察局鹿港分局報請偵辦。",

            "question": "被告人損害了什麼利益?",

            "id": "99-3",
            
            "answers": {
                "answer_start": [
                    238,
                    238,
                    243
                ],
                "text": [
                    "足生損害於楊儒傑",
                    "足生損害於楊儒傑",
                    "楊儒傑"
                ]
            }
        }
    ]

}

Copyright Notice 版權聲明

本資料集整理、改編自司法院公開判決書資料。 中興大學自然語言實驗室對於本資料集內容之正確性不為任何擔保,且不就因使用或倚賴本資料集而引致的任何損失,承擔任何責任。

如何訓練模型

環境架設

安裝 Transformer 與 Question-Answering 需要的 Module

!git clone https://github.com/huggingface/transformers
!cd transformers
!pip install -r ./examples/requirements.txt
!pip install ./transformers/
!pip install -r ./transformers/examples/pytorch/question-answering/requirements.txt

訓練模型

!python ./transformers/examples/pytorch/question-answering/run_qa.py \
  --model_name_or_path NchuNLP/Legal-Document-Question-Answering \
  --train_file /data/train.json \
  --test_file /data/test.json \
  --do_train \
  --do_predict \
  --per_device_train_batch_size 12 \
  --learning_rate 3e-5 \
  --num_train_epochs 2 \
  --max_seq_length 512 \
  --doc_stride 128 \
  --output_dir /Model/

Evaluation

訓練完模型後,會有 F1_Score 與 Exact Match 的分數, 由於 Hugging Face 的預設 Evaluation Matrix 是基於英文的方式算分,因此在算中文 F1_Score 時,需要另外自己寫中文的算分方式。

如何使用中文算分方式,我們有寫詳細的使用方法在 Evaluation 的檔案底下。

Contact us 聯繫我們

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •