Tool #1 How To Use Transkribus in 10 Steps

2022.02.06

Category: Report

Author: Yuri Ishida

翻訳者:石田友梨
協力者:三浦徹、熊倉和歌子、篠田知暁、須永恵美子、
宮川創、渡邉要一郎、王雯璐、笠原真理子

訳者まえがき
Transkribusは、文字資料の画像から文字を自動で読み取ることのできるフリーソフトウェアです。既存のOCR(光学文字認識)ではうまく読み取ることのできない写本のアラビア文字などが、機械学習の仕組みを用いることで読み取れるようになります。画像は海外のサーバに転送されますので、資料の公開許可範囲をよく確認し(「5. 文字資料のアップロード」参照)、ご自身の責任でご利用ください。
ここでは、Transkribus公式サイトのHow To Use Transkribus in 10 Stepsの日本語訳を掲載しています。掲載許可をくださったTranskribusチームの皆様、日本語訳の協力者の皆様には厚く御礼申し上げます。
イスラーム信頼学では、Transkribusの操作方法を習得するためのワークショップも開催しておりますので、ぜひご参加ください。

Transkribusの基本について紹介をします。 Transkribusを使用するための基本的な流れを簡単に示します。 Transkribusの機能についてのより詳しい説明は、他の「使用方法[How to Guides]をご覧ください。

原文

This document is a basic introduction to Transkribus. It provides a simple standard workflow for working with the platform. If you need more detailed instructions on the functions of Transkribus please have a look at our other How to Guides.


1. はじめに
Transkribusの使用目的はいくつかありますが、以下のものが最も重要です。

  • 学術編集版のために文字資料を転写する[transcribe]。
  • 手書きテキスト認識の「HTR+」システムで歴史的な文字資料の判読ができるようにするため、 その教師データ[training data]を作成する。
  • 「HTR+」を作動させ、自動的に文字資料を転写する。
  • 通常の全文検索よりも強力なキーワード検索[Keyword Spotting]で、文字資料中の特定の単語を検索する。
  • Transkribusのプラットフォームは利用者の皆様に支えられています。 より多くのデータがTranskribusにアップロードされれば、Transkribusのプログラム、特に手書きテキスト認識の効率が向上します。

Transkribusは、H2020プロジェクト READ(文書のテキスト認識とその改良)の一環として設立された研究インフラです。
Transkribusを少し操作してみて、仕組みに慣れてください。 簡単に操作が始められるよう、Transkribusのもつさまざまな機能について、「使用方法[How to Guides]」をいくつか用意してあります。 「資料庫[Resource Base]をご覧ください。

原文

1. Introduction
Transkribus can be used for several purposes. The most important are:

  • Transcribe documents for a scholarly edition
  • Create training data to feed the Handwritten Text Recognition (HTR+) system so it can learn to decipher your historical documents.
  • Run HTR+ on your documents and receive automatically generated transcripts
  • Search for distinct words in your document collections with Keyword Spotting which is much more powerful than standard full-text search.
  • The platform lives from the community. The more data uploaded to Transkribus, the more efficient the program and especially the Handwritten Text Recognition will get

Transkribus is a research infrastructure, which was established as part of the H2020 Project READ (Recognition and Enrichment of Archival Documents).
Take some time to explore Transkribus and become familiar with how it works. To make it easier we have created several How to Guides, which give instructions on the different functions of the platform. You can find them within our Resource Base.


2. Transkribusの使い方―ウェブサイトでの登録

  • Transkribusのページを開いてください。
  • 利用規約個人情報保護方針を読んで同意してください。
  • Transkribusにアップロードされた文字資料はすべて「個人用」で、本人しか利用できません。
  • Transkribus運営者は、データ保護と個人情報に関するEUの指令にすべて従います。 利用者の個人情報を尊重し、データは満足度の向上のため、未来の人文科学とコンピューターサイエンスを支援するためだけに利用します!
原文

2. To use Transkribus―register at the website

  • Go to our Transkribus page.
  • Read and accept out [sic] Terms and Conditions and our Privacy Policy
  • All documents uploaded to Transkribus are “private”, which means that no one except you has access to them.
  • The Transkribus team fully supports all EU directives on data protection and privacy. We will respect your privacy and only use the data you give us to improve our services and support future research in humanities and computer science!

3. ウェブサイトからのダウンロード

  • Transkribusのダウンロード用ページを開きます。
  • TranskribusはWindows、MacOS、Linuxで動きます。プラットフォームの設定については、こちらを参考にしてください。
  • MacOSで初めてTranskribusを開いた時にエラーメッセージが表示された場合、 トラックパッドを右クリックして「コンテクストメニュー」を開き、 Transkribusをセキュリティ上の例外に設定してください。
  • Transkribusをダウンロードしたら、必ずファイルを展開〔解凍〕してください。展開しないとプログラムが始まりません。
原文

3. Download Transkribus from the website

  • Go to the Transkribus download page
  • Transkribus runs on Windows, MacOS and Linux. If you need help installing the platform, you can have a look here.
  • If you use MacOS an error message may appear when you try to open Transkribus for the first time. To remedy this: right click the Track Pad to open the Context Menu and add a security exception for Transkribus.
  • Once you have downloaded Transkribus, make sure you unzip the file. The program cannot be started from the zipped file.

4. Transkribusを開く

  • サーバー[Server]タブのログイン[Login]」ボタンを押します。
図1:ログイン
  • 自分のメールアドレスが名付けられた個人用コレクションが利用できるようになります。 このコレクションには練習用の文字資料が入っています。
  • サーバー[Server]タブにあるコレクション[Collections]ボタンを押して探してみてください。
図2:コレクションの練習用文字資料
原文

4. Open Transkribus

  • Start the tool and use the “Login” button in the “Server” tab.
Figure 1 Login
  • You will have access to your private collection named after your email address. This collection includes some test documents that you can experiment with.
  • You can find it by clicking the “Collections” button in the “Server” tab.
Figure 2 Test documents in your collection

5. 文字資料のアップロード

  • 自分のコンピューターもしくはサーバーへアップロードすれば、Transkribusで自分の文字資料を扱うことができます。
  • Transkribusのプラットフォームに文字資料がアップロードされた場合のみ、自動処理の機能が使用できます。PDF、JPEG、PNG、TIFFファイルの処理ができます。JP2ファイルは扱えません。
  • 自分でスキャンした文字資料をアップロードすることができます。 Androidのスマホ用のDocScanアプリを使って画像を撮影すれば、Transkribusに直接アップロードすることができます。詳細はhttps://scantent.cvl.tuwien.ac.at/enをご覧ください。
  • インターネットからダウンロードした文字資料をTranskribusにアップロードすることもできます。 多くの図書館や文書館が無料公開の方針をとり、所蔵資料の活用を奨励しています。 所蔵資料の画像をTranskribusにアップロードしてよいかわからない場合には、図書館や文書館に直接問い合わせてみましょう!
  • 文字資料のインポート[Import document(s)]を押し、画像を自分のコンピューターからTranskribusのプラットフォームに転送します。 注意:Transkribusにアップロードする前に、画像は自分のコンピューターの専用フォルダに入れておきましょう!
図3:文字資料をTranskribusにアップロードする
  • 自分の文字資料を既存のコレクションのどれかに加えることができます。 もしくは、文字資料の取込み/アップロード[Document ingest/upload]画面下のコレクションへの追加[Add to collection]ボタンをクリックし、 それから作成[Create]を押して作成した新しいコレクションに加えることができます。
図4:文字資料を既存のコレクションに追加、または新しいコレクションを作成
図5:自分の新しいコレクションを作成
  • 自分の文字資料を開くには、サーバー[Server]タブにあるコレクション[Collections]ボタンを押し、自分のコレクションを選択してください。 サーバー[Server]タブの下に表示される欄で目的の文字資料をダブルクリックし、開いてください。
図6:コレクションの文字資料を開く
  • 初期設定では、Transkribusにアップロードされた文字資料は全て個人用となります。 自分の文字資料を見る権限を他の利用者に与えることもできます。 サーバー(Server)」タブにある利用者管理[User Manager]ボタンを押し、自分のコレクションに他の利用者を加えてください。 コレクションの共有ができるのは、Transkribusのアカウントをもっている利用者のみです。
図7:コレクションの利用を管理するための「利用者管理[User Manager]」ボタン
原文

5. Upload your documents

  • Transkribus allows you to work with your own documents, either locally or by uploading them to the server.
  • Automated processes can only be performed if the documents are uploaded to the Transkribus platform. The platform can process PDF, JPEG, PNG and TIFF files. JP2 files are not supported unfortunately.
  • You can upload documents which you have scanned yourself. You can also use our DocScan app for Android smartphones to take images and upload them directly to Transkribus. For more information: https://scantent.cvl.tuwien.ac.at/en
  • You may also download documents from the Internet and upload them to Transkribus. Many libraries and archives follow Open Access policies and are therefore encouraging further usage of their collection – you can ask archives and libraries directly if you can upload images of their documents to Transkribus!
  • Click the “Import document(s)” button to transfer the images from your computer to the platform. Note: the images need to reside in a separate folder on your computer before you upload them to Transkribus!
Figure 3 Upload your documents to Transkribus
  • You can add your documents to one of your existing collections or create a new one by clicking the “Add to collection” button at the bottom of the “Document ingest/upload” box and then clicking “Create”.
Figure 4 Add documents to one of the existing collections or create a new one
Figure 5 Create your own collection
  • To access your documents, click on the “Collections” button in the “Server” tab and choose your collection. Then double-click on the documents in the box at the bottom of the “Server” tab to open them.
Figure 6 Open the documents in your collection
  • All documents uploaded to Transkribus are private by default. You can give other users authorisation to view your documents if you wish. Use the “User Manager” button in the “Server” tab to add users to your collection. You can only share collections with users who have a Transkribus account.
Figure 7 “User Manager” button for managing access to your collection

6. 文字資料を行(lines)に分ける

  • 文字資料を「手書きテキスト認識(HTR)」にかけるには、文字資料が行(lines)に分けられていなければなりません。 Transkribusではこの行設定が自動的にできます。
  • ツール[Tools]タブを開いてください。
  • テキスト範囲検索[Find Text Regions]が選択されているのを確認し、実行[Run]を押してください。
  • 現在のページもしくは複数のページを選んで、行設定をしてください。
  • 文字資料の行やテキストの範囲(regions)が、自動的に検出されます。
図8:行設定
原文

6. Segment your documents into lines

  • To feed the HTR engine with training data your documents need to be segmented into lines. This can be done automatically in Transkribus.
  • Open the “Tools” tab.
  • Make sure “Find Text Regions” is selected and press “Run”.
  • You can choose to segment the current page or a batch of pages.
  • The lines and text regions in your document will be detected automatically.
Figure 8 Segmentation

7. 転写の開始

  • 画像に基準線(baselines)が表示されると、テキスト編集欄にテキストを入力することができます。
  • 上欄の分析結果[Profiles]ボタンをクリックし、転写[Transcription]表示を選択してください。
  • 各基準線は、テキスト編集欄の各行に対応しています。 画像に対応するように一行ずつテキストを入力してください。
図9:転写表示
  • テキスト編集欄のツールバーにあるヴァーチャルキーボード[Virtual Keyboards]ボタンから特殊文字を探すことができます。
図10:ヴァーチャルキーボード[Virtual Keyboards]ボタン
図11:ヴァーチャルキーボード[Virtual Keyboards]
  • チームで取り組んでいる場合は、Transkribusのウェブインターフェースで転写するほうが簡単です。 使いやすいTranskribusの簡易版はhttps://transkribus.eu/r/read/projects/です。
原文

7. Start your transcription

  • Once the baselines are visible on your image you can write text into the Text Editor field.
  • Click on the “Viewing Profiles” button and select the “Transcription” view.
  • For each baseline, there will be a corresponding line in the Text Editor. Transcribe the text line by line, exactly as it appears in the image.
Figure 9 Transcription view
  • Special characters can be found in the “Virtual Keyboards” button in the Text Editor toolbar.
Figure 10 “Virtual Keyboards” button
Figure 11 Virtual keyboards
  • If you are working in a team, you might find it easier to transcribe in the Transkribus Web Interface. This is a lite version of Transkribus which is simple to use: https://transkribus.eu/r/read/projects/

8. 転写の保存と書き出し

図12:文字資料の変更を保存
  • 上欄の保存[Save]ボタンを押すと、Transkribusに文字資料が保存されます。
  • サーバー[Server]タブのバージョン[Versions]ボタンをクリックすれば、作成された新しいバージョンを見ることができます。 必要であれば、いつでも文字資料の以前のバージョンを開くことができます。
図13:文字資料の以前の状態を確認するためにバージョン[Versions]ボタンをクリック
  • 作業のどの時点であれ、「文字資料のエクスポート[Export document]」ボタンをクリックすれば、文字資料全体を書き出すこともできます。
図14:「文字資料のエクスポート[Export document]」ボタン
原文

8. Save and export your transcription

Figure 12 Saving the changes in your document
  • Press the “Save” button in the Main Menu to save the document in Transkribus.
  • If you click on the “Versions” button in the “Server” tab, you will see that a new version has been created. This means that you can always access previous versions of a document should you need to.
Figure 13 Click the “Versions” button to access previous versions of your document
  • You can also export the whole document at any point of the process by clicking the “Export document” button.
Figure 14 “Export document” button

9. 「手書きテキスト認識(HTR)」の使用

  • コンピューターに文字資料を認識させることは簡単です。 印刷されたテキストでは約5,000語、手書きのテキストでは約15,000語の転写を用意すれば 〔テキスト認識〕モデルの訓練を始めることができます。
  • 自分の文字資料で訓練したHTRモデルは、ツール[Tools]タブのテキスト認識[Text Recognition]欄にある実行[Run]ボタンで、文字資料に適用できます。 自分の文字資料から1ページもしくは複数ページを選択し、テキスト認識を開始します。
図15:「手書きテキスト認識(HTR)」の実行
図16:モデルの概要と学習曲線
  • 実行[Run]ボタンをクリックし、HTRモデルを選択[Select HTR model]をクリックすれば、テキスト認識に利用できるモデルの情報を得ることができます。
  • 画面の左側で、利用可能なモデルの一覧を見ることができます。
  • 画面の右側の上部で、選択したモデルの詳細(Details)を見ることができます。
  • 右下のグラフは「誤字率(CER)」、すなわちHTRで不正確に転写された文字の割合であり、モデルの精度を示しています。青線(CER Train)は、教師データを用いた機械学習の進捗状況を表しています。 赤線(CER Test)は、教師データとして使用しなかったデータに対する評価の進捗状況を表しています。
  • HTRが終了すると、テキスト認識の結果はTranskribusの文字資料の新しいバージョンとして直接表示されます。 ツール[Tools]タブの精度計算[Compute Accuracy]機能を使い、自動転写の精度を評価することができます。
図17:「手書きテキスト認識(HTR)」の精度計算
原文

9. Use Handwritten Text Recognition (HTR) on your documents

  • It is simple to have your documents recognised by the computer. You can start training a model with around 5,000 transcribed words of printed text or 15,000 words of handwritten text.
  • Once an HTR model has been trained for your documents, it can be applied via the “Run” button in the “Text Recognition” section in the “Tools” tab. You can select one or more pages of your documents and start recognition.
Figure 15 Run Handwritten Text Recognition
Figure 16 Model overview and learning curve
  • If you click “Run” and then “Select HTR model”, you can choose the model for the recognition and get more information about it.
  • On the left side of the window you can see an overview of the available models.
  • On the top right side of the window the details of the model are shown.
  • The graph on the bottom right signifies the accuracy of your model with the Character Error Rate (CER), i.e. the percentage of characters that have been transcribed incorrectly by HTR. The blue line represents the progress of the training. The red line represents the progress of evaluations on the Test Set of data which was set aside during the training process.
  • After the HTR has finished the results will appear directly on a new version of your document within Transkribus. It is possible to evaluate the accuracy of the automatic transcription using the “Compute Accuracy”-function in the “Tools” tab.
Figure 17 Compute the accuracy of the HTR

10. キーワード検索(Keyword Spotting)

  • 自分の文字資料用のHTRモデルを作れば、キーワード検索機能を使うことができます。 公開モデルのキーワード検索機能を利用できる場合があります。
  • まず、自分の文字資料にHTRモデルを実行し、自動転写を行ってください。
  • それから、図18の双眼鏡ボタンでキーワード検索機能を開きます。
図18:キーワード検索機能を開く
  • 開いた画面でキーワード検索[KWS]タブを選択してください。
図19:キーワード検索機能の使用画面
  • キーワード1[Keyword 1]欄に検索したいキーワードをそのまま入力し、検索[Search]ボタンを押してください。
  • 確認画面が開きます。はい[Yes]をクリックし、キーワード検索を始めてください。
図20:確認画面
  • 検索完了後、作成済[Created]列の該当する行をダブルクリックすると、検索結果を利用できます。
図21:キーワード検索結果
  • キーワード検索結果[Keyword Spotting Results]画面に、キーワードのある箇所が一覧表示されます。
図22:キーワード検索結果の詳細
原文

10. Keyword Spotting

  • Once you have a HTR model for your documents, you will be able to search them with the Keyword Spotting function. If available, of course you can also use one of the public models for this.
  • First, run the HTR model on your documents to produce an automatic transcript.
  • Then open the Keyword Spotting function with the binoculars button shown in Figure 18.
Figure 18 Open the “Search for…” window to use the Keyword Spotting function
  • In the window which opens up choose the “KWS” tab.
Figure 19 Window to use the Keyword Spotting function
  • Simply type the word you would like to search for in the “Keyword 1” box and press the “Search” button.
  • A confirmation window will pop-up. Click “Yes” to start your Keyword Spotting query
Figure 20 Confirmation window
  • Once your search query is finished double-click the date and numerical value in the “Created” column to access your search results
Figure 21 Keyword Spotting results
  • The “Keyword Spotting Results” window will show you a list of places where that keyword appears.
Figure 22 Information about your Keyword Spotting results

謝辞

Transkribusのソフトウェアを改善する助けとなる感想を寄せてくださる利用者の皆様に感謝いたします。
Transkribusとその技術は、下記のプロジェクトとサイトから利用できます。

原文

Credits

We would like to thank the many users who have contributed their feedback to help improve the Transkribus software.
Transkribus and the technology behind it are made available via the following projects and sites:


問合せ

  • Transkribusのチーム: info@readcoop.eu

Transkribusのプラットフォームは、European Cooperative READ-COOP SCEによって提供されています。
Transkribusは、2019年6月まで、the Horizon 2020 READ-project(助成契約番号674943)の一環として資金援助を受けました。

原文

Contact

  • The Transkribus Team: info@readcoop.eu

The Transkribus Platform is provided by the European Cooperative READ-COOP SCE.
Until June 2019 Transkribus was financed as part of the Horizon 2020 READ-project under grant agreement No. 674943.

Author profile

Yuri Ishida(石田 友梨)

(日本語) 岡山大学社会文化科学学域・助教(特任)

(日本語) 京都大学大学院アジア・アフリカ地域研究研究科修了後、早稲田大学アジア太平洋研究センター助手などを経て現職。博士(地域研究)。

Note

(日本語) 日本語訳は随時更新していきますので、お気づきの点がありましたらお知らせください。

PAGETOP