# PDFファイル登録の仕組み

文書DB画面で、画面にファイルをドラッグアンドドロップすると、文書登録ができます。\
弁護革命にはどんなファイルでも登録できますが、**特にPDFファイルを効果的に処理できる機能を備えています。**\
**PDF化された文書の、タイトル・日付・証拠番号などの書誌情報を、画像解析により自動認識**することができます。

![](/files/R9bWGTVFLfLKrZr316uS)

`解析機能`は弁護革命サーバーと通信をおこなって実施します。

この記事ではPDFファイルのみについて説明します。

## 解析機能で何ができるか

PDFファイルのタイトル・日付・証拠番号などの書誌情報を自動認識します。 また、全文テキストを認識できます。\
&#x20;**PDFファイルにあらかじめOCRをかけることは必要ありません。**

### 書誌情報の認識

以下の情報を認識できます。

* タイトル&#x20;
* 作成日&#x20;
* 証拠番号&#x20;
* 供述者（一部の書類に限る）

裁判所に提出されるような定型の書類では高い認識精度を発揮します。 全部事項証明書なども判別できます。 \
非定型な書類の認識率は落ちます。

### 全文テキストの認識

画像状態のPDFファイルを解析して、全文テキストを認識します。 この全文テキストは、「テキスト検索」機能などで、串刺し検索できるようになります。 \
**PDFファイルにも全文テキストは埋め込まれます。**

**高精度かつ高速**である点も特長です。\
通信環境などによりますが、**トップスピードで毎秒10ページ程度処理できます。**

{% hint style="info" %}
あらかじめOCRがかかっている（＝テキスト認識済みの）PDFファイルの場合には、そのテキストデータをそのまま抽出します。この場合、弁護革命サーバーでの全文テキスト解析はおこないません。
{% endhint %}

## 解析できるファイル

画像解析の対象は`PDF`ファイルです。 `PNG`, `JPEG`, `TIFF`などの画像ファイルは対象外です。

ワード、エクセル、パワーポイント、テキストファイルに対しては、全文テキストをファイルからそのまま抽出して認識します。 もちろん`テキスト検索`機能で検索できます。

### 保護されたPDFは解析できないことがある

PDFファイルに編集不可のロックがかかっている場合などには、解析がおこなえない場合があります。 この場合は、次のように処理されます。

* PDFのファイル名を解釈して、ファイル登録が実施される
* 登録されたPDFは正常に閲覧できる
* 解析機能は発動しない
* 全文テキストデータは抽出できない
* PDFファイルのページ数表示が0となる

## オプション

![](https://storage.googleapis.com/brev-prod-pub/manualAssets/a87d2fc2ea01de1d1f845cd6.png)

`サーバー解析 on/off`という箇所に、2つのオプションがあります。

#### :ballot\_box\_with\_check: タイトル・日付・符号

**ONの場合**\
このオプションをオンにすると、タイトル、作成日、証拠番号、供述者（刑事事件の供述調書に限る）の解析をおこないます。サーバーとの通信がおこなわれます。

**OFFの場合**\
このオプションをオフにした場合には、**ファイル名を解釈**して、タイトル、作成日、証拠番号、供述者の情報を取り出します。

{% hint style="info" %}
既にファイル名に正確に情報が書き込まれている場合には、このオプションをオフにすることを推奨します。
{% endhint %}

#### :ballot\_box\_with\_check: 全文テキスト認識

このオプションをオンにすると、サーバー通信をおこなって全文テキストを解析します。 このオプションをオフにした場合には、サーバーとの通信をおこないません。既にテキスト認識済みの場合には、そのテキストを抽出します。

#### :ballot\_box\_with\_check: 組み合わせ

一方をオン、一方をオフにすることもできます。 たとえば「ファイル名を既に正確に付けているが、OCRはできていない」という場合は、「タイトル・日付・符号」はオフ、「全文テキスト認識」はオン、が有効です。

{% hint style="info" %}
両方をオフにした場合には、サーバーとの通信が一切おこなわれません。 \
弁護革命サーバーにデータを送りたくない場合には、両方のオプションをオフにしてください。
{% endhint %}

## ルール「証拠番号だけは常にファイル名優先」

ファイル名に証拠番号だけ書き込むというケースは多いのではないでしょうか。

> 甲1.pdf\
> 甲2.pdf\
> 甲3の1.pdf\
> 甲3の2.pdf\
> 甲4.pdf\
> 甲5.pdf

このようなイメージです。せっかく記入した証拠番号を無視してしまうのはもったいないです。

弁護革命は、**解析機能をオンにした場合でも、ファイル名に書かれた証拠番号は温存します。** 上記の例だと以下のように処理されます。

* タイトル、作成日は、解析機能で自動認識
* 証拠番号は、ファイル名をそのまま採用

## セキュリティ

弁護革命サーバーは案件のデータを一切預かりませんが、解析機能を利用した場合も同様です。 \
解析機能を利用する瞬間だけデータが送信されますが、処理が終わると直ちにデータが削除されます。 \
**下記の「登録完了！」表示が出たときには、既に弁護革命サーバーにデータは残っていません。**

![](https://storage.googleapis.com/brev-prod-pub/manualAssets/49be77c90b26f057c8882aab.png)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.bengo-kakumei.jp/guide/document-db/register/pdf-register.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
