研究実践現場における課題
資料調査やデータの整理等に時間を取られて、研究者自身が研究に注力できていない。
各種データにメタデータを付与したくても、時間と手間を割くことができない。
各種データは、検索に時間が掛かる・そもそも検索できない等、活用し切れていない。
研究の可視化ができておらず、他ジャンルの研究者や企業とのコラボレーションに至らない。
社会に還元されるべき公共性の高い研究データのデータベース化が進んでいない。
研究に注力していただくための環境サポート
人類社会がこれまで経験したことのないスピードで変革を遂げる中にあって、
研究分野においてはオープンサイエンス、オープンデータという潮流によって、
より開かれた、より協調的で透明性が高い世界へと変化する過程にあります。
これまでの研究成果を社会に還元するための可視化を行うための第一歩として、
テキストデータ化、タグ付けによる構造化が不可欠です。
テキストデータによる作業の省力化で研究者の方々の負担が減って、研究にまい進できれば、
新たな知見のブレークスルーがもたらされるかもしれません。
TOPPANの研究資料OCR・データベース構築サービスでは、
研究機関・教育機関・博物館等でお持ちの資料をデジタル化するだけに留まらず、
資料整理・保存などの実作業~データベース構築~データの利活用まで、
トータルにサポートします。
旧字&旧カナ文字、表組等にも対応
タグ付けによる構造化(スタイル付与)も可能
研究データのデジタル化に使用するOCRシステムは、
TOPPANが培ってきた印刷テクノロジーを基に、99.98%の高精度でテキストのデータ化が可能です。
従来では読み取りが困難な、表組形式の資料、和欧文混在、明治~戦前の旧字や旧文章なども対応が可能です。
また、文字列に対して事前に定義したスタイル情報を付与することで、
構造化データを作成することもできます。
膨大な観測結果データから貴重な資料まで、幅広い資料のテキスト化に対応しています。
TOPPAN 研究資料OCR・データベース構築サービス
ご支援事例
『奈良時代古代人名辞典』の1,010画像から、データの構築および収集。「高精度OCR全文テキスト化サービス」を用い、文字認識精度99%以上を担保した中で、テキスト抽出・翻刻を行いました。
今後はデータ構築に役立てるべく、研究者の手によってテキストデータに更なる加工が施されデータの高度化が進められていく見込みです。
地質調査総合センター整備推進室様 『地質図幅説明書』テキストデータ化・構造化
『地質図幅説明書』の内容について、目次及び本文のテキストデータ化(文字認識精度99.5%以上)と構造化(XML 化)を行い、図表及び図版については画像ファイルとして保存しました。
産総研が構築してきた地質情報は、日本の国土と社会の持続的な発展につながるものであり、災害リスクや土地利用の評価に欠かせない極めて公共性の高い基盤情報です。有効に活用される未来のため、今後は研究者の手によって人口知能が適確かつ迅速に処理することができるようなデータづくりが進められていく見込みです。
TOPPAN 研究資料OCR・データベース構築サービスの特徴
- 1
- 活用シーンをイメージした設計による「資料整理」 学芸員、デジタル・アーキビスト、文化財IPMコーディネータ、上級文書情報管理士などの専門スタッフがお客さまのご要望や資料の状況に合わせてサポートいたします。
学芸員、デジタル・アーキビスト、文化財IPMコーディネータ、上級文書情報管理士などの専門スタッフがお客さまのご要望や資料の状況に合わせてサポートいたします。
- 2
- 形態・特性に応じた「資料デジタル化」
単票・書籍・大判・マイクロフィルム等、さまざまな資料の形態・特性に応じて機材を選定し、ご担当者様のご要望に沿った品質でデジタル化を行います。
単票・書籍・大判・マイクロフィルム等、さまざまな資料の形態・特性に応じて機材を選定し、ご担当者様のご要望に沿った品質でデジタル化を行います。
- 3
- 独自のOCRシステムで文字認識精度99.98%※を実現!
旧字旧仮名・ルビ・割注等、様々な文字・レイアウトへの対応はもちろん、ご要望の形式にてデータ提供が可能です。TOPPANが独自開発したOCRシステムや校正システムの組み合わせにより、精度の高いテキストデータをご提供します。基本的にお客さまの校正作業はありません。
また、当社OCRシステムは複数データ形式の書出しにも対応していますので、編集用としてテキストデータ、検索用にPDFデータ等、デジタル化で多様な活用が可能になり、情報資産の「付加価値化」を実現します。
高精度なテキストデータは将来に渡りお客さまの情報資産となり、今後起こりうるデジタルトランスフォーメーションの核として活用することが可能になります。
※制作要件により精度が異なる場合がございます。
旧字旧仮名・ルビ・割注等、様々な文字・レイアウトへの対応はもちろん、ご要望の形式にてデータ提供が可能です。TOPPANが独自開発したOCRシステムや校正システムの組み合わせにより、精度の高いテキストデータをご提供します。基本的にお客さまの校正作業はありません。
また、当社OCRシステムは複数データ形式の書出しにも対応していますので、編集用としてテキストデータ、検索用にPDFデータ等、デジタル化で多様な活用が可能になり、情報資産の「付加価値化」を実現します。
高精度なテキストデータは将来に渡りお客さまの情報資産となり、今後起こりうるデジタルトランスフォーメーションの核として活用することが可能になります。
※制作要件により精度が異なる場合がございます。
- 4
- 活用しやすい管理システム構築を一貫支援
作成した資料目録(メタデータ) ・デジタル化した資料をもとにデータベースシステムを構築します。
作成した資料目録(メタデータ) ・デジタル化した資料をもとにデータベースシステムを構築します。
- 5
- AI活用×電子データで、検索性向上
電子化された書面は、AI(LLM+RAG)で業務効率向上に活用いただけます。
電子化した書面を、他のデータとあわせてデータベースに登録。生成AIによる検索が可能となり、データベース内情報は異なるファイル形式や階層構造から横断的に回答を生成します。
電子化された書面は、AI(LLM+RAG)で業務効率向上に活用いただけます。
電子化した書面を、他のデータとあわせてデータベースに登録。生成AIによる検索が可能となり、データベース内情報は異なるファイル形式や階層構造から横断的に回答を生成します。
価格
| 内容・規模により異なります。 お気軽にご相談ください。 |
|---|