PDFファイルの類似度判定ツールを開発
Pythonを使ったPDFファイルの類似度判定ツールを開発しました。
PDFファイルをアップロードすると、そのテキストを抽出し、形態素分析を実施します。その後、既存のPDFファイル群との間でコサイン類似度を判定し、その判定結果をヒートマップで出力する形になっています。
採用技術は、Python、MeCab、numpy、pandas、matplotlib、doc2vec、sent2vecです。
サイト画像
開発情報
- 費用目安
- 51〜100万円
- 開発期間
- 約1.5ヶ月
- 業種
- 製薬
- ジャンル
- 画像処理システム
- 担当範囲
- 実装 / テスト
株式会社ChantoBit
株式会社ChantoBit
本社所在地:東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル2F-C
株式会社ChantoBitは、「ちゃんとやる」をちゃんとやって、ちゃんと成果をお出しするシステム開発会社です。
主に中小企業様向けに、上流工程から下流工程まで一気通貫でシステム開発支援サービスをご提供しています。
従来の請負形式での開発サービスに加え、月額定額での開発サービスをご用意しているため、お客様のご予算や緊急度に合わせて柔軟にご利用いただけます。
また、月額定額プランの場合、毎月ごとに実装機能の優先度を調整していくため、プロジェクトの状況や利用者からのフィードバックに合わせて機能開発を進めることが可能です。