OpenAI がひっそり公開した Privacy Filter：ブラウザで動作する 1.5B パラメータの PII 検出モデル

結論ファースト

OpenAI が HuggingFace でPrivacy Filterというオープンソースモデルを静かにリリースした——PII（個人識別情報）の検出と削除に特化した 1.5B パラメータのモデルだ。

主な特徴：

Apache 2.0 ライセンス、商用利用可能
アクティブパラメータはわずか 50M、ブラウザまたはノートパソコンで動作
128K Token のコンテキストウィンドウ、長文のチャンキング不要
精度/再現率はプリセットのオペレーティングポイントで調整可能

何があったのか

OpenAI は自社の内部データクリーニングパイプラインで使用していた PII 検出モデルをオープンソース化した。このモデルは gpt-oss と似たアーキテクチャに基づいているが、後訓練によって双方向 Token 分類器に変換されている。

技術詳細

項目	情報
モデルサイズ	合計 1.5B パラメータ、アクティブ 50M
タスクタイプ	Token Classification（双方向）
コンテキストウィンドウ	128,000 Token
ライセンス	Apache 2.0
出力クラス	8 種類の PII カテゴリ
推論方式	単一のフォワードパス + Viterbi デコード

検出される PII カテゴリ

モデルは 8 種類の機密情報を識別できる：

人名
メールアドレス
電話番号
物理アドレス
身分証番号/パスポート番号
クレジットカード番号
IP アドレス
その他の識別情報

なぜ重要なのか

シグナル 1：OpenAI のオープンソース戦略の変化

これは gpt-oss に次ぐ OpenAI の二度目の重量級オープンソースリリースだ。以前の基盤モデルとは異なり、Privacy Filter は垂直ユーティリティモデル——どの生成モデルも置き換えようとするのではなく、特定のインフラ問題に集中している。

シグナル 2：PII コンプライアンスが AI 導入の主要ボトルネックになりつつある

エンタープライズにおける AI の深化に伴い、データプライバシーコンプライアンスがプロジェクト導入の主要な障害になっている：

GDPR/CCPA などの規制は個人情報処理に厳格な要件を課す
企業データをモデルトレーニングに使用する前にマスキングが必要
マルチテナント SaaS アプリケーションでは異なるユーザーのデータを隔離する必要がある

シグナル 3：ブラウザで動作するエンタープライズグレードのツール

50M のアクティブパラメータ意味着、このモデルは以下で動作可能：

モダンブラウザ（Transformers.js + WebGPU 経由）
一般的なノートパソコン
エッジデバイス

GPU サーバーは不要。これによりデプロイの敷居が大幅に下がった。

使い方

Python (Transformers)

from transformers import pipeline

classifier = pipeline(
    task="token-classification",
    model="openai/privacy-filter",
)
classifier("My name is Alice Smith, email: [email protected]")

ブラウザ側 (Transformers.js)

import { pipeline } from "@huggingface/transformers";

const classifier = await pipeline(
  "token-classification", "openai/privacy-filter",
  { device: "webgpu", dtype: "q4" },
);

const output = await classifier(
  "My name is Harry Potter, email: [email protected]",
  { aggregation_strategy: "simple" }
);

比較

ソリューション	精度	デプロイ複雑度	コスト	カスタマイズ性
OpenAI Privacy Filter	★★★★☆	★★★★★（極めて低い）	無料	★★★★☆（ファインチューニング可能）
Presidio (Microsoft)	★★★☆☆	★★★☆☆	無料	★★★★★
商用 PII API	★★★★☆	★★★★★	呼び出しごと課金	★★☆☆☆
正規表現	★★☆☆☆	★★★★★	無料	★★★☆☆

アクション提言

データ処理チーム向け

Privacy Filter を ETL パイプラインに統合し、データ取り込み前の自動マスキング層として活用
128K コンテキストウィンドウを活用して、チャンキングロジックなしで長文を処理

AI アプリケーション開発者向け

ユーザー入力が LLM に到達する前に、Privacy Filter で事前マスキングを実行
ブラウザデプロイ意味着サーバーコストゼロ

コンプライアンスチーム向け

Apache 2.0 ライセンス意味着商業製品に統合可能
モデルはファインチューニング可能で、特定業界の PII 定義に最適化できる