Private AI Inference on Your Device设备端私密 AI 推理デバイス上のプライベート AI 推論
Turn your iPhone or iPad into a fully functional AI inference server. Run large language models entirely on-device with no cloud dependency. Your conversations and data never leave your phone.将您的 iPhone 或 iPad 变成一个功能完备的 AI 推理服务器。完全在设备上运行大型语言模型,无需云端依赖。您的对话和数据永远不会离开您的手机。iPhone や iPad を本格的な AI 推論サーバーに変えましょう。大規模言語モデルをデバイス上で完全に実行し、クラウドに依存しません。会話やデータが端末から外に出ることはありません。
Once a model is downloaded, everything runs locally. No internet connection required for inference. Your data never leaves your device, and no subscription is needed.模型下载完成后,所有推理均在本地运行。推理过程无需互联网连接。您的数据永远不会离开设备,也不需要任何订阅。モデルをダウンロードすれば、すべてローカルで動作します。推論にインターネット接続は不要です。データが端末から外に出ることはなく、サブスクリプションも不要です。
Start chatting immediately with the integrated chat UI. No external app needed. The built-in interface connects directly to your local server for instant, private conversations.通过内置聊天界面即刻开始对话,无需外部应用。内置界面直接连接本地服务器,实现即时、私密的对话。内蔵チャット UI ですぐに会話を開始できます。外部アプリは不要です。ローカルサーバーに直接接続し、即座にプライベートな会話ができます。
Drop-in replacement for the OpenAI API. Supports chat completions, text completions, streaming (SSE), and model listing. Also compatible with Ollama CLI commands.可直接替代 OpenAI API。支持聊天补全、文本补全、流式传输 (SSE) 和模型列表。同时兼容 Ollama CLI 命令。OpenAI API のドロップイン代替。チャット補完、テキスト補完、ストリーミング (SSE)、モデル一覧に対応。Ollama CLI コマンドとも互換性があります。
Secure your server with HTTPS/TLS encryption. Generate self-signed certificates or import your own. Protect access with Bearer token API key authentication and manage multiple keys.使用 HTTPS/TLS 加密保护您的服务器。生成自签名证书或导入您自己的证书。通过 Bearer Token API 密钥认证保护访问,并管理多个密钥。HTTPS/TLS 暗号化でサーバーを保護します。自己署名証明書の生成や独自の証明書のインポートが可能です。Bearer トークン API キー認証でアクセスを保護し、複数のキーを管理できます。
Supports any GGUF-format model powered by llama.cpp. Run LLaMA, Mistral, Phi, Gemma, Qwen, DeepSeek, and many more. Browse and download directly from Hugging Face with built-in search.支持 llama.cpp 驱动的任何 GGUF 格式模型。可运行 LLaMA、Mistral、Phi、Gemma、Qwen、DeepSeek 等众多模型。内置搜索功能,直接从 Hugging Face 浏览和下载。llama.cpp による GGUF 形式モデルに対応。LLaMA、Mistral、Phi、Gemma、Qwen、DeepSeek など多数のモデルを実行可能。Hugging Face からの検索・ダウンロード機能を内蔵しています。
Hardware-accelerated inference using Apple Metal. Configure GPU layer offloading, thread count, context sizes up to 32K tokens, and fine-tune temperature, top-p, top-k, and penalties.使用 Apple Metal 进行硬件加速推理。配置 GPU 层卸载、线程数、高达 32K Token 的上下文大小,并精细调节温度、top-p、top-k 和惩罚参数。Apple Metal によるハードウェアアクセラレーション推論。GPU レイヤーオフロード、スレッド数、最大 32K トークンのコンテキストサイズを設定し、温度、top-p、top-k、ペナルティを細かく調整できます。
Expose your server on the local network for use with any OpenAI-compatible client. Bind to all interfaces, localhost only, or a specific network interface. Configurable port and CORS support.在局域网上公开服务器,供任何兼容 OpenAI 的客户端使用。可绑定到所有接口、仅本地主机或指定网络接口。支持自定义端口和 CORS。ローカルネットワーク上でサーバーを公開し、OpenAI 互換クライアントから利用できます。全インターフェース、ローカルホストのみ、または特定のネットワークインターフェースにバインド可能。ポート設定と CORS に対応。
Real-time thermal and memory monitoring. Automatic thread reduction under heat, request rejection at critical temperatures, and conservative memory budgeting to keep your device responsive.实时温度和内存监控。高温时自动减少线程,临界温度时拒绝请求,保守的内存预算策略保持设备流畅响应。リアルタイムの温度・メモリ監視。高温時の自動スレッド削減、臨界温度でのリクエスト拒否、保守的なメモリ管理でデバイスの快適さを維持します。
Live API documentation with curl examples, structured logging with configurable levels, built-in self-test diagnostics, token throughput monitoring (tokens/sec), and request queue management.提供带有 curl 示例的实时 API 文档、可配置级别的结构化日志、内置自检诊断、令牌吞吐量监控(tokens/sec)以及请求队列管理。curl サンプル付きのライブ API ドキュメント、レベル設定可能な構造化ログ、内蔵セルフテスト診断、トークンスループット監視(tokens/sec)、リクエストキュー管理を備えています。
Last updated: April 2026最后更新:2026 年 4 月最終更新:2026 年 4 月
LLM Server does not collect, store, or transmit any personal data. All AI inference runs entirely on your device. No analytics, no telemetry, no tracking of any kind.LLM Server 不收集、存储或传输任何个人数据。所有 AI 推理完全在您的设备上运行。没有任何分析、遥测或追踪。LLM Server は個人データの収集、保存、送信を一切行いません。すべての AI 推論はデバイス上で完全に実行されます。分析、テレメトリ、トラッキングは一切ありません。
All AI model inference occurs locally on your device using llama.cpp. Your conversations, prompts, and generated text never leave your device and are not sent to any external servers.所有 AI 模型推理均通过 llama.cpp 在您的设备本地完成。您的对话、提示和生成的文本永远不会离开设备,也不会发送至任何外部服务器。すべての AI モデル推論は llama.cpp を使用してデバイス上でローカルに実行されます。会話、プロンプト、生成テキストがデバイスから送信されることはなく、外部サーバーに送られることもありません。
The only network activity is downloading AI models from Hugging Face, initiated solely by you. Once a model is downloaded, the app operates fully offline. No background network requests are made.唯一的网络活动是从 Hugging Face 下载 AI 模型,且完全由您主动发起。模型下载完成后,应用完全离线运行,不会发起任何后台网络请求。唯一のネットワーク通信は、お客様が自ら開始する Hugging Face からの AI モデルのダウンロードのみです。モデルのダウンロード後、アプリは完全にオフラインで動作し、バックグラウンドでのネットワークリクエストは行いません。
Models, settings, and API keys are stored locally on your device only. API keys are encrypted using the system keychain. You have complete control over your data and can delete everything at any time.模型、设置和 API 密钥仅存储在您的设备本地。API 密钥通过系统钥匙串加密存储。您可以完全控制自己的数据,随时删除所有内容。モデル、設定、API キーはお使いのデバイス上にのみ保存されます。API キーはシステムキーチェーンで暗号化されます。データを完全に管理でき、いつでもすべてを削除できます。
The app requests access to local files for model import and local network access for serving the API. No camera, microphone, contacts, or location permissions are required.本应用请求访问本地文件以导入模型,以及本地网络访问以提供 API 服务。不需要相机、麦克风、通讯录或位置权限。アプリはモデルのインポートのためのファイルアクセスと、API 提供のためのローカルネットワークアクセスを要求します。カメラ、マイク、連絡先、位置情報の権限は不要です。
If you have any questions or concerns about this Privacy Policy, please contact us:如果您对本隐私政策有任何疑问或顾虑,请联系我们:本プライバシーポリシーに関するご質問やご懸念がありましたら、お気軽にお問い合わせください:
LLM Server was designed with privacy as a core principle. All AI inference happens on your device. The only internet access is to download models from Hugging Face, and that is always initiated by you. No data is collected, no analytics are tracked, and no information is shared with third parties. You are in complete control.LLM Server 将隐私作为核心设计原则。所有 AI 推理均在您的设备上进行。唯一的互联网访问是从 Hugging Face 下载模型,且始终由您主动发起。不收集任何数据,不追踪任何分析,不与第三方共享任何信息。一切尽在您的掌控之中。LLM Server はプライバシーを基本原則として設計されています。すべての AI 推論はデバイス上で行われます。インターネットへのアクセスは Hugging Face からのモデルダウンロードのみで、常にお客様の操作によって開始されます。データの収集、分析の追跡、第三者との情報共有は一切ありません。すべてお客様の管理下にあります。