ใช้ Typhoon-OCR ดึงข้อความจาก PDF/รูปภาพด้วย Python

Sascha · 6 Авг 2025

Typhoon-OCR จาก SCB 10X คือ LLM ที่ช่วยสกัดข้อความภาษาไทยจากไฟล์ PDF และรูปภาพได้อย่างแม่นยำ นี่คือวิธีใช้งานฉบับรวบรัดผ่าน Python และ Ollama

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

ขั้นตอนที่ 1: ติดตั้งและรันโมเดล

เปิด Terminal แล้วรัน 2 คำสั่งนี้:

1. ติดตั้งไลบรารีที่จำเป็น:

pip install typhoon-ocr openai

2. ดาวน์โหลดและรันโมเดลผ่าน Ollama: (ต้องติดตั้ง Ollama ก่อน)

ollama run scb10x/typhoon-ocr-3b:latest

คำสั่งนี้จะเปิด API Server ที่

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

ให้โดยอัตโนมัติ

ขั้นตอนที่ 2: เขียนโค้ด Python

สร้างไฟล์ Python แล้วนำโค้ดด้านล่างไปวางได้เลย

from typhoon_ocr import prepare_ocr_messages
from openai import OpenAI

# เตรียมข้อมูลจากไฟล์ PDF/Image
messages = prepare_ocr_messages(
pdf_or_image_path="YOUR_FILE.pdf", # <-- แก้เป็นชื่อไฟล์ของคุณ
task_type="default" # "default" = ดึงข้อความ, "structure" = รักษาตาราง
page_num=1 # Process page 1 of a PDF (default is 1, always 1 for images)
)

# เชื่อมต่อกับโมเดลที่รันบน Ollama
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="not-needed"
)

# ส่งคำขอให้โมเดลทำงาน
response = client.chat.completions.create(
model="scb10x/typhoon-ocr-3b:latest",
messages=messages,
max_tokens=16000,
extra_body={
"repetition_penalty": 1.2,
"temperature": 0.1,
"top_p": 0.6,
},
)

# พิมพ์ผลลัพธ์
print(response.choices[0].message.content)

ขั้นตอนที่ 3: รันและดูผลลัพธ์

เพียงแค่แก้ pdf_or_image_path ในโค้ดให้เป็นตำแหน่งไฟล์ของคุณ แล้วสั่งรันสคริปต์ Python ผลลัพธ์ที่ได้คือข้อความที่ถูกสกัดออกมาจากไฟล์ของคุณ ง่ายและทรงพลังสำหรับงาน OCR ภาษาไทยโดยเฉพาะ!

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

ถูกใจกด เป็นกำลังใจให้ทำคอนเทนต์ดีๆ & ติดตามเรื่องที่น่าสนใจผ่านทาง

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

& Super AI Agent --

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

ตามลิงค์เข้าไปเลี้ยงกาแฟผมได้ที่

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

Источник:

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

ใช้ Typhoon-OCR ดึงข้อความจาก PDF/รูปภาพด้วย Python

Sascha

Заместитель Администратора