ทำไม Open Dataset ถึงสำคัญ ?
วันนี้อุตสาหกรรมปัญญาประดิษฐ์ของไทย ยังไม่สามารถแข่งขันกับต่างประเทศได้ เนื่องจาก อุตสาหกรรมปัญญาประดิษฐ์ในประเทศไทยขาดแคลนชุดข้อมูล (dataset) เพื่อใช้ในการฝึกสอนปัญญาประดิษฐ์ปริมาณมาก Vulcan เล็งเห็นปัญหาดังกล่าวจึงร่วมมือกับกลุ่มพันธมิตรภาคเอกชน เพื่อพัฒนาชุดข้อมูล (dataset) ที่พัฒนาโดยกลุ่มผู้พิการด้านต่างๆ ไม่ว่าจะเป็นผู้พิการด้านการมองเห็น, ผู้พิการด้านการได้ยิน และผู้พิการเคลื่อนไหว เพื่อบริจาคเป็นสาธารณประโยชน์และเป็นส่วนหนึ่งที่ขับเคลื่อนอุตสาหกรรมปัญญาประดิษฐ์ประเทศไทย

เป้าหมายที่ Vulcan และ พันธมิตรขับเคลื่อนร่วมกัน
Vulcan เริ่มต้นพัฒนาชุดข้อมูล Thai Text/Speech Data Set เป็นชุดข้อมูลคู่เสียงและข้อความภาษาไทย ที่เตรียมข้อมูลโดยกลุ่มผู้พิการด้านการมองเห็น เป็นชุดข้อมูลขนาด 100 ชั่วโมง จะพัฒนาเสร็จในปี 2021 และชุดข้อมูลขนาด 200 ชั่วโมงจะพัฒนาเสร็จในปี 2022
รูปแบบของข้อมูล
ในหนึ่งชุดของข้อมูลประกอบไปด้วยรายการของข้อมูล โดยข้อมูลหนึ่งตัวจะประกอบไปด้วย
-
ไฟล์เสียงใน format มาตรฐาน ยกตัวอย่างเช่น (แต่ไม่จำกัดอยู่แค่) mp3
-
ไฟล์ label ที่ถูกจัดเตรียมโดยกลุ่มผู้เชี่ยวชาญ ใน JSON format โดยตัว label นี้จะบ่งบอก ลักษณะของทุกเสียง ที่เกิดขึ้นในไฟล์เสียงตามข้อ 1 โดยในแต่ละเสียงจะประกอบไปด้วย
-
ลำดับชั้นของลักษณะของเสียง (ตามรายการด้านล่าง)
-
ถ้าเสียงนั้นมีลักษณะของภาษา เสียงนั้นจะถูกกำกับด้วยข้อความตามวิจารณญาณของผู้เชี่ยวชาญ
-
ลักษณะลำดับที่ 1 | ลักษณะลำดับที่ 2 | ลักษณะลำดับที่ 3 |
---|---|---|
เสียงบรรยาย | อารมณ์ (ต้องระบุ) | โกรธ |
เฉย ๆ | ||
ดีใจ | ||
ตื่นเต้น | ||
เกลียด | ||
กลัว | ||
เศร้า | ||
ภาษา (ต้องระบุ) | ไทย <input> | |
หญิง | ||
เพศ (ต้องระบุ) | ชาย | |
ภาษาอื่น ๆ | ||
อังกฤษ | ||
อื่นๆ | ||
กระปรี้กระเปร่า | ||
เสียงดนตรีหรือเสียงบรรยากาศ | อารมณ์ของเสียงดนตรี | มีความสุข |
กระปรี้กระเปร่า | ||
มีพลังงานมาก | ||
เมามัน | ||
เศร้าหรือกังวล | ||
หดหู่ | ||
เงียบสงบ | ||
พึงพอใจ | ||
หลอน | ||
สถานที่ของเสียงบรรยากาศ | ระบุสถานที่ <input> | |
เสียงประกอบสั้นๆ | จำกัดความของเสียงประกอบ | ระบุเสียงประกอบ <input> |
ไม่สามารถระบุประเภท |
{
"source": "20210611130915716277.mp3",
"labels": [
{
"description": "เสียงบรรยาย",
"value": [
{
"description": "ภาษา",
"value": {
"description": "ไทย",
"value": "จบไปแล้วนะครับสำหรับเหล็กไหล"
}
},
{
"description": "อารมณ์",
"value": "ตื่นเต้น"
},
{
"description": "เพศ",
"value": "ชาย"
}
]
}
]
}
ตัวอย่าง label
ผลกระทบเชิงบวกต่อสังคม
ชุดข้อมูล Thai Text/Speech Data Set ขนาดชุดข้อมูล 500 ชั่วโมง
พันธมิตร
ได้รับความร่วมมือจากพันธมิตรภาคเอกชน ตามแนวปฏิบัติตามมาตรา 35 แห่งพระราชบัญญัติส่งเสริมและพัฒนาคุณภาพชีวิตคนพิการ พ.ศ. 2550












ชุดข้อมูล Vulcan’s Open Dataset จะเผยแพร่สู่สาธารณะภายใต้เงื่อนไขลิขสิทธิ์แบบ Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

สิ่งที่บริษัทที่ร่วมโครงการจะได้รับ
ฟรี! ไม่มีค่าใช้จ่าย

บริการจัดหาคนพิการที่ผ่านการอบรมทักษะด้านดิจิทัลตามจำนวนที่บริษัทต้องการ

ดำเนินการด้านเอกสารการจ้างงานตามมาตรา 35 ให้ทั้งหมดตลอดโครงการ

ให้คำปรึกษาด้าน AI Model
เพื่อยกระดับองค์กร

สวัสดิการดูแลพนักงาน ด้วยบริการแพลตฟอร์มอัจฉริยะ ตรวจสอบภาวะซึมเศร้า

จัดงานแถลงข่าวและส่งข่าว
ประชาสัมพันธ์
