Open Dataset-5.jpg

Vulcan’s Open Dataset

วันนี้อุตสาหกรรมปัญญาประดิษฐ์ของไทยยังไม่สามารถแข่งขันกับต่างประเทศได้ เนื่องจากอุตสาหกรรมปัญญาประดิษฐ์ในประเทศไทยขาดแคลนชุดข้อมูล (Dataset) เพื่อใช้ในการฝึกสอนปัญญาประดิษฐ์ปริมาณมาก

ปัจจุบันมี 0 โควต้า

ทำไม Open Dataset ถึงสำคัญ ?

วันนี้อุตสาหกรรมปัญญาประดิษฐ์ของไทย ยังไม่สามารถแข่งขันกับต่างประเทศได้ เนื่องจาก อุตสาหกรรมปัญญาประดิษฐ์ในประเทศไทยขาดแคลนชุดข้อมูล (dataset) เพื่อใช้ในการฝึกสอนปัญญาประดิษฐ์ปริมาณมาก Vulcan เล็งเห็นปัญหาดังกล่าวจึงร่วมมือกับกลุ่มพันธมิตรภาคเอกชน เพื่อพัฒนาชุดข้อมูล (dataset) ที่พัฒนาโดยกลุ่มผู้พิการด้านต่างๆ ไม่ว่าจะเป็นผู้พิการด้านการมองเห็น, ผู้พิการด้านการได้ยิน และผู้พิการเคลื่อนไหว เพื่อบริจาคเป็นสาธารณประโยชน์และเป็นส่วนหนึ่งที่ขับเคลื่อนอุตสาหกรรมปัญญาประดิษฐ์ประเทศไทย
Asset 1_2x.png
 

เป้าหมายที่ Vulcan และ พันธมิตรขับเคลื่อนร่วมกัน

Vulcan เริ่มต้นพัฒนาชุดข้อมูล Thai Text/Speech Data Set เป็นชุดข้อมูลคู่เสียงและข้อความภาษาไทย ที่เตรียมข้อมูลโดยกลุ่มผู้พิการด้านการมองเห็น เป็นชุดข้อมูลขนาด 100 ชั่วโมง จะพัฒนาเสร็จในปี 2021 และชุดข้อมูลขนาด 200 ชั่วโมงจะพัฒนาเสร็จในปี 2022
 
 
 

รูปแบบของข้อมูล

ในหนึ่งชุดของข้อมูลประกอบไปด้วยรายการของข้อมูล โดยข้อมูลหนึ่งตัวจะประกอบไปด้วย

  1. ไฟล์เสียงใน format มาตรฐาน ยกตัวอย่างเช่น (แต่ไม่จำกัดอยู่แค่) mp3

  2. ไฟล์ label ที่ถูกจัดเตรียมโดยกลุ่มผู้เชี่ยวชาญ ใน JSON format โดยตัว label นี้จะบ่งบอก ลักษณะของทุกเสียง ที่เกิดขึ้นในไฟล์เสียงตามข้อ 1 โดยในแต่ละเสียงจะประกอบไปด้วย

    • ลำดับชั้นของลักษณะของเสียง (ตามรายการด้านล่าง)

    • ถ้าเสียงนั้นมีลักษณะของภาษา เสียงนั้นจะถูกกำกับด้วยข้อความตามวิจารณญาณของผู้เชี่ยวชาญ
       

ลักษณะลำดับที่ 1
ลักษณะลำดับที่ 2
ลักษณะลำดับที่ 3
เสียงบรรยาย
อารมณ์ (ต้องระบุ)
โกรธ
เฉย ๆ
ดีใจ
ตื่นเต้น
เกลียด
กลัว
เศร้า
ภาษา (ต้องระบุ)
ไทย <input>
หญิง
เพศ (ต้องระบุ)
ชาย
ภาษาอื่น ๆ
อังกฤษ
อื่นๆ
กระปรี้กระเปร่า
เสียงดนตรีหรือเสียงบรรยากาศ
อารมณ์ของเสียงดนตรี
มีความสุข
กระปรี้กระเปร่า
มีพลังงานมาก
เมามัน
เศร้าหรือกังวล
หดหู่
เงียบสงบ
พึงพอใจ
หลอน
สถานที่ของเสียงบรรยากาศ
ระบุสถานที่ <input>
เสียงประกอบสั้นๆ
จำกัดความของเสียงประกอบ
ระบุเสียงประกอบ <input>
ไม่สามารถระบุประเภท

{
    "source": "20210611130915716277.mp3",
    "labels": [
        {
            "description": "เสียงบรรยาย",
            "value": [
                {
                    "description": "ภาษา",
                    "value": {
                        "description": "ไทย",
                        "value": "จบไปแล้วนะครับสำหรับเหล็กไหล"
                    }
                },
                {
                    "description": "อารมณ์",
                    "value": "ตื่นเต้น"
                },
                {
                    "description": "เพศ",
                    "value": "ชาย"
                }
            ]
        }
    ]
}

ตัวอย่าง label

 

ผลกระทบเชิงบวกต่อสังคม

ชุดข้อมูล Thai Text/Speech Data Set ขนาดชุดข้อมูล 500 ชั่วโมง

พันธมิตร

ได้รับความร่วมมือจากพันธมิตรภาคเอกชน ตามแนวปฏิบัติตามมาตรา 35 แห่งพระราชบัญญัติส่งเสริมและพัฒนาคุณภาพชีวิตคนพิการ พ.ศ. 2550
Agoda-logo-Original.png
Airpay.png
logo_central group.png
Denso-Logo.wine.png
Food Passion.png
King Power.png
Makro@2x.png
unnamed.png
SC Asset logo.png
Shopee_logo.png
logosahapat_02.png
1024px-CC-BY-SA-Andere_Wikis.png
ชุดข้อมูล Vulcan’s Open Dataset จะเผยแพร่สู่สาธารณะภายใต้เงื่อนไขลิขสิทธิ์แบบ Creative Common Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
 
BG Fade.png

สิ่งที่บริษัทที่ร่วมโครงการจะได้รับ
ฟรี! ไม่มีค่าใช้จ่าย

2.png
บริการจัดหาคนพิการที่ผ่านการอบรมทักษะด้านดิจิทัลตามจำนวนที่บริษัทต้องการ
3.png
ดำเนินการด้านเอกสารการจ้างงานตามมาตรา 35 ให้ทั้งหมดตลอดโครงการ
3.png
ให้คำปรึกษาด้าน AI Model
เพื่อยกระดับองค์กร
6.png
สวัสดิการดูแลพนักงาน ด้วยบริการแพลตฟอร์มอัจฉริยะ ตรวจสอบภาวะซึมเศร้า
5.png
จัดงานแถลงข่าวและส่งข่าว
ประชาสัมพันธ์
4.png
รายงานการทำงานของคนพิการ
และรายงานผลลัพธ์ทางสังคม
(Social Impact)
 

ช่องทางติดต่อ

ภาคเอกชนที่ต้องการจ้างงานผู้พิการตามมาตรา 35 สนใจเข้าร่วมโครงการ Vulcan’s Open Dataset ติดต่อรายละเอียดเพิ่มเติมโทร คุณช้าง 081-947-9255