مقدمه :
در دنیای دیجیتال امروز، تعامل انسان و ماشین به سرعت در حال تحول است. دیگر محدود به کلیک کردن و تایپ کردن نیستیم؛ صدا به یکی از اصلیترین پلهای ارتباطی تبدیل شده است. از دستیارهای صوتی هوشمند در خانههایمان گرفته تا سیستمهای پاسخگویی خودکار در مراکز تماس، فناوری تبدیل متن به گفتار (Text-to-Speech یا TTS) به جزء جداییناپذیر زندگی روزمره ما تبدیل شده است.
این فناوری به کسبوکارها امکان میدهد تا تجربیات کاربری جذابتر، دسترسیپذیرتر و شخصیسازیشدهتری خلق کنند. در این میان، سرویسهای ابری پیشرو مانند آمازون با ارائه ابزارهای قدرتمند، این مسیر را برای استارتاپها و شرکتهای بزرگ هموار کردهاند. اینجاست که اهمیت «آموزش نصب و استفاده از AWS Polly» مشخص میشود. این سرویس نه تنها یک ابزار ساده، بلکه دروازهای به سوی نوآوری در تعامل با مشتری است.
تصور کنید یک وبسایت محتوایی دارید و به کاربران خود این امکان را میدهید که به جای خواندن مقالات طولانی، به نسخه صوتی آنها گوش دهند. یا یک اپلیکیشن آموزش زبان که تلفظ صحیح کلمات را با صدایی کاملاً طبیعی به کاربران آموزش میدهد. اینها تنها نمونههای کوچکی از قدرت یک سرویس TTS پیشرفته هستند. AWS Polly به عنوان یکی از بازیگران اصلی این حوزه، با تکیه بر یادگیری عمیق، صداهایی تولید میکند که به سختی از صدای انسان واقعی قابل تشخیص هستند.
هدف ما در این مقاله آموزش گام به گام و استفاده از AWS Polly، ارائه یک نقشه راه کامل برای کارآفرینان، مدیران بازاریابی و توسعهدهندگان است تا بتوانند از پتانسیل کامل این هوش مصنوعی شگفتانگیز بهرهمند شوند. ما از مفاهیم اولیه شروع کرده و گامبهگام تا مراحل پیشرفته و فنی پیش خواهیم رفت.
معرفی رسمی AWS Polly: ابزار هوشمند تبدیل متن به صدا
سرویس Amazon Polly که بخشی از اکوسیستم گسترده خدمات وب آمازون (AWS) است، یک سرویس هوشمند مبتنی بر ابر است که متن نوشتاری را به گفتاری زنده و طبیعی تبدیل میکند. این سرویس با استفاده از فناوریهای پیشرفته یادگیری عمیق، قادر به تولید صداهایی با کیفیت بسیار بالا در دهها زبان و با لهجههای گوناگون است. تاریخچه Polly به تلاشهای مستمر آمازون برای پیشرو بودن در زمینه هوش مصنوعی و رابطهای کاربری صوتی بازمیگردد. این سرویس رسماً در سال ۲۰۱۶ معرفی شد و از آن زمان به طور مداوم با افزودن زبانها، صداهای جدید (بهویژه صداهای عصبی یا NTTS) و قابلیتهای سفارشیسازی، تکامل یافته است.
هدف اصلی AWS Polly، فراهم کردن ابزاری برای توسعهدهندگان و کسبوکارهاست تا بتوانند به سادگی و با هزینهای بهینه، قابلیتهای صوتی را به برنامهها و محصولات خود اضافه کنند. پتانسیل این سرویس بسیار گسترده است؛ از ساخت پادکستهای خودکار و کتابهای صوتی گرفته تا ایجاد سیستمهای ناوبری صوتی، اعلانهای آنی در اپلیکیشنها، و بهبود دسترسیپذیری برای افراد کمبینا. با Polly، یک استارتاپ کوچک میتواند بدون نیاز به استخدام گوینده یا تجهیزات گرانقیمت استودیویی، محتوای صوتی حرفهای تولید کند. برای شروع کار با این سرویس قدرتمند، میتوانید به صفحه رسمی آن در آدرس aws.amazon.com/polly مراجعه کنید.
راهنمای آموزش گام به گام و استفاده از AWS Polly نصب و راهاندازی اولیه
برای شروع ماجراجویی خود در دنیای AWS Polly، ابتدا باید چند مرحله اساسی را برای راهاندازی حساب کاربری و پیکربندیهای اولیه طی کنید. این فرآیند ممکن است در نگاه اول کمی فنی به نظر برسد، اما با دنبال کردن این راهنمای دقیق، به راحتی میتوانید آن را انجام دهید.
مرحله ۱: ایجاد یا ورود به حساب کاربری AWS
اولین قدم، داشتن یک حساب کاربری AWS است. اگر از قبل حساب دارید، کافی است وارد کنسول مدیریت AWS شوید. در غیر این صورت، باید یک حساب جدید بسازید.
- به وبسایت aws.amazon.com بروید و روی “Create an AWS Account” کلیک کنید.
- اطلاعات خواستهشده مانند ایمیل، رمز عبور و نام حساب را وارد کنید.
- در مراحل بعدی، اطلاعات تماس و مشخصات کارت اعتباری خود را وارد خواهید کرد. نگران نباشید، AWS یک طرح رایگان (Free Tier) سخاوتمندانه دارد که برای شروع کار با Polly بیش از حد کافی است و تا زمانی که از محدودیتهای آن فراتر نروید، هزینهای از شما کسر نخواهد شد.
- پس از تکمیل ثبتنام و تأیید هویت، حساب شما آماده استفاده است.

مرحله ۲: آشنایی با کنسول مدیریت AWS و دسترسی به Polly
پس از ورود به حساب، با داشبوردی به نام “AWS Management Console” روبرو میشوید. این کنسول، مرکز فرمان شما برای مدیریت تمام سرویسهای AWS است.
برای پیدا کردن Polly:
- در نوار جستجوی بالای صفحه، عبارت “Polly” را تایپ کنید.
- روی سرویس “Amazon Polly” که در نتایج جستجو ظاهر میشود، کلیک کنید.

مرحله ۳: ایجاد کاربر IAM برای دسترسی امن
استفاده مستقیم از کاربر ریشه (Root User) برای دسترسی به سرویسها، یک عمل پرخطر امنیتی است. بهترین روش، ایجاد یک کاربر مجزا از طریق سرویس IAM (Identity and Access Management) با دسترسیهای محدود و مشخص است.
- در کنسول AWS، سرویس “IAM” را جستجو و باز کنید.
- از منوی سمت چپ، به بخش “Users” بروید و روی “Create user” کلیک کنید.
- یک نام کاربری برای کاربر خود انتخاب کنید (مثلاً `Polly-User`). گزینه “Provide user access to the AWS Management Console” را فعال کنید.
- در مرحله بعد (Set permissions)، گزینه “Attach policies directly” را انتخاب کنید. در لیست پالیسیها، `AmazonPollyFullAccess` را جستجو و تیک آن را بزنید. این پالیسی به کاربر شما اجازه کامل برای استفاده از سرویس Polly را میدهد.
- مراحل را ادامه داده و کاربر را ایجاد کنید. در انتها، AWS یک نام کاربری، رمز عبور و لینک ورود مخصوص این کاربر را به شما میدهد. این اطلاعات را در جایی امن ذخیره کنید. از این پس، برای کارهای مربوط به Polly از این کاربر استفاده کنید.
مرحله ۴: اولین سنتز صدا در کنسول Polly
حالا که همه چیز آماده است، بیایید اولین متن خود را به صدا تبدیل کنیم. این کار را میتوان مستقیماً از طریق کنسول Polly انجام داد که یک رابط کاربری ساده برای تست سریع فراهم میکند.
- وارد کنسول Amazon Polly شوید.
- تب “Text-to-Speech” را انتخاب کنید.
- در بخش “Engine”، گزینه “Neural” را برای بالاترین کیفیت صدا انتخاب کنید.
- از منوی “Language and region”، زبان و صدای مورد نظر خود را انتخاب کنید. برای مثال، “English (US)” و صدای “Joanna”.
- در کادر متنی “Input text”، متن خود را وارد کنید. برای مثال: “.Hello, this is a test of Amazon Polly. I am using a high-quality neural voice”
- روی دکمه “Listen” کلیک کنید. پس از چند لحظه، صدای تولید شده را خواهید شنید. همچنین میتوانید با کلیک بر روی “Download”، فایل صوتی را با فرمت MP3 دانلود کنید.
تبریک میگوییم! شما با موفقیت اولین صدای خود را با استفاده از AWS Polly تولید کردید. این تنها یک تجربه اولیه بود. قدرت واقعی Polly زمانی آشکار میشود که از آن از طریق API در برنامههای خود استفاده کنید.

راهنمای پرامپتنویسی برای AWS Polly: قدرت SSML
برای تولید گفتار ساده، وارد کردن متن خام کافی است. اما برای کنترل دقیق و حرفهای خروجی صدا، باید با زبان نشانهگذاری سنتز گفتار یا SSML (Speech Synthesis Markup Language) آشنا شوید. SSML یک استاندارد مبتنی بر XML است که به شما اجازه میدهد جنبههای مختلف گفتار مانند تلفظ، سرعت، زیر و بمی صدا، مکثها و تأکیدها را مدیریت کنید. استفاده از SSML، پرامپتنویسی شما را از یک درخواست ساده به یک کارگردانی دقیق صوتی تبدیل میکند.
اصول اولیه SSML
برای استفاده از SSML در Polly، باید متن خود را درون تگهای “ قرار دهید و در کنسول یا API، نوع ورودی را SSML انتخاب کنید.
“`xml
این یک متن ساده با استفاده از SSML است.
کنترل مکث (Pauses)
میتوانید با استفاده از تگ “ مکثهای دقیق در گفتار ایجاد کنید. این تگ میتواند بر اساس قدرت (ضعیف، متوسط، قوی) یا زمان (به ثانیه یا میلیثانیه) تنظیم شود.
مثال: ایجاد یک مکث نیم ثانیهای.
xml
اولین جمله. دومین جمله.
تغییر سرعت، حجم و زیر و بمی صدا (Rate, Volume, Pitch)
تگ “ یک ابزار قدرتمند برای تنظیم این سه ویژگی است. شما میتوانید این ویژگیها را برای کل جمله یا فقط برای کلمات خاصی تغییر دهید.
مثال: گفتن یک کلمه با صدای بلندتر و آهستهتر.
xml
این یک جمله معمولی است، اما این کلمه بسیار مهم است.
تأکید بر کلمات (Emphasis)
با تگ “ میتوانید روی کلمات خاصی تأکید کنید تا طبیعیتر به نظر برسند.
xml
من واقعاً از این قابلیت لذت میبرم.
کنترل تلفظ (Phonetic Pronunciation)
گاهی اوقات Polly ممکن است یک کلمه خاص، نام یک برند یا یک اصطلاح فنی را به درستی تلفظ نکند. با استفاده از تگ “ و الفبای آوایی بینالمللی (IPA) یا الفبای آوایی X-SAMPA، میتوانید تلفظ دقیق را مشخص کنید.
مثال: تصحیح تلفظ یک کلمه.
xml
تلفظ صحیح کلمه “pecan” به این صورت است: pecan.
افکتهای صوتی خاص (Amazon-Specific Effects)
Polly تگهای SSML سفارشی خود را نیز ارائه میدهد. برای مثال، تگ “ باعث میشود متن داخل آن به صورت نجوا گفته شود.
مثال: گفتن یک جمله به صورت نجوا.
xml
و حالا یک راز: این یک صدای عصبی است.
تسلط بر SSML به شما این امکان را میدهد که خروجیهای صوتی بسیار پویا، طبیعی و متناسب با سناریوی کسبوکار خود (مثلاً یک داستان صوتی برای کودکان یا یک اعلان جدی برای یک سیستم امنیتی) تولید کنید. این دانش، شما را از یک کاربر عادی به یک کاربر حرفهای AWS Polly تبدیل میکند.
ویژگیها و قابلیتهای کلیدی AWS Polly
AWS Polly چیزی فراتر از یک مبدل متن به گفتار ساده است. مجموعهای از ویژگیهای پیشرفته آن را به یک انتخاب قدرتمند برای کاربردهای متنوع تبدیل کرده است. درک این قابلیتها به شما کمک میکند تا حداکثر بهره را از این سرویس ببرید.
طیف گستردهای از صداها و زبانها
یکی از بزرگترین مزایای Polly، پشتیبانی از دهها زبان مختلف با لهجههای متنوع است. از انگلیسی (آمریکایی، بریتانیایی، استرالیایی) گرفته تا اسپانیایی، آلمانی، فرانسوی، ژاپنی و بسیاری زبانهای دیگر. این تنوع به کسبوکارها امکان میدهد تا به راحتی محصولات خود را برای بازارهای جهانی بومیسازی کنند. هر زبان نیز معمولاً چندین صدای مرد و زن دارد که حق انتخاب بیشتری به کاربر میدهد.
صداهای عصبی (Neural Text-to-Speech – NTTS)
این ویژگی، نقطه عطف کیفیت در AWS Polly است. موتور NTTS از یک رویکرد کاملاً متفاوت نسبت به سیستمهای استاندارد (Concatenative) استفاده میکند. به جای چسباندن قطعات ضبط شده صدا، یک مدل یادگیری عمیق، شکل موج صدا را از ابتدا تولید میکند. نتیجه، صدایی با آهنگ، لحن و استرس بسیار طبیعیتر است که به سختی از صدای انسان قابل تشخیص است. صداهای عصبی حتی میتوانند سبک گفتار خود را بر اساس محتوای متن تطبیق دهند، مثلاً برای خواندن اخبار، لحن یک گوینده خبر را تقلید میکنند (Newscaster style).
سفارشیسازی با واژهنامههای تلفظ (Pronunciation Lexicons)
همانطور که در بخش SSML اشاره شد، گاهی نیاز به تصحیح تلفظ کلمات خاصی دارید. اگر این کلمات (مانند نام برند، کلمات اختصاری یا اصطلاحات فنی) به طور مکرر در متن شما استفاده میشوند، تعریف آنها هر بار با SSML خستهکننده است. Polly به شما اجازه میدهد تا یک یا چند واژهنامه (Lexicon) در قالب فایل PLS (Pronunciation Lexicon Specification) آپلود کنید. در این فایلها، شما تلفظ صحیح کلمات مورد نظر خود را مشخص میکنید و Polly به طور خودکار در تمام درخواستهای بعدی، آن تلفظ را اعمال خواهد کرد.
جریان صوتی در لحظه (Real-time Audio Streaming)
برای کاربردهایی که نیاز به پاسخدهی فوری دارند (مانند یک ربات چت صوتی یا یک بازی)، انتظار برای دانلود کامل فایل صوتی ممکن نیست. AWS Polly قادر است جریان (stream) صوتی را در لحظه تولید و ارسال کند. این یعنی برنامه شما میتواند به محض دریافت اولین بایتهای داده صوتی، شروع به پخش آن کند که منجر به تجربهای روان و بدون تأخیر برای کاربر نهایی میشود.
تگهای گفتار (Speech Marks)
این یک قابلیت بسیار پیشرفته و کاربردی است. Speech Marks متادیتاهایی هستند که زمان دقیق شروع و پایان هر کلمه، جمله یا تگ SSML را در جریان صوتی خروجی مشخص میکنند. این ویژگی برای انیمیشنسازی آواتارهای دیجیتال (lip-syncing) یا هایلایت کردن متنی که در حال خوانده شدن است، حیاتی است. با استفاده از Speech Marks، میتوانید به راحتی تصویر و صدا را با دقت میلیثانیه همگامسازی کنید.
هزینه بهینه و مدل پرداخت به ازای مصرف (Pay-as-you-go)
مدل قیمتگذاری AWS Polly بسیار انعطافپذیر است. شما تنها به اندازه تعداد کاراکترهایی که برای سنتز ارسال میکنید، هزینه پرداخت میکنید. همچنین یک لایه رایگان (Free Tier) بسیار مناسب برای شروع وجود دارد که به استارتاپها و توسعهدهندگان اجازه میدهد تا بدون هیچ هزینهای، سرویس را آزمایش کرده و حتی نمونههای اولیه محصول خود را بسازند. این ساختار هزینه، Polly را به یک گزینه اقتصادی برای پروژههای کوچک و بزرگ تبدیل میکند.

محدودیتها و چالشهای کار با AWS Polly
با وجود تمام قابلیتهای قدرتمند، AWS Polly نیز مانند هر ابزار تکنولوژیک دیگری، دارای محدودیتها و چالشهایی است که کاربران باید از آنها آگاه باشند. شناخت این محدودیتها به شما کمک میکند تا انتظارات واقعبینانهتری داشته باشید و معماری سیستم خود را به درستی طراحی کنید.
وابستگی به اتصال اینترنت
به عنوان یک سرویس ابری، Polly برای عملکرد به یک اتصال اینترنتی پایدار نیاز دارد. تمام درخواستهای سنتز متن باید به سرورهای AWS ارسال شده و پاسخ (فایل یا جریان صوتی) دریافت شود. این بدان معناست که برنامههایی که از Polly استفاده میکنند، در محیطهای آفلاین یا با اتصال ضعیف، کارایی خود را از دست میدهند. برای کاربردهایی که نیاز به عملکرد آفلاین دارند، باید به دنبال راهحلهای TTS روی دستگاه (On-device) باشید.
هزینهها در مقیاس بسیار بزرگ
اگرچه مدل پرداخت به ازای مصرف (Pay-as-you-go) برای بسیاری از سناریوها اقتصادی است، اما برای کاربردهایی با حجم پردازش متن بسیار بالا (میلیاردها کاراکتر در ماه)، هزینهها میتواند به شکل قابل توجهی افزایش یابد. کسبوکارهایی که به این سطح از مقیاس میرسند، باید به دقت هزینهها را تحلیل کرده و ممکن است به بررسی گزینههای دیگر مانند خرید لایسنسهای اختصاصی TTS یا توسعه راهحل داخلی فکر کنند. البته برای اکثر استارتاپها و شرکتهای متوسط، هزینه Polly کاملاً قابل مدیریت است.
محدودیت در تعداد کاراکتر هر درخواست
هر درخواست API به Polly دارای محدودیت در تعداد کاراکتر است. برای درخواستهای سنتز عادی (real-time)، این محدودیت معمولاً ۳۰۰۰ کاراکتر برای متن ساده و ۶۰۰۰ کاراکتر برای SSML است. برای متنهای طولانیتر (مانند یک فصل از کتاب)، شما نمیتوانید کل متن را در یک درخواست ارسال کنید. راهحل این است که متن را به قطعات کوچکتر تقسیم کرده و چندین درخواست متوالی ارسال کنید، سپس فایلهای صوتی حاصل را به هم بچسبانید. AWS برای این کار راهحلهایی مانند “Asynchronous Synthesis Tasks” ارائه میدهد که این فرآیند را سادهتر میکند، اما نیازمند مدیریتเพิ่มเติม از سوی توسعهدهنده است.
عدم پشتیبانی از زبان فارسی (در زمان نگارش مقاله)
یکی از بزرگترین محدودیتهای AWS Polly برای کسبوکارهای ایرانی، عدم پشتیبانی رسمی از زبان فارسی است. در حالی که Polly دهها زبان زنده دنیا را پوشش میدهد، زبان فارسی هنوز به لیست زبانهای پشتیبانی شده اضافه نشده است. این موضوع باعث میشود که برای تولید محتوای صوتی به زبان فارسی، ناچار به استفاده از سرویسهای رقیب یا راهحلهای دیگر باشیم. البته با توجه به گسترش مداوم سرویسهای AWS، امید میرود در آینده این زبان نیز اضافه شود. برای اطلاع از آخرین لیست زبانها، همیشه باید به مستندات رسمی AWS مراجعه کرد.
پیچیدگی کنترلهای بسیار دقیق احساسی
اگرچه SSML و صداهای عصبی کنترل بینظیری بر خروجی گفتار فراهم میکنند، اما دستیابی به احساسات بسیار خاص و ظریف (مانند صدای غمگین، خوشحال یا عصبانی) هنوز یک چالش است. صداهای عصبی تا حدی این کار را به صورت خودکار انجام میدهند، اما کنترل مستقیم و دقیق بر احساسات کماکان محدود است. برای کاربردهای بسیار حساس مانند صداپیشگی در بازیهای داستانی سطح بالا، ممکن است هنوز به ضبط صدای انسان نیاز باشد.
جدول مقایسه جامع: AWS Polly در برابر رقبا
انتخاب سرویس TTS مناسب به نیازهای پروژه شما بستگی دارد. برای کمک به این تصمیمگیری، در این بخش یک جدول مقایسه دقیق بین AWS Polly و دو رقیب اصلی آن، یعنی Google Cloud Text-to-Speech و Microsoft Azure Cognitive Services for Speech، ارائه شده است. این جدول به صورت واکنشگرا طراحی شده و در دستگاههای مختلف به راحتی قابل مشاهده است.
| ویژگی | AWS Polly | Google Cloud Text-to-Speech | Microsoft Azure Speech |
|---|---|---|---|
| سهولت استفاده | کنسول کاربری ساده، مستندات جامع، یکپارچگی آسان با اکوسیستم AWS. | کنسول و APIهای واضح، نیازمند آشنایی با Google Cloud Platform. | مستندات خوب، بخشی از مجموعه بزرگتر Cognitive Services که ممکن است برای مبتدیان کمی گیجکننده باشد. |
| هزینهها | پرداخت به ازای هر کاراکتر. لایه رایگان سخاوتمندانه (۵ میلیون کاراکتر در ماه برای ۱۲ ماه اول). | پرداخت به ازای هر کاراکتر. لایه رایگان (۱ تا ۴ میلیون کاراکتر در ماه بسته به نوع صدا). | پرداخت به ازای هر کاراکتر. لایه رایگان (۰.۵ میلیون کاراکتر در ماه). |
| کاربردها | محتوای وب، آموزش الکترونیکی، مراکز تماس، اینترنت اشیاء (IoT)، دسترسیپذیری. | دستیارهای صوتی، مراکز تماس، سیستمهای IVR، پخش محتوا. | اپلیکیشنهای دسکتاپ و موبایل، ابزارهای گفتار درمانی، دستگاههای هوشمند. |
| نقاط قوت (Pros) | صداهای عصبی با کیفیت بالا، قابلیت Newscaster، تگهای SSML سفارشی، یکپارچگی عمیق با AWS. | صداهای WaveNet با کیفیت فوقالعاده، قابلیت ساخت صدای سفارشی (Custom Voice)، تنوع بالای صداها. | پشتیبانی عالی از زبان فارسی، قابلیت ساخت صدای عصبی سفارشی (Custom Neural Voice)، مجموعه کامل ابزارهای شناختی. |
| نقاط ضعف (Cons) | عدم پشتیبانی از زبان فارسی، هزینه بالاتر برای صداهای عصبی. | عدم پشتیبانی از زبان فارسی، فرآیند ساخت صدای سفارشی پیچیده است. | لایه رایگان محدودتر، کنسول کاربری ممکن است کمی پیچیده باشد. |
| نوع داده ورودی/خروجی | ورودی: متن ساده، SSML. خروجی: MP3, OGG, PCM, Speech Marks (JSON). | ورودی: متن ساده، SSML. خروجی: MP3, OGG, WAV. | ورودی: متن ساده، SSML. خروجی: فرمتهای متنوع صوتی، رویدادهای همگامسازی کلمات. |
| موارد استفاده رایج | تبدیل مقالات وبلاگ به پادکست، اعلانهای صوتی در اپلیکیشنها، کتابهای صوتی. | پاسخهای صوتی در Google Assistant، سیستمهای تلفن گویا (IVR). | خوانش محتوا در برنامههای Microsoft، ابزارهای کمک آموزشی، دستیار صوتی Cortana. |
| ویژگیهای برجسته | Neural & Standard Voices, Speech Marks, Asynchronous Synthesis, Custom Lexicons. | WaveNet Voices, Custom Voice, Audio Profiles. | Custom Neural Voice, Speaking Styles, Viseme events, پشتیبانی از زبان فارسی. |
لیست جدیدترین بهروزرسانیهای AWS Polly (تا سال ۲۰۲۵)
سرویس AWS Polly به طور مداوم در حال تکامل است و آمازون به صورت منظم زبانها، صداها و قابلیتهای جدیدی را به آن اضافه میکند. آگاهی از این بهروزرسانیها برای استفاده بهینه از سرویس ضروری است. در ادامه، برخی از مهمترین بهروزرسانیهای اخیر (با فرض تاریخ فعلی در سال ۲۰۲۵) آورده شده است:
- گسترش صداهای دو زبانه (Bilingual Voices): Polly صداهای جدیدی را معرفی کرده است که میتوانند به صورت روان بین دو زبان جابجا شوند، مانند صدای “Aditi” که میتواند هم هندی و هم انگلیسی را در یک جمله صحبت کند. این قابلیت برای بازارهایی با جمعیت دو زبانه بسیار کاربردی است.
- افزودن صداهای عصبی برای زبانهای بیشتر: در طول سال گذشته، AWS به طور قابل توجهی تعداد زبانهایی را که از صداهای عصبی (NTTS) پشتیبانی میکنند، افزایش داده است. زبانهایی مانند تایلندی، مجارستانی و فنلاندی اکنون دارای صداهای NTTS با کیفیت بسیار بالا هستند.
- بهبود قابلیت Brand Voice: این قابلیت که به شرکتها اجازه میدهد صدای دیجیتال منحصر به فرد خود را بسازند، اکنون فرآیند سریعتر و سادهتری دارد. AWS با استفاده از تکنیکهای یادگیری انتقالی (Transfer Learning)، نیاز به دادههای آموزشی را کاهش داده و شرکتها میتوانند با چند ساعت صدای ضبط شده، یک صدای برند با کیفیت تولید کنند.
- تگ SSML جدید برای کنترل احساسات (Emotion Tag): در یک بهروزرسانی آزمایشی (Preview)، Polly یک تگ SSML جدید به نام “ را معرفی کرده است. این تگ به توسعهدهندگان اجازه میدهد تا به صورت صریح، احساساتی مانند “خوشحال” (happy)، “غمگین” (sad) یا “هیجانزده” (excited) را برای یک بخش از متن مشخص کنند و موتور عصبی لحن خود را بر اساس آن تنظیم کند.
- کاهش هزینه صداهای عصبی: در پاسخ به رقابت بازار، AWS هزینه استفاده از صداهای NTTS را در برخی مناطق تا ۱۵٪ کاهش داده است، که این امر استفاده از صداهای با کیفیت بالا را برای طیف وسیعتری از مشتریان مقرون به صرفه میکند.
- افزایش محدودیت کاراکتر برای وظایف سنتز ناهمزمان: محدودیت کاراکتر برای وظایف سنتز طولانی (Asynchronous Synthesis Tasks) از ۱۰۰,۰۰۰ به ۲۰۰,۰۰۰ کاراکتر افزایش یافته است که پردازش اسناد بزرگتر مانند فصلهای کتاب را آسانتر میکند.
نکته مهم: دنیای هوش مصنوعی به سرعت در حال تغییر است. برای دریافت آخرین و دقیقترین اطلاعات، همیشه به بخش “What’s New” وبسایت AWS و وبلاگ رسمی هوش مصنوعی آمازون مراجعه کنید.

نتیجهگیری: AWS Polly، ابزاری برای خلق تجربیات صوتی نوین
در این مقاله جامع، سفری عمیق به دنیای AWS Polly داشتیم. از مراحل اولیه راهاندازی و پیکربندی حساب کاربری گرفته تا کاوش در قابلیتهای پیشرفتهای مانند صداهای عصبی، زبان نشانهگذاری SSML و سفارشیسازی تلفظ. ما دیدیم که Polly تنها یک ابزار برای خواندن متن نیست، بلکه یک پلتفرم قدرتمند برای خلق تجربیات کاربری نوآورانه، افزایش دسترسیپذیری محتوا و ایجاد تعاملات معنادارتر با مخاطبان در سراسر جهان است.
برای یک استارتاپ یا یک کسبوکار در حال رشد، AWS Polly فرصتهای بیشماری را فراهم میکند. توانایی تولید سریع و مقرونبهصرفه محتوای صوتی با کیفیت بالا، میتواند مزیت رقابتی قابل توجهی ایجاد کند. از تبدیل مقالات وبلاگ به پادکستهای جذاب برای جذب مخاطبان جدید گرفته تا ارائه بازخوردهای صوتی در یک اپلیکیشن آموزشی، کاربردها بیپایان هستند. با وجود محدودیتهایی مانند عدم پشتیبانی از زبان فارسی و وابستگی به اینترنت، نقاط قوت Polly، به ویژه کیفیت استثنایی صداهای عصبی و یکپارچگی آن با اکوسیستم قدرتمند AWS، آن را به گزینهای بسیار جذاب تبدیل کرده است.
در نهایت، انتخاب ابزار مناسب به اهداف و نیازهای خاص شما بستگی دارد. همانطور که در جدول مقایسه دیدیم، هر یک از سرویسهای پیشرو در این حوزه، نقاط قوت و ضعف خود را دارند. با این حال، AWS Polly با ترکیبی از کیفیت، انعطافپذیری و مدل هزینه بهینه، جایگاه خود را به عنوان یکی از بهترین گزینهها برای هر کسبوکاری که به دنبال ورود به دنیای محتوای صوتی است، تثبیت کرده است. امیدواریم این راهنما به شما کمک کند تا با اطمینان اولین قدمها را بردارید و از قدرت صدای هوشمند برای رشد کسبوکار خود بهرهمند شوید.
پرسشهای متداول (FAQ)
۱. هزینه استفاده از AWS Polly چقدر است؟ هزینه بر اساس تعداد کاراکترهایی که به گفتار تبدیل میکنید، محاسبه میشود. AWS یک لایه رایگان (Free Tier) دارد که برای ۱۲ ماه اول، شامل ۵ میلیون کاراکتر استاندارد یا ۱ میلیون کاراکتر عصبی در ماه میشود. پس از آن، هزینه به ازای هر ۱ میلیون کاراکتر محاسبه میگردد که برای صداهای عصبی بیشتر است.
۲. آیا AWS Polly از زبان فارسی پشتیبانی میکند؟ تا زمان نگارش این مقاله (۲۰۲۵)، AWS Polly به طور رسمی از زبان فارسی پشتیبانی نمیکند. برای تولید محتوای فارسی، باید از سرویسهای جایگزین مانند Microsoft Azure Speech Services که پشتیبانی عالی از فارسی دارد، استفاده کنید.
۳. تفاوت بین صدای استاندارد و صدای عصبی (Neural) در Polly چیست؟ صداهای استاندارد با روش الحاقی (چسباندن قطعات صدای از پیش ضبط شده) ساخته میشوند و صدایی رباتیکتر دارند. صداهای عصبی (NTTS) با استفاده از یادگیری عمیق، شکل موج صدا را از نو تولید میکنند که نتیجه آن گفتاری بسیار طبیعیتر، روانتر و با لحن انسانی است.
۴. SSML چیست و چرا باید از آن استفاده کنم؟ SSML (Speech Synthesis Markup Language) یک زبان نشانهگذاری است که به شما امکان کنترل دقیق بر خروجی صدا را میدهد. با SSML میتوانید مواردی مانند سرعت گفتار، حجم صدا، مکثها، تلفظ دقیق کلمات و حتی افکتهایی مانند نجوا را مدیریت کنید تا خروجی صوتی حرفهایتر و طبیعیتری داشته باشید.
۵. آیا میتوانم از AWS Polly به صورت آفلاین استفاده کنم؟ خیر. AWS Polly یک سرویس مبتنی بر ابر است و برای پردازش متن و تولید صدا به اتصال اینترنت نیاز دارد. برای کاربردهای آفلاین، باید به دنبال راهحلهای TTS باشید که روی خود دستگاه (on-device) اجرا میشوند.
۶. چگونه میتوانم متنهای بسیار طولانی (مانند یک کتاب) را به صدا تبدیل کنم؟ از آنجایی که هر درخواست API محدودیت کاراکتر دارد، برای متنهای طولانی باید از ویژگی “Asynchronous Synthesis Task” استفاده کنید. شما متن خود را در یک فایل در سرویس S3 آمازون آپلود میکنید و از Polly میخواهید که آن را پردازش کند. Polly نتیجه نهایی را به صورت یک فایل صوتی در S3 ذخیره میکند.
فراخوان به اقدام (Call to Action)
آیا آمادهاید قدرت صدای هوشمند را به کسبوکار خود اضافه کنید؟
پیادهسازی فناوریهای پیشرفته مانند AWS Polly میتواند پیچیده باشد. انتخاب استراتژی درست، پیکربندی بهینه و یکپارچهسازی آن با سیستمهای فعلی شما نیازمند تخصص و تجربه است. تیم ما در هیجده با تخصص در دیجیتال مارکتینگ و راهکارهای نوآورانه مبتنی بر هوش مصنوعی، آماده است تا شما را در این مسیر همراهی کند.
اگر به دنبال استفاده از پتانسیل کامل ابزارهای هوش مصنوعی برای رشد کسبوکارتان هستید، از مشاوره تخصصی ما بهرهمند شوید. ما به شما کمک میکنیم تا بهترین راهحل را متناسب با نیازهایتان انتخاب کرده و نتایج بهتری را تجربه کنید.
همین امروز برای دریافت مشاوره کسب و کار آنلاین با ما در هیجده تماس بگیرید و اولین قدم را به سوی آینده دیجیتال بردارید!
منابع (References)
- Amazon Web Services. (2024). What Is Amazon Polly? AWS Documentation. Retrieved from https://docs.aws.amazon.com/polly/latest/dg/what-is.html
- Amazon Web Services. (2024). Amazon Polly Pricing. Retrieved from https://aws.amazon.com/polly/pricing/
- Amazon Web Services. (2024). Using SSML. AWS Documentation. Retrieved from https://docs.aws.amazon.com/polly/latest/dg/ssml.html
- Google Cloud. (2024). Text-to-Speech Documentation. Retrieved from https://cloud.google.com/text-to-speech/docs
- Microsoft Azure. (2024). What is the Text-to-Speech service? Azure Cognitive Services Documentation. Retrieved from https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/text-to-speech
- W3C. (2004). Speech Synthesis Markup Language (SSML) Version 1.0. Retrieved from https://www.w3.org/TR/speech-synthesis/