فشرده‌سازی داده‌های صوتی

نوعی از فشرده‌سازی داده‌است که به منظور کاهش اندازه فایل‌های صوتی طراحی شده‌است. الگوریتم‌های فشرده‌سازی صوتی در نرم‌افزارهای کامپیوتری تحت عنوان رمزگذارهای صوتی(audio codecs) اجرا می‌شوند. نوعی الگوریتم‌های فشرده‌سازی صوتی عملکرد ضعیفی در برابر داده‌های صوتی دارند و به ندرت کاهش اندازه فایل به میزان کمتر از ۸۷٪ اندازه فایل اصلی می‌رسد و برای استفاده در زمان کنونی طراحی نشده‌اند. در نتیجه الگوریتم‌های بدون اتلاف و پراتلاف صوتی خاصی ایجاد شده‌اند. الگوریتم‌های پراتلاف ضریب تراکم بیشتری را فراهم می‌کنند و در وسایل صوتی اصلی مصرف‌کنندگان استفاده شده‌اند. همچون فشرده‌سازی عکس، در فشرده‌سازی صوتی هم از هر دو روش بدون اتلاف و پراتلاف استفاده می‌شود، اما پراتلاف برای مصارف روزانه رایج‌تر است. در هر دو روش فشرده‌سازی‌بدون اتلاف و پراتلاف با استفاده از روش‌هایی مثل کدگذاری، شناسایی الگو و محاسبه خطی برای کاهش مقدار اطلاعات استفاده شده برای توصیف داده‌ها افزونگی(redundancy) اطلاعات کاهش می‌یابد.

فشرده‌سازی بدون اتلاف صوت

از زمانی که ذخیره‌ساز فایل(file storage)و پهنای‌باند ارتباطات (communications bandwidth)ارزانتر و در دسترس بیشتر قرار گرفته‌اندمحبوبیت فرمت‌های بدون اتلاف مثلMonkey's Audio,FLAC,Shorten بسرعت افزایش یافته‌است و مردم برای ذخیره‌کردن دایمی فایل‌های صوتی خود آن‌ها را انتخاب می‌کنند. کاربران اولیه فشرده‌سازی بدون اتلاف مهندسین صدا، علاقه‌مندان به موسیقی و مشتریان آن‌ها بودند که در مقایسه با تغییرات برگشت‌ناپذیر تکنیک‌های فشرده‌سازی پراتلاف ترجیح می‌دادند یک کپی دقیق از فایل‌های صوتی خود داشته‌باشند و از روش‌های بدون اتلاف استفاده می‌کردند. نرخ‌های فشرده‌سازی برای فشرده‌سازی بدون‌اتلاف داده‌هاهم مشابه با آنهاست (نزدیک به ۵۰–۶۰٪ اندازه اصلی). فرمت‌های بدون‌اتلاف مثل Dolby TrueHD به وسیلهٔ فرمت‌های high definition DVD معرفی‌شده‌اند.

 ذخیره‌کردن تمام داده‌های درون یک رشته صوتی و

دست‌یافتن به یک فشرده‌سازی اساسی بسیار دشوار است. ابتدا اینکه، اکثریت وسیع ضبط کننده‌های صدا بسیار پیچیده هستند چون از دنیای واقعی ضبط می‌کنند. یکی از روش‌های کلیدی فشرده‌سازی پیدا کردن الگو و تکرار است، داده‌های با بی‌نظمی بیشتر مثل صوت نمی‌توانند به خوبی فشرده شوند. در وضعیت مشابه، عکس‌ها با روش‌های بدون‌اتلاف هم نسبت به عکس‌های کامپیوتری تولید شده کمتر فشرده می‌شوند. اما به‌طور قابل توجه حتی صداهای کامپیوتری تولیدشده هم می‌توانند شامل شکل‌موج‌های(waveform) بسیار پیچیده باشند تا مورد استفاده بسیاری از الگوریتم‌های فشرده‌سازی قرار بگیرند. ماهیت شکل‌موج‌های صداکه معمولاًساده‌کردن آن‌ها (لزوماً پراتلاف) بدون اطلاعات فرکانسی مکالمه که به وسیله گوش انسان قابل تشخیص هستند دشوار است لازم است.

 ودلیل دوم هم این است که ارزش‌های الگوهای صوتی

به سرعت تغییر می‌کنند بنابراین الگوریتم‌های فشرده‌سازی عمومی برای صوت، و رشته‌های بایتی متوالی که معمولاً مورد استفاده قرار نمی‌گیرند خوب عمل نمی‌کند. به‌هرحال حلقه بافیلتر [-۱ ۱] (که اولین متفاوت را می‌گیرد) دقت می‌کند تا کمی طیف را سفید کند(>decorrelate یا یکنواخت کند) بدین وسیله به رمزگشای فشرده‌سازی بدون اتلاف اجازه می‌دهد تا این کار را انجام دهد. کدگشایی به وسیله کدگشا(decoder)سیگنال اصلی را برمی‌گرداند. رمزگذارهایی مثل >FLAC, Shorten وTTA از پیش‌بینی خطی برای تخمین طیف سیگنال استفاده می‌کنند. در کدکننده، معکوس تخمین‌زننده برای یکدست کردن سیگنال به وسیلهٔ حذف نقاط ماکزیمم طیفی استفاده می‌شود در حالی که به هنگام بازکردن کد تخمین‌زننده برای ساخت مجدد سیگنال اصلی استفاده می‌شود.

 کدکننده‌های صوتی بدون اتلاف مشکل کیفیتی ندارند

بنابراین قابلیت‌های استفاده از آن‌ها می‌تواند پیش‌بینی شود به وسیله:

 · سرعت فشرده‌سازی و

بازکردن آن

 · درجه فشرده‌سازی
 · نرم‌افزار و سخت‌افزار

حمایت‌کننده

 · نیرومندی و تصحیح

خطا

فشرده‌سازی صوتی پراتلاف

 فشرده‌سازی صوتی پراتلاف در محدوده وسیعی

از برنامه‌های کاربردی بشدت استفاده می‌شود. به عبارت دیگر در استفاده مستقیم(mp3 playerها یا کامپیوترها)، رشته‌های صوتی دیجیتالی فشرده‌شده‌استفاده شده در اکثر DVDهای تصویری، تلویزیون‌های دیجیتال، رسانه‌های موجود در اینترنت، ماهواره و کابل رادیو و به صورت تصاعدی در خبرگزاری‌های رادیویی زمینی. فشرده‌سازی پراتلاف با دور انداختن داده‌های کم اهمیت به نحوی به فشردگی خیلی بیشتری نسبت به فشرده‌سازی بدون اتلاف دست می‌یابد (داده‌ها به ۵تا۲۰ درصد رشته اصلی کاهش می‌یابند در مقایسه با۵۰ تا۶۰درصد در بدون اتلاف).

 نوآوری فشرده‌سازی صوتی پراتلاف این است.

که برای شناخت روح صوت (psychoacoustic) استفاده شود برای شناسایی داده‌هایی که درون رشته صوتی وجود دارند ولی نمی‌توانند توسط سیستم شنوایی انسان درک شوند. فشرده سازی پراتلاف به وسیله شناسایی صداهایی که فکر می‌کند نامربوط درک شده، صداهایی که شنیدن آن‌ها بسیار دشوار است افزونگی دریافتی را کاهش می‌دهد. نمونه‌هایی شامل فرکانس‌های بالا یا صداهایی که هم‌زمان با صداهای بلندتر رخ می‌دهند یا اصلاً کد نمی‌شوند یا با دقت پایین کد می‌شوند. در حالی که کاهش یا حذف این صداهای «غیرقابل شنیدن» ممکن است درصد کمتری از بیت‌های ذخیره شده در فشرده‌سازی پراتلاف را باعث شوند، ذخیره‌سازی واقعی از تکمیل پدیده شکل‌دهی پارازیت حاصل می‌شود.

 کاهش تعداد بیتهای استفاده شده در کد یک

سیگنال مقدار پارازیت درون سیگنال را افزایش می‌دهد. در فشرده‌سازی براساس شناخت روح صوت (psychoacoustic) کلید واقعی «مخفی کردن» پارازیت تولید شده توسط بیت‌های ذخیره شده در نواحی غیرقابل شنیدن رشته صوتی است. این امر با استفاده کردن از تعداد بسیار کم بیت‌ها برای کد کردن فرکانس‌های بالای بیشتر سیگنال‌ها نه برای اینکه سیگنال کمی اطلاعات فرکانسی بالا دارد (هرچند که این امراغلب درست است) بلکه بیشتر به این دلیل که گوش انسان تنها می‌تواند سیگنال‌های خیلی بلند درون منطقه رادرک کند صورت می‌گیرد؛ بنابراین پارازیتهای صوتی نازک تر «مخفی شده» و به سادگی شنیده نمی‌شوند.

 اگر با کاهش افزونگی دریافتی، فشردگی کافی

برای کاربرد خاصی بدست نیامد ممکن است نیاز به فشردگی پراتلاف بیشتری داشته باشیم و با توجه به فایل صوتی اصلی هنوز هم ممکن است تفاوت قابل درکی ایجاد نشود. به عنوان مثال یک سخنرانی می‌تواند بسیار بیشتر از موسیقی فشرده شود. اکثر برنامه‌های فشرده‌سازی پراتلاف اجازه می‌دهند تا پارامترهای فشرده‌سازی برای رسیدن به یک نرخ مورد نظر ازداده‌ها منطبق شوند که به آن نرخ بیت می‌گویند. کاهش داده‌ها ممکن است به وسیلهٔ برخی از مدل‌ها بسته به اینکه چقدر نحوه درک صدا به وسیلهٔ گوش انسان مهم است. با هدف کار آمدی وبهینگی کیفیت برای نرخ داده مورد نظر عمل می‌کنند (مدل‌های مختلفی برای این آنالیزهای ادراکی استفاده می‌شوند که برخی از آن‌ها برای انواع مختلف صدا نسبت به بقیه مناسب تر هستند) حتی، با توجه به پهنای باند و حافظه لازم، استفاده از فشرده‌سازی پراتلاف ممکن است در یک کاهش کیفیت صدا که محدوده آن از صفرتا بسیار زیاد است دیده شود اما معمولاًکاهش کیفیت آشکارا شنیدنی برای شنونده قابل قبول نیست.

 با توجه به این که داده‌ها در طول فشرده‌سازی

پراتلاف از دست می‌روند و به وسیلهٔ بازگشایی قابل برگشت نیستند بعضی از مردم برای آرشیو کردن فایل‌ها در حافظه ممکن است ترجیح دهند که از فشرده‌سازی پراتلاف استفاده نکنند. با این وجود، حتی ممکن است کسانی که از فشرده‌سازی پراتلاف استفاده می‌کنند (برای استفاده‌های صوتی قابل حمل) بخواهند که یک نسخه بدون اتلاف آرشیوی برای سایر کاربردها حفظ کنند. به عبارت دیگر، تکنولوژی فشرده‌سازی برای دست یافتن به حالتی از هنر فشرده‌سازی پراتلاف که نیازی به فشرده‌سازی بدون اتلاف نداشته باشد به پیشرفت خود ادامه می‌دهد، تا داده‌های صوتی اصلی توسط کدگذار پراتلاف جدید فشرده شوند. طبیعتاً در فشرده‌سازی پراتلاف (هم برای صوت و هم عکس) اگر داده‌ها باز شوند و مجدداً به صورت پراتلاف فشرده شوند کاهش کیفیت بیشتری حاصل می‌شود.

 '
 '
 '

روش‌های کد کردن

روش‌های دگرگونی دامنه

برای تصمیم‌گیری دربارهٔ اطلاعاتی در سیگنال صوتی که نامفهوم دریافت شده‌اند اکثرالگوریتم‌های فشرده‌سازی پراتلاف از تغییر شکل برای تبدیل دامنه زمانی شکل موج‌های نمونه گرفته شده به دامنه دگرگونی استفاده می‌کنند مثال: moditied discrete cosine transform

روش‌های دامنه زمانی

نوعی دیگری از فشرده‌سازهای پراتلاف مثل کد کردن پیشگویانه خطی (به انگلیسی: (linear predictive coding (lpc)

کاربردها

 دراثرطبیعت الگوریتم‌های پراتلاف کیفیت صداوقتی

که فایل فشرده می‌شود ودوباره باز می‌شود از دست می‌رود و این امر باعث می‌شود که فشرده‌سازی پراتلاف برای ذخیره کردن نتایج مداخله‌کننده در کاربردهای حرفه‌ای مهندسی صدامثل تدوین صداوضبط چند رسانه‌ای مناسب نباشد ولی به هر حال این روش‌ها در بین کاربران بسیار مطرح هستند (خصوصاً mp۳) که یک مگابایت آن می‌تواند یک دقیقه موسیقی با کیفیت کافی ذخیره کند.

کد کردن سخنرانی

 کدکردن‌سخنرانی یکی‌ازانواع‌مهم فشرده‌سازی‌داده‌های

صوتی است. مدل‌های ادراکی برای تخمین آنچه که گوش انسان می‌تواند به صورت معمول بشنود استفاده می‌شوند که قدری با روش استفاده شده برای موسیقی متفاوت است این امر با ترکیب دو روش زیر صورت می‌گیرد:

 ۱. تن‌ها با کد کردن صداهایی که با صوت یک انسان می‌توانند

ایجاد شوند.

 ۲. دورریختن داه‌های اضافی درون یک سیگنال-- تنها

نگهداری صداهای کافی برای ساخت مجدد «مفهوم» در مقایسه با محدوده کامل فرکانسی قابل شنیدن برای انسان

منابع

http://en.wikipedia.org/wiki/Audio_data_compression