అమెజాన్ నోవా సోనిక్ ఆడియో మోడల్‌ను ప్రకటించింది, ఓపెనై మరియు గూగుల్‌ను అధిగమిస్తుందని పేర్కొంది

10 1 minute read

అమెజాన్ నోవా సోనిక్ ఆడియో మోడల్‌ను ప్రకటించింది, ఓపెనై మరియు గూగుల్‌ను అధిగమిస్తుందని పేర్కొంది

అమెజాన్ టుడే ప్రకటించారు నోవా సోనిక్, స్టేట్ ఆఫ్ ది ఆర్ట్ స్పీచ్-టు-స్పీచ్ మోడల్, ఇది రియల్ టైమ్, మానవ లాంటి వాయిస్ సంభాషణలను కలిగి ఉన్న అనువర్తనాలను రూపొందించడానికి డెవలపర్‌లను అనుమతిస్తుంది. అమెజాన్ ఈ కొత్త ఆడియో మోడల్ పరిశ్రమ-ప్రముఖ ధరల పనితీరు మరియు తక్కువ జాప్యాన్ని అందిస్తుందని పేర్కొంది.

సాధారణంగా, వాయిస్-ఎనేబుల్డ్ అనువర్తనాన్ని అభివృద్ధి చేయడానికి డెవలపర్లు బహుళ మోడళ్లతో పనిచేయడానికి అవసరం-ప్రసంగాన్ని టెక్స్ట్‌గా మార్చడానికి స్పీచ్ రికగ్నిషన్ మోడల్, స్పందనలను అర్థం చేసుకోవడానికి మరియు ఉత్పత్తి చేయడానికి పెద్ద భాషా నమూనాలు మరియు వచనాన్ని తిరిగి ఆడియోగా మార్చడానికి టెక్స్ట్-టు-స్పీచ్ మోడల్. ఈ విధానం సంక్లిష్టమైనది మాత్రమే కాదు, కీలకమైన శబ్ద సందర్భం మరియు స్వరం, ప్రోసోడి మరియు మాట్లాడే శైలి వంటి సూక్ష్మ నైపుణ్యాలను సంగ్రహించడంలో కూడా విఫలమవుతుంది.

నోవా సోనిక్ అవగాహన మరియు ఆడియో జనరేషన్ సామర్థ్యాలను ఒకే మోడల్‌గా ఏకీకృతం చేయడం ద్వారా ఈ సవాలును పరిష్కరిస్తుంది. ఈ ఇంటిగ్రేటెడ్ విధానం మోడల్ టోన్, స్టైల్ మరియు మాట్లాడే ఇన్పుట్ను అర్థం చేసుకోవడానికి అనుమతిస్తుంది, ఫలితంగా మరింత సహజ సంభాషణ జరుగుతుంది. ఇది ప్రతిస్పందించడానికి తగిన సమయాన్ని కూడా నిర్ణయించగలదు మరియు అంతరాయాలను నిర్వహించడానికి (బార్జ్-ఇన్లు) మెరుగ్గా ఉంటుంది.

నోవా సోనిక్ అమెరికన్ మరియు బ్రిటిష్లతో సహా వివిధ ఆంగ్ల స్వరాలులో పురుష- మరియు స్త్రీ-ధ్వని స్వరాలకు మద్దతు ఇస్తుంది. డెవలపర్లు అమెజాన్ బెడ్‌రాక్ ద్వారా ద్వి దిశాత్మక స్ట్రీమింగ్ API ద్వారా మోడల్‌ను యాక్సెస్ చేయవచ్చు, ఫంక్షన్ కాలింగ్‌కు మద్దతుతో. ఇందులో కంటెంట్ మోడరేషన్ మరియు వాటర్‌మార్కింగ్ వంటి అంతర్నిర్మిత రక్షణలు కూడా ఉన్నాయి.

దిగువ మోడల్ వివరాలను కనుగొనండి:

	అమెజాన్ నోవా సోనిక్
మోడల్ ఐడి	అమెజాన్.నోవా-సోనిక్-వి 1: 0
ఇన్పుట్ పద్ధతులు	ప్రసంగం
అవుట్పుట్ పద్ధతులు	ట్రాన్స్క్రిప్షన్ మరియు టెక్స్ట్ ప్రతిస్పందనలతో ప్రసంగం
సందర్భ విండో	300 కె సందర్భం
గరిష్ట కనెక్షన్ వ్యవధి	8 నిమిషాల కనెక్షన్ సమయం ముగిసింది, ప్రతి కస్టమర్‌కు గరిష్టంగా 20 ఏకకాలిక కనెక్షన్‌లతో.
మద్దతు ఉన్న భాషలు	ఇంగ్లీష్
ప్రాంతాలు	యుఎస్ ఈస్ట్ (ఎన్. వర్జీనియా)
ద్వి దిశాత్మక స్ట్రీమ్ API మద్దతు	అవును
బెడ్‌రాక్ నాలెడ్జ్ బేస్‌లు	సాధనం ఉపయోగం ద్వారా మద్దతు ఉంది (ఫంక్షన్ కాలింగ్)

సంబంధిత గమనికలో, గత నెల ఓపెనై ప్రకటించారు తరువాతి తరం స్పీచ్-టు-టెక్స్ట్ మోడల్స్, జిపిటి -4-ట్రాన్స్క్రయిబ్ మరియు జిపిటి -4 ఓ-మిని-ట్రాన్స్క్రిబ్లో, దాని ప్రస్తుత విస్పర్ మోడళ్లతో పోలిస్తే పద లోపం రేటు, భాషా గుర్తింపు మరియు ఖచ్చితత్వంలో గణనీయమైన మెరుగుదలలను అందిస్తుంది.

Source link