ਭਾਰਤ-ਨਿਰਮਿਤ ਐਪ ਨੇੜਲੇ ਰੀਅਲ-ਟਾਈਮ ਪ੍ਰੀਮੀਅਮ ਵਿੱਚ ਗੰਦੀ ਬੋਲੀ ਨੂੰ ਸਪਸ਼ਟ ਭਾਸ਼ਣ ਵਿੱਚ ਬਦਲ ਦਿੱਤਾ

ਭਾਰਤ-ਨਿਰਮਿਤ ਐਪ ਨੇੜਲੇ ਰੀਅਲ-ਟਾਈਮ ਪ੍ਰੀਮੀਅਮ ਵਿੱਚ ਗੰਦੀ ਬੋਲੀ ਨੂੰ ਸਪਸ਼ਟ ਭਾਸ਼ਣ ਵਿੱਚ ਬਦਲ ਦਿੱਤਾ

ਪ੍ਰੋਜੈਕਟ ਲੀਡਰ ਵਿਨੀਤ ਗਾਂਧੀ ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ ਦੇਰੀ ਸਿਰਫ ਕੁਝ ਸੌ ਮਿਲੀਸਕਿੰਟ ਦੀ ਹੈ ਅਤੇ ਡਿਵੈਲਪਰ ਹੁਣ ਖੇਤਰੀ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਧਿਆਨ ਦੇ ਰਹੇ ਹਨ।

ਇੱਕ ਫੁਸਫੁਸ. ਕੁਝ ਅਸਪਸ਼ਟ ਸ਼ਬਦ। ਉਹਨਾਂ ਲੋਕਾਂ ਲਈ ਜੋ ਡਾਇਸਾਰਥਰੀਆ ਤੋਂ ਪੀੜਤ ਹਨ, ਇੱਕ ਮੋਟਰ ਸਪੀਚ ਡਿਸਆਰਡਰ, ਬੁਨਿਆਦੀ ਸੰਚਾਰ ਇੱਕ ਚੁਣੌਤੀ ਹੈ, ਜੋ ਉਹਨਾਂ ਦੇ ਪੇਸ਼ੇਵਰ ਅਤੇ ਨਿੱਜੀ ਜੀਵਨ ਦੋਵਾਂ ਨੂੰ ਅਮਿੱਟ ਰੂਪ ਵਿੱਚ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ। ਪਰ ਹੁਣ ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ‘ਤੇ ਆਧਾਰਿਤ ਇੱਕ ਨਵੀਂ ਕਾਢ ਅਤੇ ਭਾਰਤ ਵਿੱਚ ਵਿਕਸਿਤ ਕੀਤੀ ਗਈ ਹੈ, ਜੋ ਜੀਵਨ ਬਦਲਣ ਵਾਲੀ ਹੋ ਸਕਦੀ ਹੈ।

ਇੰਟਰਨੈਸ਼ਨਲ ਇੰਸਟੀਚਿਊਟ ਆਫ ਇਨਫਰਮੇਸ਼ਨ ਟੈਕਨਾਲੋਜੀ (IIIT), ਹੈਦਰਾਬਾਦ ਦੇ ਐਸੋਸੀਏਟ ਪ੍ਰੋਫੈਸਰ ਵਿਨੀਤ ਗਾਂਧੀ ਦੀ ਅਗਵਾਈ ਵਾਲੀ ਇੱਕ ਟੀਮ ਨੇ ਇੱਕ ਸਧਾਰਨ ਐਪ ਤਿਆਰ ਕੀਤੀ ਹੈ ਜੋ ਲੋਕਾਂ ਨੂੰ ਗੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ ਕਿਉਂਕਿ ਆਡੀਓ ਅਨੁਵਾਦ ਸਪੀਕਰ ਦੀ ਆਵਾਜ਼ ਨੂੰ ਅਸਲ-ਸਮੇਂ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਐਪ ਜਾਂ ਤਾਂ ਗੰਦੀ ਬੋਲੀ ਨੂੰ ਸਪੱਸ਼ਟ, ਕੁਦਰਤੀ-ਅਵਾਜ਼ ਵਾਲੀ ਬੋਲੀ ਵਿੱਚ ਬਦਲ ਸਕਦੀ ਹੈ ਜਾਂ ਬੁੱਲ੍ਹਾਂ ਦੀਆਂ ਹਰਕਤਾਂ ਅਤੇ ਸੂਖਮ ਗਲੇ ਦੀਆਂ ਥਿੜਕਣਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਕੈਮਰੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਮਝਦਾਰੀ ਵਾਲੀ ਬੋਲੀ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ।

ਜਦੋਂ ਕਿ ਮੌਜੂਦਾ ਪ੍ਰੋਜੈਕਟ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਚੱਲਦਾ ਹੈ, ਟੀਮ ਦਾ ਅਗਲਾ ਉਦੇਸ਼ ਹਿੰਦੀ, ਤੇਲਗੂ ਅਤੇ ਤਾਮਿਲ ਸਮੇਤ ਖੇਤਰੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਇਹਨਾਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਲੈ ਕੇ ਜਾਣਾ ਹੈ, ਕਿਉਂਕਿ ਦੇਸ਼ ਭਰ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਲੋਕਾਂ ਕੋਲ ਪਹੁੰਚ-ਕੇਂਦ੍ਰਿਤ AI ਮਾਡਲਾਂ ਤੋਂ ਲਾਭ ਲੈਣ ਦੇ ਸਾਧਨ ਨਹੀਂ ਹਨ। ਇਸ ਕੰਮ ਲਈ, ਸ਼੍ਰੀ ਗਾਂਧੀ ਨੇ 2026 ਵਿੱਚ ਨੈਸ਼ਨਲ ਰਿਸਰਚ ਫਾਊਂਡੇਸ਼ਨ (ANRF) ਅਵਾਰਡ ਜਿੱਤਿਆ।

ਇੱਕ ਇੰਟਰਵਿਊ ਦੇ ਅੰਸ਼:

ਇਸ humanoid AI ਪ੍ਰੋਜੈਕਟ ‘ਤੇ ਕੰਮ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ ਕਿਸ ਚੀਜ਼ ਨੇ ਪ੍ਰੇਰਿਤ ਕੀਤਾ?

ਮੇਰੀ ਖੋਜ ਹਮੇਸ਼ਾ ਇੱਕ ਸਧਾਰਨ ਸਵਾਲ ਦੁਆਰਾ ਚਲਾਈ ਗਈ ਹੈ: ਤਕਨਾਲੋਜੀ ਕਿਹੜੀਆਂ ਅਸਲ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ?

ਜਦੋਂ ਕਿ ਮੇਰੀ ਅਕਾਦਮਿਕ ਸਿਖਲਾਈ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਵਿੱਚ ਹੈ, ਲਗਭਗ ਚਾਰ ਸਾਲ ਪਹਿਲਾਂ, ਮੈਂ ਭਾਸ਼ਣ ਖੋਜ ਵਿੱਚ ਉੱਭਰਦੀਆਂ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਦੇਖਣਾ ਸ਼ੁਰੂ ਕੀਤਾ ਅਤੇ ਇਸ ਖੇਤਰ ਨੂੰ ਹੋਰ ਡੂੰਘਾਈ ਵਿੱਚ ਖੋਜਣ ਦਾ ਫੈਸਲਾ ਕੀਤਾ। ਮੈਂ ਬਹੁਤ ਸਾਰੇ ਵਿਅਕਤੀਆਂ ਦੁਆਰਾ ਦਰਪੇਸ਼ ਚੁਣੌਤੀਆਂ ਤੋਂ ਜਾਣੂ ਹੋ ਗਿਆ ਹਾਂ ਜੋ ਡਾਕਟਰੀ ਸਥਿਤੀਆਂ ਕਾਰਨ ਬੋਲਣ ਦੀ ਯੋਗਤਾ ਗੁਆ ਦਿੰਦੇ ਹਨ: ਇਸ ਨੁਕਸਾਨ ਦਾ ਪ੍ਰਭਾਵ ਸੰਚਾਰ ਤੋਂ ਬਹੁਤ ਦੂਰ ਹੈ – ਇਹ ਸੁਤੰਤਰਤਾ, ਪਛਾਣ ਅਤੇ ਸੰਪਰਕ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦਾ ਹੈ।

ਇਸ ਲੋੜ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ ਮੈਂ ਲੋਕਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀਆਂ ਆਵਾਜ਼ਾਂ ਨੂੰ ਵਾਪਸ ਲਿਆਉਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਦੇ ਟੀਚੇ ਨਾਲ, ਬੋਲੀ ਨੂੰ ਬਹਾਲ ਕਰਨ ਜਾਂ ਸਮਰੱਥ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਪਹੁੰਚਯੋਗਤਾ-ਸੰਚਾਲਿਤ ਤਕਨੀਕਾਂ ‘ਤੇ ਆਪਣਾ ਕੰਮ ਕੇਂਦਰਿਤ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ।

ਕੀ ਤੁਸੀਂ ਸਮਝਾ ਸਕਦੇ ਹੋ ਕਿ ਐਪ ਬੋਲਣ ਤੋਂ ਅਸਮਰਥ ਲੋਕਾਂ ਲਈ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ?

ਐਪ ਨੂੰ ਸਿਰਫ ਕੁਝ ਸੌ ਮਿਲੀਸਕਿੰਟ ਦੀ ਦੇਰੀ ਨਾਲ ਗੰਦੀ ਜਾਂ ਗੰਦੀ ਬੋਲੀ ਨੂੰ ਸਪੱਸ਼ਟ, ਕੁਦਰਤੀ-ਧੁਨੀ ਵਾਲੀ ਬੋਲੀ ਵਿੱਚ ਬਦਲਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇੱਕ ਉਪਭੋਗਤਾ ਸਿਰਫ਼ ਆਪਣੀ ਆਵਾਜ਼ ਵਿੱਚ ਬੋਲਦਾ ਹੈ, ਅਤੇ ਸਿਸਟਮ ਸੁਣਨ ਵਾਲੇ ਲਈ ਸਮਝਦਾਰ ਭਾਸ਼ਣ ਤਿਆਰ ਕਰਨ ਲਈ ਇਸਨੂੰ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ।

ਅਸੀਂ ਇੱਕ ਪੂਰਕ ਲਿਪ-ਟੂ-ਸਪੀਚ ਸਮਰੱਥਾ ਨੂੰ ਵੀ ਵਿਕਸਤ ਕਰ ਰਹੇ ਹਾਂ, ਜਿੱਥੇ ਕੋਈ ਵਿਅਕਤੀ ਚੁੱਪਚਾਪ ਆਪਣੇ ਬੁੱਲ੍ਹਾਂ ਨੂੰ ਹਿਲਾ ਸਕਦਾ ਹੈ ਅਤੇ ਸਿਸਟਮ ਅਨੁਸਾਰੀ ਬੋਲੀ ਪੈਦਾ ਕਰਦਾ ਹੈ।

ਇਕ ਮੁੱਖ ਪਹਿਲੂ ਜਿਸ ‘ਤੇ ਅਸੀਂ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਰਹੇ ਹਾਂ ਉਹ ਹੈ ਵਿਅਕਤੀਗਤਕਰਨ, ਜਿੱਥੇ ਉਪਭੋਗਤਾ ਐਪ ‘ਤੇ ਕੁਝ ਮਿੰਟਾਂ ਦੇ ਟੈਕਸਟ ਨੂੰ ਪੜ੍ਹ ਕੇ ਆਪਣੀ ਆਵਾਜ਼ ਦੇ ਅਨੁਸਾਰ ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਕੈਲੀਬਰੇਟ ਅਤੇ ਸੁਧਾਰ ਸਕਦੇ ਹਨ।

ਸਾਡਾ ਟੀਚਾ ਇਹਨਾਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਆਮ ਸੰਚਾਰ ਪਲੇਟਫਾਰਮਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਵੈਬ-ਆਧਾਰਿਤ ਕਾਲਿੰਗ ਐਪਲੀਕੇਸ਼ਨਾਂ, ਬੋਲਣ ਦੀ ਅਸਮਰਥਤਾ ਵਾਲੇ ਲੋਕਾਂ ਲਈ ਰੋਜ਼ਾਨਾ ਸੰਚਾਰ ਨੂੰ ਆਸਾਨ ਬਣਾਉਣ ਲਈ।

ਤੁਸੀਂ ਇਸ ਤਕਨਾਲੋਜੀ ਨੂੰ ਖੇਤਰੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ ਵਧਾਉਣ ਦਾ ਵੀ ਟੀਚਾ ਰੱਖਦੇ ਹੋ। ਤੁਸੀਂ ਇਸ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹੋ?

ਵਰਤਮਾਨ ਵਿੱਚ, ਜ਼ਿਆਦਾਤਰ ਗਲੋਬਲ ਸਪੀਚ ਟੈਕਨੋਲੋਜੀ ਈਕੋਸਿਸਟਮ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਅੰਗਰੇਜ਼ੀ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਅਤੇ ਸਾਡੇ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰਯੋਗ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਉਸ ਚਾਲ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਸਾਡੀ ਖੋਜ ਦਾ ਇੱਕ ਮੁੱਖ ਟੀਚਾ ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਖੇਤਰੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ ਵਧਾਉਣਾ ਹੈ, ਜਿੱਥੇ ਪਹੁੰਚਯੋਗ ਭਾਸ਼ਣ ਤਕਨੀਕਾਂ ਵੀ ਬਰਾਬਰ ਮਹੱਤਵਪੂਰਨ ਹਨ।

ਇਸ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਬੋਲੀ ਦੇ ਡੇਟਾ ਨੂੰ ਇਕੱਤਰ ਕਰਨ ਅਤੇ ਘੱਟ-ਸਰੋਤ ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਢੁਕਵੇਂ ਡੇਟਾ-ਕੁਸ਼ਲ ਮਾਡਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੇ ਹਾਂ। ਸਾਡੀ ਪਹੁੰਚ ਵਿੱਚ ਡਾਟਾ ਵਧਾਉਣਾ ਅਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਂਡ ਮਾਡਲਾਂ ਦੀ ਕੁਸ਼ਲ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਸ਼ਾਮਲ ਹੈ।

ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਸ਼ਾਨਦਾਰ ਨਤੀਜਿਆਂ ਦੇ ਨਾਲ ਹਿੰਦੀ ਵਿੱਚ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰਯੋਗ ਕਰ ਚੁੱਕੇ ਹਾਂ, ਅਤੇ ਨੈਸ਼ਨਲ ਰਿਸਰਚ ਫਾਊਂਡੇਸ਼ਨ ਦੇ ਸਹਿਯੋਗ ਨਾਲ, ਅਸੀਂ ਇਸ ਕੰਮ ਨੂੰ ਹੋਰ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਤੱਕ ਵਧਾਉਣ ਅਤੇ ਵਧਾਉਣ ਦਾ ਟੀਚਾ ਰੱਖਦੇ ਹਾਂ।

ਤੁਸੀਂ ਮੰਨਦੇ ਹੋ ਕਿ ਭਾਰਤ ਵਿੱਚ AI ਖੋਜ ਲਈ “ਪਹੁੰਚਯੋਗਤਾ ਅਤੇ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ” ਮਹੱਤਵਪੂਰਨ ਹਨ। ਕੀ ਤੁਸੀਂ ਵਰਣਨ ਕਰ ਸਕਦੇ ਹੋ?

ਪਹੁੰਚ ਅਤੇ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਭਾਰਤ ਵਿੱਚ AI ਖੋਜ ਲਈ ਬੁਨਿਆਦੀ ਵਿਚਾਰ ਹਨ। ਯੂਰਪ ਵਿੱਚ ਕਈ ਸਾਲ ਬਿਤਾਉਣ ਤੋਂ ਬਾਅਦ, ਮੈਂ ਦੇਖਿਆ ਕਿ ਉੱਥੇ ਜਨਤਕ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਅਤੇ ਡਿਜੀਟਲ ਸੇਵਾਵਾਂ ਤੱਕ ਪਹੁੰਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੰਗਠਿਤ ਹੈ।

ਇਸਦੇ ਉਲਟ, ਭਾਰਤ ਵਿੱਚ ਅਜੇ ਵੀ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਹਨ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਰੇਲਵੇ ਸਟੇਸ਼ਨਾਂ ਵਰਗੇ ਜਨਤਕ ਸਥਾਨਾਂ ਵਿੱਚ, ਜਿੱਥੇ ਬੁਨਿਆਦੀ ਪਹੁੰਚਯੋਗਤਾ ਪ੍ਰਬੰਧ ਅਕਸਰ ਸੀਮਤ ਹੁੰਦੇ ਹਨ। ਇਹ ਉਹਨਾਂ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਨ ਦੀ ਵਿਆਪਕ ਲੋੜ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਜੋ ਸੁਚੇਤ ਤੌਰ ‘ਤੇ ਅਪਾਹਜ ਲੋਕਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ।

ਇਸ ਦੇ ਨਾਲ ਹੀ ਭਾਰਤ ਦੀ ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂ ਪੇਸ਼ ਕਰਦੀ ਹੈ। ਦੇਸ਼ ਦੇ ਬਹੁਤ ਸਾਰੇ ਹਿੱਸਿਆਂ ਵਿੱਚ, ਖਾਸ ਕਰਕੇ ਪੇਂਡੂ ਖੇਤਰਾਂ ਵਿੱਚ, ਗੱਲਬਾਤ ਸੰਚਾਰ ਦਾ ਸਭ ਤੋਂ ਕੁਦਰਤੀ ਅਤੇ ਪ੍ਰਾਇਮਰੀ ਤਰੀਕਾ ਹੈ। ਟੈਕਸਟ-ਭਾਰੀ ਜਾਂ ਟਾਈਪਿੰਗ-ਅਧਾਰਿਤ ਇੰਟਰਫੇਸ ਅਜਿਹੇ ਸੰਦਰਭਾਂ ਵਿੱਚ ਹਮੇਸ਼ਾ ਵਿਹਾਰਕ ਜਾਂ ਸੰਮਿਲਿਤ ਨਹੀਂ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ, ਭਾਰਤ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਬੋਲੀ-ਅਧਾਰਤ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨੂੰ ਤਰਜੀਹ ਦੇਣੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਕਈ ਖੇਤਰੀ ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਸਮੁੱਚੇ ਤੌਰ ‘ਤੇ, ਭਾਸ਼ਾਈ ਵਿਭਿੰਨਤਾ ਲਈ ਅਰਥਪੂਰਨ ਪਹੁੰਚ ਅਤੇ ਮਜ਼ਬੂਤ ​​ਸਮਰਥਨ ਜ਼ਰੂਰੀ ਹੈ ਜੇਕਰ ਡਿਜੀਟਲ ਤਕਨਾਲੋਜੀਆਂ ਨੂੰ ਸੱਚਮੁੱਚ ਸੰਮਿਲਿਤ ਅਤੇ ਦੇਸ਼ ਭਰ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤਿਆ ਜਾਣਾ ਹੈ।

WHO ਨੇ ਕਿਹਾ ਹੈ ਕਿ “ਸਿਹਤ ਸੰਭਾਲ ਦਾ ਭਵਿੱਖ ਡਿਜੀਟਲ ਹੈ”…

ਵਿਸ਼ਵ ਸਿਹਤ ਸੰਗਠਨ ਨੇ ਇਸ ਗੱਲ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਹੈ ਕਿ ਸਿਹਤ ਸੰਭਾਲ ਦਾ ਭਵਿੱਖ ਤੇਜ਼ੀ ਨਾਲ ਡਿਜੀਟਲ ਹੋਵੇਗਾ। ਭਾਰਤ ਵਰਗੇ ਦੇਸ਼ ਵਿੱਚ, ਟੈਲੀਮੇਡੀਸਨ ਇੱਕ ਪਰਿਵਰਤਨਸ਼ੀਲ ਭੂਮਿਕਾ ਨਿਭਾ ਸਕਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ ਸਥਾਨਕ ਪੱਧਰ ‘ਤੇ ਬੁਨਿਆਦੀ ਕਲੀਨਿਕਲ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੁਆਰਾ ਸਮਰਥਤ ਹੁੰਦੀ ਹੈ, ਵਧੇਰੇ ਸਟੀਕ ਰਿਮੋਟ ਸਲਾਹ-ਮਸ਼ਵਰੇ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਦਿਸ਼ਾ ਏਆਈ-ਸਹਾਇਤਾ ਪ੍ਰਾਪਤ ਡਾਇਗਨੌਸਟਿਕਸ ਹੈ, ਜਿੱਥੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪ੍ਰਣਾਲੀਆਂ ਡਾਕਟਰੀ ਚਿੱਤਰਾਂ, ਭਾਸ਼ਣ ਜਾਂ ਸਿਹਤ ਰਿਕਾਰਡਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੀਆਂ ਹਨ ਤਾਂ ਜੋ ਬਿਮਾਰੀ ਦੀ ਸ਼ੁਰੂਆਤੀ ਖੋਜ ਅਤੇ ਭਵਿੱਖਬਾਣੀ ਦਾ ਸਮਰਥਨ ਕੀਤਾ ਜਾ ਸਕੇ।

ਵਿਹਾਰਕ ਹੱਲ ਪਹਿਲਾਂ ਹੀ ਉਭਰ ਰਹੇ ਹਨ. ਉਦਾਹਰਨ ਲਈ, ਵਾਧਵਾਨੀ AI ਦੁਆਰਾ ਵਿਕਸਤ ‘ਸ਼ਿਸ਼ੂ ਮਾਪ’ ਇੱਕ ਮੋਬਾਈਲ ਫੋਟੋ ਤੋਂ ਇੱਕ ਨਵਜੰਮੇ ਬੱਚੇ ਦੇ ਭਾਰ ਅਤੇ ਆਕਾਰ ਨੂੰ ਮਾਪਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਅਤੇ ਆਸ਼ਾ ਵਰਕਰਾਂ ਵਰਗੇ ਫਰੰਟਲਾਈਨ ਸਿਹਤ ਕਰਮਚਾਰੀਆਂ ਦੁਆਰਾ ਅਪਣਾਇਆ ਜਾ ਰਿਹਾ ਹੈ।

ਡਿਜੀਟਲ ਉਪਕਰਨ ਸਹਾਇਕ ਸਿਹਤ ਦੇਖ-ਰੇਖ ਤਕਨੀਕਾਂ ਨੂੰ ਵੀ ਸਮਰੱਥ ਬਣਾ ਰਹੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਬੋਲਣ ਦੀ ਸਮਰੱਥਾ ਗੁਆ ਚੁੱਕੇ ਵਿਅਕਤੀਆਂ ਲਈ ਸਪੀਚ ਰੀਸਟੋਰੇਸ਼ਨ ਸਿਸਟਮ ਅਤੇ ਪਹਿਨਣਯੋਗ ਯੰਤਰ ਸ਼ਾਮਲ ਹਨ ਜੋ ਸਿਹਤ ਦੇ ਮਾਪਦੰਡਾਂ ਦੀ ਲਗਾਤਾਰ ਨਿਗਰਾਨੀ ਕਰਦੇ ਹਨ ਅਤੇ ਡਾਕਟਰਾਂ ਨੂੰ ਸੰਭਾਵੀ ਵਿਗਾੜਾਂ ਪ੍ਰਤੀ ਸੁਚੇਤ ਕਰਦੇ ਹਨ। ਇਹ ਵਿਕਾਸ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਕਿਵੇਂ ਡਿਜੀਟਲ ਨਵੀਨਤਾ ਸਿਹਤ ਸੰਭਾਲ ਨੂੰ ਵਧੇਰੇ ਪਹੁੰਚਯੋਗ ਅਤੇ ਸਕੇਲੇਬਲ ਬਣਾ ਸਕਦੀ ਹੈ।

ਏਆਈ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੀ ਗਈ ਭਾਸ਼ਣ ਦੀ ਇੱਕ ਆਮ ਆਲੋਚਨਾ ਇਹ ਹੈ ਕਿ ਹਾਲਾਂਕਿ ਇਹ ਸਮਝਣ ਯੋਗ ਹੈ, ਇਹ ਅਕਸਰ ਸਪੀਕਰ ਦੀ ਵਿਲੱਖਣ ਲਹਿਜੇ ਨੂੰ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ। ਡਾਇਸਾਰਥਰੀਆ ਵਾਲੇ ਕਿਸੇ ਵਿਅਕਤੀ ਦੀ ਆਵਾਜ਼ ਨੂੰ ਬਹਾਲ ਕਰਦੇ ਸਮੇਂ, ਤੁਸੀਂ ਉਪਭੋਗਤਾ ਦੇ ਵਿਅਕਤੀਗਤ ਮਨੁੱਖੀ ਤੱਤ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣ ਦੀ ਜ਼ਰੂਰਤ ਦੇ ਨਾਲ ਸਪਸ਼ਟ ਸੰਚਾਰ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਕਿਵੇਂ ਸੰਤੁਲਿਤ ਕਰਦੇ ਹੋ?

ਇਹ ਮਹੱਤਵਪੂਰਨ ਚਿੰਤਾ ਦਾ ਵਿਸ਼ਾ ਹੈ। ਜੇਕਰ ਡਾਇਸਾਰਥਰੀਆ ਦੀ ਸ਼ੁਰੂਆਤ ਤੋਂ ਪਹਿਲਾਂ ਸਪੀਕਰ ਦੀ ਅਸਲੀ ਆਵਾਜ਼ ਦੀ ਰਿਕਾਰਡਿੰਗ ਉਪਲਬਧ ਹੈ, ਤਾਂ ਆਧੁਨਿਕ ਵੌਇਸ ਕਲੋਨਿੰਗ ਤਕਨੀਕ ਉਸ ਆਵਾਜ਼ ਨੂੰ 10 ਸਕਿੰਟਾਂ ਦੇ ਭਾਸ਼ਣ ਨਾਲ ਦੁਬਾਰਾ ਬਣਾ ਸਕਦੀ ਹੈ। ਕਿਸੇ ਵਿਅਕਤੀ ਦੀ ਵੋਕਲ ਪਛਾਣ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣਾ ਇਸ ਲਈ ਅੱਜ ਤਕਨੀਕੀ ਤੌਰ ‘ਤੇ ਸੰਭਵ ਹੈ, ਅਤੇ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਕਾਫੀ ਖੋਜ ਮੌਜੂਦ ਹੈ। ਹਾਲਾਂਕਿ, ਸਾਡੀ ਮੌਜੂਦਾ ਐਪ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਸਮੱਗਰੀ ਦੀ ਸਪੱਸ਼ਟਤਾ ਨੂੰ ਬਹਾਲ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦੀ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਉਪਭੋਗਤਾ ਜੋ ਕਹਿਣਾ ਚਾਹੁੰਦਾ ਹੈ ਉਸਨੂੰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਦੱਸਿਆ ਗਿਆ ਹੈ। ਹੁਣ ਲਈ, ਤਿਆਰ ਕੀਤੀ ਬੋਲੀ ਵਿਅਕਤੀਗਤ ਆਵਾਜ਼ਾਂ ਦੀ ਬਜਾਏ ਆਮ ਆਵਾਜ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।

ਉਸ ਨੇ ਕਿਹਾ, ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਪ੍ਰਣਾਲੀਆਂ ਤੇਜ਼ੀ ਨਾਲ ਕੁਦਰਤੀ ਬਣ ਰਹੀਆਂ ਹਨ, ਇਸ ਹੱਦ ਤੱਕ ਕਿ ਉਹ ਹੁਣ ਬਹੁਤ ਸਾਰੇ ਰਵਾਇਤੀ ਗਾਹਕ ਸੇਵਾ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਥਾਂ ਲੈ ਕੇ, ਗੱਲਬਾਤ ਵਾਲੇ ਬੋਟਾਂ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਹੋ ਰਹੇ ਹਨ। ਭਾਵਨਾਤਮਕ ਸੂਖਮਤਾ ਵਧੇਰੇ ਚੁਣੌਤੀਪੂਰਨ ਰਹਿੰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਹਮਦਰਦੀ ਭਰੇ ਭਾਸ਼ਣ ਉਤਪਾਦਨ ‘ਤੇ ਸਾਡੇ ਪਹਿਲੇ ਕੰਮ ਵਿੱਚ ਚਰਚਾ ਕੀਤੀ ਸੀ, ਪਰ ਤਰੱਕੀ ਤੇਜ਼ੀ ਨਾਲ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ।

ਜਦੋਂ ਉਪਭੋਗਤਾ ਇੱਕ ਵਿਅਸਤ ਭਾਰਤੀ ਸੜਕ ‘ਤੇ ਨੈਵੀਗੇਟ ਕਰਦਾ ਹੈ ਤਾਂ ਮਾਡਲ ਵਿਗੜਦੀ ਬੋਲੀ ਅਤੇ ਰੌਲੇ-ਰੱਪੇ ਵਾਲੇ ਪਿਛੋਕੜ ਵਿੱਚ ਕਿਵੇਂ ਫਰਕ ਕਰਦਾ ਹੈ?

ਇਹ ਭਾਰਤ ਵਿੱਚ ਸੱਚਮੁੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚੁਣੌਤੀ ਹੈ, ਜਿੱਥੇ ਅਸਲ-ਸੰਸਾਰ ਦਾ ਵਾਤਾਵਰਣ ਬਹੁਤ ਅਰਾਜਕ ਹੋ ਸਕਦਾ ਹੈ। ਜਿਸ ਕਿਸੇ ਨੇ ਵੀ ਇੱਥੇ ਸਵੈ-ਡਰਾਈਵਿੰਗ ਕਾਰਾਂ ਨੂੰ ਤਾਇਨਾਤ ਕਰਨ ਬਾਰੇ ਸੋਚਿਆ ਹੈ, ਉਹ ਜਲਦੀ ਹੀ ਇਹ ਮਹਿਸੂਸ ਕਰਦਾ ਹੈ ਕਿ ਸਾਡੀਆਂ ਸੜਕਾਂ ਕਿੰਨੀਆਂ ਅਣਪਛਾਤੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ: ਟ੍ਰੈਫਿਕ ਪੈਟਰਨ, ਹਾਰਨ ਵਜਾਉਣ ਵਾਲੇ, ਪੈਦਲ ਚੱਲਣ ਵਾਲੇ, ਅਤੇ ਵਾਹਨ ਸਾਰੇ ਬਹੁਤ ਹੀ ਗਤੀਸ਼ੀਲ ਤਰੀਕਿਆਂ ਨਾਲ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ। ਸਪੀਚ ਟੈਕਨਾਲੋਜੀ ਨੂੰ ਸਮਾਨ ਪੱਧਰ ਦੀ ਗੁੰਝਲਤਾ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।

ਸਾਡੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ, ਅਸੀਂ ਸ਼ੋਰ ਵਧਾਉਣ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਜਬੂਤੀ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੇ ਹਾਂ, ਜਿੱਥੇ ਅਸੀਂ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖ-ਵੱਖ ਰੌਲੇ-ਰੱਪੇ ਵਾਲੇ ਵਾਤਾਵਰਣਾਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹਾਂ ਤਾਂ ਜੋ ਮਾਡਲ ਬੈਕਗ੍ਰਾਊਂਡ ਦੀਆਂ ਆਵਾਜ਼ਾਂ ਨੂੰ ਸੰਭਾਲਣਾ ਸਿੱਖ ਸਕੇ। ਅੰਤ ਵਿੱਚ, ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੱਲ ਇੱਕ ਰੌਲੇ-ਰੱਪੇ ਵਾਲੀ ਸੈਟਿੰਗ ਨਾਲੋਂ ਵਧੇਰੇ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਨੂੰ ਇਕੱਠਾ ਕਰਨਾ ਅਤੇ ਸਿਖਲਾਈ ਦੇਣਾ ਹੈ। ਫਿਰ ਵੀ, ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਕੁਝ ਗਿਰਾਵਟ ਲਾਜ਼ਮੀ ਹੈ ਕਿਉਂਕਿ ਕਮਜ਼ੋਰ ਬੋਲਣ ਨੂੰ ਭਾਰੀ ਪਿਛੋਕੜ ਵਾਲੇ ਸ਼ੋਰ ਤੋਂ ਵੱਖ ਕਰਨਾ ਸੁਭਾਵਕ ਤੌਰ ‘ਤੇ ਇੱਕ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆ ਹੈ।

divine.gandhi@thehindu.co.in

Leave a Reply

Your email address will not be published. Required fields are marked *